网络矿工数据采集软件
锦囊 更多
- 网络矿工数据采集软件的教程 2021-03-30
- 提升Git体验:探索Gitui——高效的终端UI工具 2024-01-05
- Stirling PDF - 强大的本地 PDF 管理工具 2024-01-05
资讯 更多
- 网络矿工数据采集软件 v5.1 官方版更新 2014-07-11
- 微信Mac插件——微信小助手,是一款功能强大的插件 2024-01-08
- 完美解码:打造顶级视听盛宴的终极使用指南 2024-01-06
介绍
网络矿工数据采集软件是一款 互联网数据采集、编辑、 存储、发布为一体的工具软件。系统支持多任务、 多线程、代理IP 等策略,可以高效的采集各类网页数据、及下载各类文件,同时还提供了数据加工工具,可以在数据采集的同时就可完成数据加工操作,提升最终数据呈现的质量,网络矿工数据采集软件支持各类常用的数据库,包括MS SqlServer、MySql及Access,同时还支持web方式进行数据提交。
自网络矿工数据采集软件V5.0版开始,提供免费版本。
发展
网络矿工数据采集软件的前身是Soukey采摘数据采集器,至今已2年时间,最新版本为V5.0,并扩展了两个有效的工具:数据加工及发布工具,静默运行监控工具。
技术平台
网络矿工数据采集软件基于Microsoft VS2005开发,开发语言为C#,所以运行需在windows平台及Microsoft .NetFramework2.0以上环境运行。
授权方式
网络矿工数据采集软件V5.0开始提供免费版,其他版本按照用户数授权,不绑定计算机;
详细功能
数据采集功能
1、 多任务、多线程,支持一个任务运行多个实例;采集规则与运行实例分离的好处是修改任务信息后,并不影响已经运行的任务;
2、支持图片、 Flash及文件下载;下载并不支持多线程处理;
3、网址配置支持参数定制,及外部字典参数;通过字典方式可扩展自定义的参数值;
4、支持 Cookie、 POST采集;可记录Cookie,采集需要登录的网站数据,也可通过手工登录进行采集;
5、支持导航、自动翻页;可进行网址导航,譬如:通过新闻列表采集新闻内容;支持多层导航;
6、可采集Ajax数据;关于Ajax技术网站,需要通过HTTP 嗅探器探测其真实地址;推荐使用 Fiddler;
7、采集数据临时存储、断点续采;临时存储数据格式为XML;
8、支持数据导出,文件、数据库;数据库支持Access、MS SqlServer、MySql,文件支持文本文件和Excel;数据导出支持手工和自动,手工导出仅支持文件形式;
9 、提供网址编/解码工具;支持 UTF-8、 GB2312、 GBK、 Big5;
10、在线数据发布;支持在线数据发布,数据发布支持Cookie;
11、 数据采集支持采集数据加工; 可对采集数据进行字符串替换、截取、附加等操作,可自动去除网页符号,支持正则;
12、支持 任务计划;可定时执行任务,最小间隔为:0.5小时;
13、支持任务触发器;可触发采集任务、数据库 存储过程及可执行文件,支持采集完成及发布完成触发;
14、支持采集数据网址的自动输出;可作为内容引用、错误查找使用;
15、支持采集延时; 针对访问限制的网站,可采用采集延时控制单位时间内对网站的采集次数;
16、支持分层数据采集; 即通常所说的分页采集、级联采集,支持1对1及1对N的数据关系;
17、支持Url Base64编码 针对部分网站采用Base64编码Url进行了支持,可采集此类网站数据;
18、支持外部字典数据导入可成批导入字典数据;
19、 支持HTTPHeaders自定义支持HTTPHeaders自定义;
20、增加了导航自动翻页功能 ;
21、支持采集规则 通配符及自定义 正则表达式 ;
22、支持U码识别、网址转移 ;
23、增加代理 轮询引擎支持数据采集 ;
24、增加导航提取范围;
25、增加自定义导航规则处理;大部分导航都是由可识别的Url进行的,但也存在特殊情况,譬如:是由提交表单来完成,针对此种情况采用此功能可实现对导航规则的处理;
26、支持外部参数采集任务; 利用此种类型的采集任务可以再本地配置搜索引擎,用户网站信息的搜索;典型应用:企业黄页查询;
27、支持导航层分页;利用此功能可以按照简化采集任务的配置,甚至可以通过一个入口地址采集所有的信息内容;
28、直接入库;可将采集的数据直接存入数据库,利用此种方式,系统可采集成百上千万条数据,而不影响系统性能。数据库支持Access、MS Sqlserver及MySql;
数据编辑功能
1、采集 数据输出数据多种规则加工;对采集数据可实现多种数据加工规则的应用,通过此方法,可以更加灵活的采集到需要的数据内容。;
2、提供数据加工模块;可对采集数据灵活的进行 数据修改,调整表结构,然后再进行数据发布操作。同时还可利用此功能实现 外部数据的加工及发布操作;
3、支持数据合并; 可应用于分页文章采集,并自动合并成一篇文章的采集形式;
高级功能
1、 提供Mini浏览器;可用于Cookie及POST数据的捕获;
2、 软件界面支持多语言 网络矿工仅支持中文简体,后期会扩展英文版本;
3、支持 任务计划输出到同一个采集文件;可应用为数据递增采集;
4、提供采集规则分析器;通过采集规则分析器,可方便的查看采集规则配置的正确性;
5、支持 代理服务器;当前仅支持HTTP代理;
6、 提供 网络监控雷达服务,可根据用户规则监控网络数据,并及时预警、处理;
7、提供正则分析工具,辅助分析采集规则配置的正确性;
8、增加静默运行模式,即无人值守采集功能,可自动执行,自动优化资源,并将执行情况自动记录日志;
9、提供 日志管理功能;
10、增加雷达监控URL提重功能;
V2012新增功能
1、增加了xPath可视化配置;
2、增加了OCR文本识别的功能;
3、增加了多页采集的功能;
4、增加了__doPostBack函数的支持;
5、增加了自我导航能力,可实现单页面数据一对多关系的采集;
6、增加了多sql语句的支持;
V2012SP1 新功能
1、增加了嗅探器的功能,可检测HTTP通讯,可有效发现ajax、iframe请求的页面进行探测;
2、全面支持可视化配置;
3、增加配置助手,可自动对网页进行分析产生表格、文章的采集规则;同时也可通过配置助手自动配置采集规则;
4、优化了V2012的界面操作,提升软件的易用性,同时也修正了V2012中的很多bug,使软件运行更加稳定;
V5.0新功能
1、支持扩展插件,支持三种类别插件:获取Cookie类、数据编辑类及数据发布类;
2、支持发布模板,可通过制作的发布模板进行数据发布操作;
3、提供同义词替换及段落合并的数据编辑规则;
版本列表
-
-
网络矿工数据采集软件 v5.1 官方版
网络矿工数据采集软件是一款面向专业采集用户的采集软件,提供了数据采集、加工、发布一体 ...
软件大小:22.26 MB 更新时间:2014-07-11