火车采集器
火车采集器安装教程
火车头采集器是一个供各大主流文章系统,使用火车头采集器你可以瞬间建立一个拥有庞大内容的网站。完美下载提供火车头采集器官方版下载。
火车采集器(LocoySpider)软件特性
火车头采集器是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车头采集器你可以瞬间建立一个拥有庞大内容的网站。完美下载提供火车头采集器官方版下载。
火车采集器系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等有关采集器。火车采集器对于数据的采集其可以分为两部分,一是采集数据,二是发布数据。
火车采集器功能:
火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定
火车头采集器标志
火车头采集器标志
义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。
LocoySpider采用Visual C编写,可独立在Windows2008下运行(windows2003 自带.net1.1框架。最新版的火车采集器是2008版,需要升级到.net2.0框架才能使用),如您在Windows2000、Xp等环境下使用,请先到微软官方下载一个.net framework2.0或更高环境组件。火车采集器V2009 SP2 04月29日
数据抓取原理
火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
数据发布原理
在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
工作流程
火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。
火车采集器(LocoySpider)更新日志
火车采集器V9.21版
1: 自动获取cookie功能优化
2: 数据库发布增加事务,优化数据库发布速度
3: 数据转换速度优化(针对Mysql和SqlServer数据库的导入), 同时去除网址库的清空逻辑
4: html标签处理错误问题处理
5: json提取关于数字转换为科学计数法问题处理
6: 发布测试时,图片上传无效的问题处理
7: 采集内容页处理错误时,增加对于当前出错标签的提示,以便快速定位出错标签
8: 任务批量编辑,增加可操作范围
9: 循环匹配匹配空格问题处理
10: 刷新分组中增加统计数据的刷新
11: post分页处理
12: 部分功能逻辑优化
火车采集器V9.9版
1.优化效率修复运行大量任务时运行卡顿问题
2.修复大量代理时配置文件锁死程序退出问题
3.修复部分情况下mysql链接不上问题
4.其它界面和功能优化
火车采集器V9.8版
1: “远程管理” 正式升级为 “私有云”,全面优化调整。
2: 发布模块增加自定义头信息的增加。
3: 采集线程间隔调整,增加自定义区间设置。
4:长时间使用后的运行卡顿问题修复。
5: 二级代理,IP输入框修改为普通TextBox。增加代理免验证的功能。
6: 分组丢失、死循环问题修复。
7: ftp上传,增加超时处理。
火车采集器火车采集器V9.6版
1: 多级网址列表,对于列表名增加重命名功能以及上下调整的功能。
2: 修复SqlServer数据库格式下,未能正确显示采集数量的问题。
3: 修复在新增标签时,若上一个编辑为固定格式数据,则新增的标签显示内容错误的问题。
4: 修复数据包登录中,若登录失效,未能自动重新登录的问题。
5: 修复FTP上传失败后,本地数据也被删除的问题。
6: 修复边采集边发时,文件上传FTP失败的问题。
7: 优化Excel保存时,对于ID,PageUrl显示列的位置。
8: 修复任务不能多选操作的问题。
9: 边采集边发布时,最大发布数的功能调整(原:最大发布数无效。 现:最大发布数生效,且在任务完成后,不会将以前的未发布数据再次发布)
10:修复对于存储过程语句,当数据为空值时,意外判断为“语句错误”的问题。
11:二级代理功能,修复定时拨号失效的问题。
12:二级代理功能,定时获取API功能优化,重新获取时,会自动删除上一批数据。
13:批量网址增加数据库导入的模式
14:导出到文件时,对于不合理的错误命名增加提示。
15:导出规则时,对于规则名称过长的规则,增加提示的功能。
16:规则编辑时,对于“包含”、“不包含”数据,复制粘贴多行时,会自动区分为多个数据。
17:添加对于芝麻代理的合作支持。
火车采集器V9.4版
1,批量网址更新,日期可以支持大于今天的数据。标签可以采用多参数同步变化
2,标签组合,增加对于循环组合的支持。
3,优化网址库排重逻辑,大大加快大网址库下的任务加载速度,优化网址库排重内存占用。
4,数据库发布模块,增加“insert ignore”模式的支持
5, 新增任务的云端备份、同步功能
6,http远程服务器,增加对于单条数据修改的API支持。
7,水印增加指定大小的压缩功能
8,修复FTP,SFTP链接未能正确断开的问题
9,修复Word2007无法保存图片的问题
10,修复标签超长时候的显示错误问题。
11,修复标签数据替换中的替换错误问题。
12,修复了数据倒序发布的问题。
13,优化了几个会导致采集器长时间运行后内存无法释放的问题。