火车头采集器(LocoySpider)是一款可以轻松的从网页上抓取文字,图片,文件,视频等任何资源的网络数据/信息挖掘软件。
火车头采集器(LocoySpider)是一款功能强大的网页数据采集工具,可以轻松的从网页上抓取文字,图片,文件,视频等任何资源的网络数据/信息挖掘软件。程序支持远程下载图片文件,支持网站登陆后的信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点。通过火车头采集器,你可以轻松的从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等。同时它还具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。

功能特点:
- 支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
- 多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
- 全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
- 本地编辑:本地可视化编辑已采集的数据。
- 采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
- 管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。

应用范围:
- 垂直搜索(或称为专业搜索)服务
- 信息汇聚和门户服务
- 企业网信息汇聚
- 商业情报采集
- 论坛或博客迁移
- 智能信息代理
- 个人信息检索
- 信息挖掘
适用群体:
- 公司集团
- 政府机关与军队
- 门户网站
- 新闻媒体
- 广告与市场研究机构
- 金融机构
- 电信移动联通
- 科学与技术研究单位
- 网站站长
- 电子商务(如淘宝店长等)
- 其他

更新日志:
1、添加“重新采集上次请求失败的列表页”功能。
2、优化任务发布方式,站群式发布添加支持顺序、倒序发布。
3、列表页独立标签,增加“从网址中获取”的选型。
4、优化图片地址匹配方式,一些原来无法匹配的图片可以正确匹配了。
5、同义词替换,增加对于html标签替换的支持。
6、循环采集模式,增加循环次数限制。
7、数据发布,增加自定义数据发布模式。
8、修复删除列表页时,未能删除对应列表页标签的问题。
9、修复使用图片水印时,未选择保存格式导致的水印错误的bug。
10、Json工具,修复长Json处理时的卡顿问题。
11、修复采集标签过多导致的任务无法运行的错误。
12、修复自定义插件编译错误的问题。
13、修复PHP插件对于循环采集标签处理时的错误问题。