软件介绍
火车头采集器是一款操作简单小白都容易上手的互联网数据抓取、处理、分析,挖掘软件,这款软件它有着采集数据到网页的远程功能。这个软件还是十分有效的住区网站上混乱的数据,然后进行合理的分析。这款软件拥有十年的历史了,口碑十分的好,是当前网上最受欢迎的网页采集数据软件。
软件功能:
1.多线程高速并行采集系统
任务分配至多个客户端,同时运行采集,效率倍增。
2.多识别系统
配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
3.可选验证方式
可选择是否使用加密狗,随时保障数据安全。
4.全自动运行
无需人工值守操作,任务完成后自动关机。
5.替换功能
同义,近义词替换、参数替换,伪原创必备技能。
6.任意文件格式下载
图片、压缩文件、视频等任意格式的文件都能轻松下载。
7.系统运行监控
监控数据质量,确保数据准确性。
8.支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
9.无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
10.支持扩展
支持接口和插件扩展,满足各种采发需求。
软件特性:
1、无限级多页采集,可以实现无限深度的采集
2、任务队列运行管理,支持Cron表达式
3、无限级分组任务管理,任务回收站功能
4、RSS地址采集功能
5、列表页分页采集获取功能
6、列表页附加参数获取功能
7、列表页及标签XPath可视化提取功能
8、标签纯正则替换功能
9、Http接口查看运行情况
10、导出记录为单个或多个Txt、html 文件
11、标签间自由组合功能
12、针对标签内容继续发送Http请求功能
13、无限级列表网址采集
14、从Http头信息中获取数据
15、标题内容正文提取功能
16、Aspx列表分页自识别
17、多网站站群式web发布
18、导出记录为Word格式
19、导出所有记录为Excel格式
20、使用随机二级代理服务器(支持Socket代理)
21、多扩展间数据交换功能
22、下载的图片自动加增强型水印功能
23、Ocr识别(图片转化为文字)
24、Http接口管理采集器运行
25、Mongodb数据库保存数据
26、主从服务器分布式采集