蜜蜂采集器是一款采集网页数据的工具软件,它能让您方便快速地从各种网页上抓取大量规范化的数据内容,帮助您实现数据自动化采集。软件支持PHP、Python、Nodejs、Go的插件,支持多帐号采集、多帐号发布
蜜蜂采集器软件特性
蜜蜂采集器是一款采集网页数据的工具软件,它能让您方便快速地从各种网页上抓取大量规范化的数据内容,帮助您实现数据自动化采集。软件支持PHP、Python、Nodejs、Go的插件,支持多帐号采集、多帐号发布,支持FTP、SFTP、自定义插件方式的文件上传(可上传到各个云空间),支持图片水印,支持JSON/XPath/CSS选择子/正则表达式等多种数据提取方式,支持内置JavaScript运行,支持POST采集,支持翻页等。
软件特色
极低的资源占用,优异的运行性能,可长期稳定运行
基于QT构建,原生C++编写,程序的资源占用极低,运行速度极快,从而可以支持更多的并发任务。
丰富的管理器,安全的帐号管理
软件有四种管理器:基本管理器、采集管理器、发布管理器、其他管理器。
基本管理器,主要是一些帐号相关的管理器,用于存储软件中需要使用的各种帐号信息,数据均加密存储。包括:Cookie管理、User-Agent管理、数据库连接管理、FTP连接管理、SSH连接管理、SMTP邮箱帐号、代理服务器管理、代理配置管理、外部程序管理。
采集管理器,主要是一些采集相关的管理器,用于采集工作。包括:列表页网址插件、数据处理插件、图片水印管理、中文分词设置、同义词库管理。
发布管理器,主要是一些发布相关的管理器,用于发布工作。包括:发布到站点、站点发布模块、发布到数据库、数据库发布模块、发布到文件、发布到插件、内容发布插件、发布到邮箱、文件上传配置管理、文件上传插件、消息通知配置管理、消息通知插件。
其他管理器,主要是一些杂项。包括:任务运行管理、计划任务、任务运行统计、任务运行日志文件,等等。
强大灵活的功能
数据库的连接访问,支持SSH隧道模式。
支持代理,采集更方便。
支持多帐号采集、多帐号发布。
丰富的插件类型。支持PHP、Python、Nodejs、Go四种编程语言的插件。
强大的图片水印功能。
文件下载支持断点续传。
丰富的文件上传方式。FTP、SFTP、插件方式、站点发布模块中的文件上传方式。支持上传文件到阿里云OSS、腾讯云、七牛云。FTP方式支持断点续传。
内置大量小工具。JSON分析工具、表单抓取工具,等等。
各管理器均支持导入导出。
蜜蜂采集器更新日志
蜜蜂采集器 1.10.2406.28292更新日志:
1. 增加:插件的执行超时时间参数。
2. 增加:Excel文件源的网址提取通配规则。
3. 优化:允许手动输入内容测试网址。
4. 优化:标签数据二次处理的重新提取内容功能,支持循环标签。
5. 修复:数据处理插件执行失败时,任务没有自动停止的问题。
6. 修复:新版本Qt下拉选择框的下拉框可能错位弹出的问题。
7. 修复:商业代理API失败次数过多时,任务没有自动停止的问题。
8. 优化:修复其他若干bug,优化部分功能。
蜜蜂采集器1.9.2405.28200更新日志:
1. 优化:Qt升级到6.7.0,其他组件升级。
2. 增加:商业代理API的支持。
3. 增加:代理服务器的批量添加、批量修改、批量测试。
4. 增加:代理配置中的PAC代理模式。
5. 增加:Cookie和UserAgent的批量添加。
6. 增加:UserAgent的随机生成,支持随机英文字母和随机数字。
7. 增加:浏览器Direct3D和gpu硬件加速的设置选项。
8. 增加:浏览器暗黑模式。
9. 优化:修复其他若干bug,优化部分功能。
蜜蜂采集器1.8.2404.27353更新日志:
1. 优化:多用户采集的计数限制功能,增加Cookie自动禁用。
2. 增加:日志输出控制。支持屏蔽网址列表、文件下载和上传成功的日志,允许记录HTTP返回内容。
3. 增加:采集规则发布通道的最大发布线程数的限制。
4. 优化:站点发布模块的HTTP自定义头部,支持标签变量。
5. 增加:任务运行时的运行时间的输出。
6. 修复:BugReporter依赖库不存在导致的崩溃日志无法上报的BUG。
7. 修复:错误日志文件中有概率出现正常日志内容的BUG。
8. 优化:缺省值的判断,如果没有设置条件,则使用非空条件。
9. 增加:老显卡的检测,并提示开启兼容模式。
10. 增加:增加蜜蜂定制版的PHP8版本的下载。
11. 修复:无法开机自动启动的BUG。
12. 修复:随机数不随机的BUG。
13. 修复:自动分词时可能出现死锁BUG。
14. 优化:修复其他若干bug,优化部分功能。
蜜蜂采集器 1.7.2403.26941更新日志:
1. 修复:文件下载地址有时候探测失败的问题。增加GET方法探测文件地址(暴力探测)。
2. 修复:格式化网址源的网址数量计算错误,导致无法采集完整列表页的问题。
3. 修复:数据编辑器的替换功能,标签变量替换功能无效的BUG。
4. 修复:两处可能导致程序崩溃的BUG。
5. 优化:几处功能优化。
蜜蜂采集器 1.6.2401.26854更新日志:
1. 优化:默认字体大小从14改为13。
2. 增加:批量访问网址的功能。
3. 增加:采集规则中的网址源之Excel文件源(xlsx文件)的支持。
4. 增加:采集规则中的内容发布之发布到Excel文件(xlsx文件)的支持。
5. 增加:站点发布配置的标签映射功能。
6. 增加:采集规则的域名替换功能。支持采集规则和历史采集数据的域名替换。
7. 增加:标签数据二次处理的字符串截取之循环截取功能。
8. 增加:标签数据二次处理的HTTP请求之多次请求并拼接输出的功能。
9. 增加:对网址采集中标签数据二次处理插件的支持。此前仅内容采集可调用插件。
10. 增加:对文件下载时“将标签内容作为文件下载地址”的多个文件下载支持。
11. 增加:文件下载时的音视频下载功能。
12. 增加:标签数据二次处理的编码转换之JSON转义和分隔符转义功能。
13. 增加:标签数据二次处理的HTML标签过滤之noscript audio video source等标签。
14. 修复:不使用独立上传时,文件上传功能无效的BUG。
15. 修复:修复POST采集时Content-Type识别错误的BUG。
16. 修复:Python插件中文乱码问题。
17. 修复:内置JavaScript脚本调用时可能崩溃的BUG。
18. 优化:其他若干功能优化与BUG修复。
蜜蜂采集器 1.5.2311.26149更新日志:
1. 修复:几处严重的内存泄露,并优化内存占用量。
2. 增加:TCP网络请求测试工具。
3. 修复:图片过大导致不水印的bug。
4. 增加:数据编辑的文件管理中将特定文件标记为未下载、未上传。
5. 优化:深色主题皮肤的一些问题。
6. 增加:续采上一次没采集的记录。
7. 增加:http头部自定义列表的导入功能。
8. 增加:自定义SSL协议最低版本的功能。
9. 增加:“任务运行管理-基本信息”的启动、暂停、停止按钮。
10. 增加:编辑采集规则的列表页的地址启用、禁用功能。
11. 增加:编辑采集规则的高级设置和站点发布模块编辑窗口中的分组控件收缩、展开功能。
12. 优化:运行日志支持主题皮肤切换功能。
13. 增加:标签数据二次处理 - HTML标签过滤的style标签的过滤。
14. 优化:其他若干功能优化与BUG修复。
蜜蜂采集器1.4.2310.25669更新日志:
1. 增加:深色主题皮肤。
2. 增加:对Windows系统高对比度主题的支持。
3. 修改:网络底层修改,并修复系统休眠中恢复时的崩溃问题。
4. 增加:同义词库的精准替换选项。
5. 增加:批量修改采集规则的字体颜色的功能。
6. 修改:格式化网址改为使用网址数量,不再使用终止网址。POST翻页的格式化参数也类似修改。
7. 优化:软件更新时的下载速度。
8. 增加:日志区的文本查找定位功能。
9. 优化:其他若干功能优化与BUG修复。
蜜蜂采集器v1.3.2309.24683:
1. 增加:微信扫码登录。
2. 增加:“插入一条记录”的预览、粘贴HTML文本等功能。
3. 修复:领取试用会员后,长时间没有刷新会员状态的bug。
4. 增加:采集规则的覆盖导入功能。
5. 优化:其他若干功能优化与BUG修复。
蜜蜂采集器v1.2.2308.24521:
1. 增加:任务运行队列中的图形化进度显示。
2. 增加:任务运行统计增加文件下载和上传的相关统计。
3. 增加:对HTTP协议的HTTP/2和HTTP/3的支持(HTTP/3仍存在小概率崩溃)。
4. 增加:数据备份与恢复功能。
5. 修复:HTTP请求Accept-Encoding使用br请求时解析失败的问题。
6. 增加:编辑采集数据时支持仅删除本地下载文件的功能。
7. 修复:使用中文分词功能后,程序内存占用居高不下的问题。
8. 增加:主窗口右下角的网络设置图标按钮。
9. 修复:采集时强制全局代理关闭的情况下,采集任务不使用代理访问的bug。
10. 增加:抓取Cookie时支持切换到隐身模式。
11. 增加:标签的禁用功能。
12. 增加:Cookie分组的次数限制功能,借此可实现单个Cookie一天内限定采集条数的功能。
13. 优化:其他功能优化与BUG修复。