亲爱的用户:
为了给用户更好的采集体验,2019年11月21日我们进行了火车采集器的版本更新,目前火车采集器V9.11版本已正式上线。
1、★ 列表页新增“地址处理”功能★
示例网址,新浪滚动新闻:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
点击下一页,抓包可获取真实地址:
https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1
分析json数据可以得知 url 后面的是内容页网址,设置如下:
可以看到采集的网址里有很多 \ ,导致网址无法访问,而且网址不规则,不易处理。
这种可以使用新增的“地址处理”功能
内容替换/排重
可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。
纯正则替换
可以使用正则表达式进行匹配,和内容替换功能类似
字符编码处理
网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码
https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1
2、★新增“请求失败数”的预警条件设置★
3、★下载图片命名,新增[记录自增Id]格式★
记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增。
自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。
举例说明:自增记录ID:缩略图和内容两个标签都有图片下载,都设置了记录自增ID。
比如内容页网址https://zhishi.fang.com/jiaju/qg_680673.html
更换一个内容页网址,记录自增ID还是从1开始自增。
https://zhishi.fang.com/jiaju/qg_691372.html
自增ID:内容标签中设置了自增ID。
之后就会一直自增。
想要自增ID再次从1开始,需要重启采集器,那么就会从1开始了,否则只要设置了自增ID的,都会一直自增下去。
4、★修复图片下载误判断问题★
5、★修复计划任务中“每天调度”,起始运行时间配置未生效的问题★
6、★ 修复PHP插件,对于循环记录的处理报错的问题★
7、★修复拼音首字母对于一些错误字符的判断问题★
8、★任务批量编辑,修复“发布”中“多网站乱序发布”未能复制的问题★
9、★修改“循环添加新记录”配置后,修复数据格式选择错误的问题★
10、★修复循环记录中列表页标签被多次处理的问题★
11、★修复对于一些302跳转地址,无法正确跳转的问题★
12、★修复一些网址无法正确请求的问题★
感谢用户的支持与使用,今后也请多多支持小采~