点击关注▲火车采集器
导读:每周一数活动是小采赠送给所有商业版本用户的一个福利,每周都会筛选用户需求选择网站进行爬取数据,并会附带采集规则,让用户举一反三,在更多场景中更好的使用小采。领取范围:火车采集器、火车浏览器、触控精灵三款软件的商业用户,软件需在服务期限内。领取规则:添加文章内火车运营微信后,将会被拉入“每周一数福利群”,加群后私聊 客服·雅 就可。
采集字段: 城市、标题、内容(前两页楼主发布的内容)点击下一页地址,可以发现变化的只有最后一个数字,所以分页设置可以使用批量网址功能按Ctrl+U查看源码,城市和标题可以在列表页标签采集因为帖子下面还有其他网友的回答,为了方便只采集作者发布的内容,我们可以点击只看作者这个的链接我们在二级列表里采集,只看该作者的链接提取第一个就可以,可以在写提取规则时多写一部分来让它只能匹配到一个,如下图所示列表页设置的城市标签 内容没做处理,会采集到a标签,这里在数据处理里将标签过滤这里需要采集前两页的内容,需要设置内容分页,也是从源码中查看分页地址
因为只采集前两页内容,所以需要设置下,点击内容分页设置下面的其他设置,可以修改采集的内容分页数量内容页提取规则,这里我们选择的是使用 xpath 提取(关于xpath的写法,大家百度下就可以找到),数据来源记得要改成从默认页和内容分页源码中获取然后使用数据处理功能清洗数据,将一些不需要的内容删除,内容里图片可以点击下面的文件下载,如图设置,即可将图片下载到本地,由于网址中图片太多,本次实际没有勾选下载6、最后我们将采集的数据导出到本地HTML文件里,可以根据需要修改模板文件
本次每周一数赠送的依然是数据+采集规则,仅限火车软件的商业版本用户哦!领取时间:2019年11月14 日发文后5个工作日内(节假日除外)领取方式:扫码加运营微信,运营会拉您进每周一数群,群内加:【火车数据咨询客服.雅】,经验证为商业用户后,即可领取。