1. 获取网站里表格的下全部内容
2. 内容页采集字段批准文号、药品本位码、产品名称、生产厂家、产品地址、规格、剂型、类别、批准日期。
需要采集的字段都在列表页中,那么就可以列表页标签采集。
在桌面浏览器中打开可以看到,这个网址中的内容分成两块,我们今天采集的是上面的这块,而且点击下一页的时候,网址是不变化的,那么就需要抓包获取真实网址,请求真实网址,在真实网址的源码中采集。
分析后
根据网页上的编码,填写网页编码,post类型采集,一定要填写网页编码:
拼接网址那边使用的是[标签:批准文号],实际获得的内容页网址不是正确的网址(https://www.drugfuture.com/cndrug/国药准字H20060422),现在开始测试请求,看采集器是否出现报错情况
使得不正确的内容页网址可以正常请求,因为没有设置内容页标签,所以只是请求,不会采集内容页标签,数据都在列表页标签中采集到了。
采集过程中有的客户会想到,既然数据都在列表页标签中采集了,那么就不要采集内容页就是了或者直接使用起始页就是内容页进行采集。
第一,因为是post类型的网址,若是用内容页采集的话,需要使用插件进行处理内容页post,但是使用列表页post就不用插件了。
第二,可以不采集内容页,只采集网址(就是列表页),退出编辑任务窗口,选中任务,只勾选,采网址,其他两个不勾选,采集结束后,需要选中任务,右键编辑本地数据,使用sql语句更新语句,更新所有数据为已采,这样才能进行发布数据.
每周一数数据以及采集规则领取时间为2019/11/28日发文后5个工作日内。采集规则涉及到商业版本功能,建议用户登录商业版本使用此规则。 数据领取资格:火车采集器/火车浏览器/触控精灵商业版软件用户(服务年限内),如果您不是商业用户或者已经过了服务年限,但也想参与活动的话,可以新购软件或者升级续费,这样就能参与活动啦! 数据领取方式: 第一步:扫码添加火车运营微信号,火车运营助手会拉你进入活动群。 第二步:进群后添加数据咨询客服.雅的微信号,经客服验证为服务年限内商业用户身份后,即可领取。 好啦,本期的“每周一数”就到这里了。如果您还有想要获取更多的数据资源以及采集器规则的话,可以在文章下方或是公众号后台留言,小采会综合大家的意见选择下一期赠送数据的主题哦!每周一数丨生病如何快速确定病因并及时治疗?小采送你一份健康数据(附带教程)
速看|火车采集器V9.11版本更新
触控精灵实战教程——微信公众号文章的采集与发布
触控精灵实战教程——网站发布篇