在互联网上进行自动数据抓取这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于称之为“网络数据采集/网页数据抓取”,有时也会把网络数据采集程序称为网络爬虫(蜘蛛)。采集常用到的方法是写一个自动化程序向网络服务器请求数据,但大多数不擅长写程序的朋友则是使用现成的通用网页抓取工具,然后对数据进行解析,提取需要的信息。
然而许多网页也会对自己的数据进行保护,那么就会遇到数据抓取困难的悲剧,还有更令人沮丧的事情,那就是根本不能抓取,也许是向服务器提交自认为已经处理得很好的表单却被拒绝,也许是自己的 IP 地址被定义为网络机器人或不知道什么原因被网站封杀,无法继续访问。
但是是不是就真的无法抓取了呢?火车采集器告诉你:NO!克服网站对部分防采集的阻止或是采集困难,网页抓取工具火车采集器还是很有方法的,前方高能来袭,请大家自行get。
国外网站采集
有用户提到国外网站采集很慢,数据也无法直接利用等,这类采集时其实可以使用国外的代理服务器,采集速度上可以得到有效提升,对于需要将数据转换为中文的,可以使用翻译插件来翻译采集。
网站请求不通过
目标网站通常会在收到请求时校验Headers中的User-Agent字段,如果不是携带正常的User-Agent信息的便无法通过请求。所以我们要把User-Agent属性设置成不容易引起怀疑的内容。还有一部分网站为了防盗链,还会校验请求Headers中的Referer字段,那么需要通过对请求的抓包分析,将Referer值修改为目标网站域名,这些在火车采集器的“其他设置”里直接修改就可以了。另外在火车采集器中是可以自定义列表页、多页、分页Headers的。
频繁访问封锁
总是遇到403错误?对于同一IP或同一cookie的频繁访问行为,网站会将其识别为爬虫进行封锁,这类反爬虫在火车采集器中,可以通过切换cookie、控制采集速度(盲目求快可不是明智做法,合理控制速度是不该破坏的规则,火车采集器支持进程中调速,实时生效)、二级代理更换ip,使用拨号服务器等方式有效解决。
cookie登录
有些网站需要输入合法的登录信息或是持续保持登录状态才能访问全部内容,网页抓取工具火车采集器的应对是多样的,一是通过采集器内置的微型浏览器获取登录信息,二是通过抓包分析设置登录信息。
需要输入验证码
对于需要频繁输入验证码才能继续访问的网站,该怎么应对呢?简单的数字验证码可以使用火车采集器中的OCR识别,不过现在有的验证码已经没那么简单了,所以如果确实复杂可以用可视化的火车浏览器实现接入平台自动打码。
加密网页采集
对于内容进行了网页脚本加密的情况,可以通过模拟加密算法还原运行脚本,或是编写插件进行扩展等。这类对于技术小白白来说可能有难度,但可以联系我们火车采集器的技术支持获得帮助。
大概就列出以上这些了,如果大神有碰到其他防采集的类型,可以反馈给我们,以便我们程序猿为您开发出更加强大的功能~