采集地址:
http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index
采集字段:
标题,摘要、作者、出处、作者简介、邮箱。
采集结果:
使用“互联网”作为关键词进行搜索,采集搜索结果,并保存到Excel。
首先先点击下一页,发现网址没有改变,说明这个网址需要通过抓包来获取真实地址。
打开fiddler,点击下一页进行抓包,使用Ctrl + F 查找有数据的网址,点击进去发现确实是我们需要的真实网址。
5、接下来开始采内容,要采集的几个字段内容源码中都存在,直接从源码获取即可,这里标题标签可以先用h1截取,然后用内容替换和HTML标签过滤将不需要的内容去除,其他几个标签设置方法类似。
6、值得一提的是,邮箱是从作者简介里提取的,这里可以使用组合标签来获取作者简介的内容,在数据处理里使用智能提取邮箱功能来自动获取内容里的邮箱信息。
7、最后,保存到本地Excel。