在上一期小采向大家介绍了花瓣网瀑布流数据采集思路详解,不知道大家回去有没有自己动手操作一遍呢?如果练习了就好好阅读今天这篇教程吧。
之前曾经有人有人在qq群里提问如何采集b站的弹幕,恰逢上一周b站从美国纳斯达克交易所敲钟上市,所以我们特意缠着技术推出了一期b站特刊。
b站的弹幕和鬼畜文化陪伴了国人这么多年走来,早已经成了”中二病“爱好者心中不可分割的一部分,今天就让我们同样可爱的小采来介绍一下如何使用火车浏览器来采集b站的弹幕评论数据吧!
如何采集B站的弹幕,看下面这个链接:
https://www.bilibili.com/video/av21038666/?spm_id_from=333.334.chief_recommend.20
以这一个视频地址作为例子,下面介绍下编写的思路以及方法。
编写重点以及难点:
(1) http请求用法,教程参考:
http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=231&highlight=http
(2)Js转换时间戳用法,教程参考:http://help.locoyposter.com/index.html#javascript
编写过程,这里介绍下编写过程中的重点步骤,一些基本步骤的使用就请参考视频学习
(1)打开需要采集的页面,然后使用fiddler抓包分析需要采集的评论在哪个请求中,找到对应请求之后将网址以及请求头信息复制放在火车浏览器步骤中:
设置好后,观察提取到的源码,分析需要采集数据的前后分割字符,使用循环提取步骤将发布时间以及发布内容同时提取到list变量中,以特殊间隔符分割开来,以便后续对两个字段分别进行处理:
提取好后,观察提取到的数据,我们提取的时间其实一串时间戳,因此需要使用对应的代码来将时间戳转换为时间,具体代码如图,插一句,如果有一些功能我们火车浏览器无法实现,可以通过js,C#,python等插件来实现一些扩展功能。
然后按照自己需要的模板,将采集的数据保存即可,示例中提供的是将数据保存在txt,火车浏览器还支持保存在execl以及数据库中。
示例提供的仅仅是一个B站视频弹幕的采集,如果要实现更多视频弹幕的采集,修改下脚本的逻辑规则即可手到擒来。
联系我们
客服QQ:800019423
客服电话:400-8757-060
软件购买:http://www.locoy.com/buy