最近抖音有点火,自从内涵段子被永久封停过后,抖音似乎就进入了一个高速腾飞期。
即便是有着腾讯爸爸做后台的微视,也抵不过抖音15秒带来的惊人魔力。
既然抖音短视频热度这么高,今天我们就来看看俘虏了众多小哥哥小姐姐的抖音是如何进行数据采集的吧!
所有互联网能看到的数据都是可以采集的,抖音肯定也不例外。
普通情况下,我们使用爬虫采集网络信息的时候是基于其网站的前端代码,也就是你在任意位置鼠标右键—查看网页源代码看到的那些。
抖音的视频都在APP上,我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。分享后的网址为:
https://www.douyin.com/share/video/6564291888008924423(视频id号)。
我们右键视频页面查看其视频源码:
从源码中,可以详细的获取视频作者和视频详情信息等。例如以下:
上述信息均可以从分享的视频链接源码里获取。
运行程序结果为:
源代码中我们可以很清楚的看到视频名称和作者的信息。
有趣的是,本来其他人不可见的视频播放数据,前端代码中也做了展示。包括作者,
视频详情,视频封面,视频地址,视频宽度,视频高度,视频ID,作者头像,PageUrl等一个视频的完整信息。
如下图所示,这是我采集到的部分视频数据。
查看该分享视频的url构造可以发现非常的简单,仅由www.douyin.com 、share 、video 和6564291888008924423四个部分组成,其中前三部分是固定的,唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑,我们只需要使用脚本不断递增该ID,即可实现遍历所有的视频。
在实际操作中,抖音对其视频的ID都做了加密处理,简单递增视频ID构造的URL视频显然是不可能成功地。
但基本在通过Fiddler抓包获取的抖音数据时,你抓取到的字段值和命名方式就能暴露出很多东西了。
例子如下:
基本信息 | |
risk_infos: | 风险信息: |
warn: false, | 警告:否 |
risk_sink: false | 风险下降:否(字面翻译) |
label_top: { | 头部标签: |
url_list: | 链接列表(链接打开是“示范”的图片) |
uri: | 资源标识,类似url不用管 |
author_user_id: | 作者ID |
rate: 12, | 等级:12 |
create_time: 1517579506, | 创建时间,时间戳格式 |
视频信息 | |
video: | 视频 |
ratio: "720p", | 比率 |
origin_cover: | 原始封面 |
url_list: | 视频封面的地址 |
uri: | |
play_addr: | 视频地址 |
url_list: | |
uri: | |
cover: | 视频封面 |
url_list: | |
uri: | |
height: | 视频高度 |
width: | 视频宽度 |
bit_rate: | 视频码率 |
bit_rate: 337070, | 视频码率 |
gear_name: "normal", | 不知道啥:普通 |
quality_type: 0 | 质量类型 |
download_addr: | 下载地址 |
url_list: | |
uri: | |
has_watermark: true, | 是否有水印 |
duration: | 视频时长 |
play_addr_lowbr: | 低画质视频地址 |
url_list: | |
uri: | |
dynamic_cover: | 动态封面 |
url_list: | |
uri: | |
aweme_id: | 视频ID |
video_labels: [], | 视频标签 |
is_vr: false, | 是否VR:否(字面翻译) |
vr_type: 1, | VR类型:1 |
统计数据 | |
statistics: | |
play_count: 50855809, | 播放数 |
aweme_id: | 视频ID |
comment_count: 17579, | 评论数 |
share_count: 155218, | 分享数 |
digg_count: 682154 | 点赞数 |
作者信息 | |
author: | 作者 |
share_qrcode_uri: | 分享快速响应码 |
avatar_larger: | 大头像 |
url_list: | |
uri: | |
enterprise_verify_reason: | 企业认证 |
original_music_qrcode: null | 原创音乐码:空 |
story_open: false, | 故事打开:否 |
live_verify: 0, | 直播权限:0 |
short_id: | 短ID: |
account_region: "", | 账户区域 |
reflow_page_gid: 0, | 回流页面(字面翻译) |
avatar_thumb: | 应该是头像缩略图 |
uri: | |
is_binded_weibo: false, | 是否绑定微博:否 |
is_verified: true, | 是否认证:是 |
hide_search: false, | 是否隐藏搜索:否 |
risk_flag: 0, | 风险标签:0 |
with_commerce_entry: false, | 是否商业化:否 |
school_name: "", | 学校名称: |
custom_verify: "", | 自定义认证: |
special_lock: 1, | 特殊锁? |
shield_comment_notice: 0, | 屏蔽评论通知:0 |
hide_location: false, | 隐藏位置信息:否 |
gender: 1, | 性别:男 |
star_use_new_download: false, | |
school_poi_id: "", | 学校POI序号 |
weibo_schema: "", | 微博概要 |
uid: | 用户ID |
bind_phone: "", | 绑定手机号: |
weibo_url: "", | 微博地址 |
weibo_name: "", | 微博账号 |
commerce_user_level: 0, | 商业等级:0 |
create_time: 1511582912, | 创建时间 |
verify_info: "", | 认证信息 |
constellation: 3, | 星座:双子 |
community_discipline_status: 0, | 社区纪律地位:0(字面翻译) |
has_register_notice: 1, | 已有注册信息:1 |
need_recommend: 1, | 需要推荐:1 |
shield_digg_notice: 0, | 屏蔽点赞通知 |
update_before: 0, | 是否更新过:0 |
verification_type: 1, | 认证类型:1 |
room_id: 0, | 房间ID:0(应该是直播房间号) |
avatar_medium: | 头像(中) |
url_list: | |
uri: | |
authority_status: 0, | 权重:0(字面意思权威等级) |
enterprise_verify: false, | 企业验证:否 |
reflow_page_uid: 0, | 回流页ID:0 |
birthday: "1992-06-16", | 生日 |
is_ad_fake: false, | 是否广告伪造:否(字面翻译) |
nickname: " | 昵称: |
shield_follow_notice: 0, | 屏蔽关注通知:0 |
original_music_cover: null, | 原创音乐标识:空 |
follow_status: 0, | 粉丝等级:0(字面翻译) |
region: "CN", | 国家:CN |
school_type: 0, | 学校类型:0 |
avatar_uri: | 头像标识地址 |
signature: "有没有爱", | 签名: |
weibo_verify: "", | 微博认证: |
unique_id: "" | 特殊ID: |
视频信息: | |
cmt_swt: false, | 不知道啥意思 |
share_url: | 分享链接 |
is_ads: false, | 是否广告:否 |
音乐信息 | |
status: 1, | 等级:1(字面翻译) |
extra: "{\"has_edited\": 0}", | 附加信息:是否编辑:0 |
is_original: false, | 是否原创:否 |
offline_desc: "", | 离线描述:(字面翻译) |
source_platform: 22, | 资源平台:22 |
audio_track: | 音轨: |
url_list: | URL打开为音频波形图 |
uri: | |
cover_large: | 音频封面 |
url_list: | |
uri: | |
duration: 34, | 时长:34 |
id: | |
cover_thumb: | 封面缩略图 |
url_list: | |
uri: | |
cover_hd: | 高清封面 |
url_list: | |
uri: | |
user_count: 0, | 用户账号: |
title: "粉红色的回忆", | 标题 |
play_url: | 播放地址 |
url_list: | |
uri: "5fc00003ab | |
effects_data: | 效果数据 |
url_list: | |
uri: | |
author: | 音乐作者: |
mid: | |
cover_medium: | 封面(中) |
url_list: | |
uri: | |
id_str: | 不知道啥意思 |
schema_url: "" | 概要地址 |
不知道啥分类: | |
bodydance_score: 0, | 节奏分数:0(字面翻译) |
is_hash_tag: 0, | 是否哈希标签:0(字面翻译) |
视频状态: | |
status: | |
with_goods: false, | 有商品:否 |
is_delete: false, | 是否删除:否 |
private_status: 0, | 私有状态:0(设为自己可见) |
allow_comment: true, | 允许评论:是 |
allow_share: true, | 允许分享:是 |
is_private: false | 是否私有:否 |
sort_label: "_", | 分类标签:_ |
分享信息: | |
share_info: | |
share_weibo_desc: "", | 微博分享描述 |
share_title: “", | 分享标题: |
share_url: | 分享链接 |
share_desc: "在抖音,记录美好生活" | 分享描述 |
is_top: 0, | 是否置顶:0(字面翻译) |
aweme_type: 0, | 视频类型:0 |
desc: "", | 视频描述: |
region: "", | 位置信息: |
is_relieve: false, | 是否缓存:否(字面翻译) |
text_extra: [], | 额外文本:空(字面翻译) |
user_digged: 0 | 作者点赞:0 |
具体情况我就不举例了,如果你对自己账号的以上信息感兴趣,你也可以下载教程脚本,自己尝试去做一下!
联系我们
客服QQ:800019423
客服电话:400-8757-060
软件购买:http://www.locoy.com/buy