python爬虫小案例_从B站爬取《哪吒之魔童降世》终极预告 的弹幕

系统 1540 0

1、在 Google 浏览器 输入:https://www.bilibili.com/video/av60604193

python爬虫小案例_从B站爬取《哪吒之魔童降世》终极预告 的弹幕_第1张图片

2、右键,查看网页源代码 ,查找 cid :

python爬虫小案例_从B站爬取《哪吒之魔童降世》终极预告 的弹幕_第2张图片

3、在 Google 浏览器 输入:https://comment.bilibili.com/105487088.xml

python爬虫小案例_从B站爬取《哪吒之魔童降世》终极预告 的弹幕_第3张图片

4、弹幕数据所在的标签参数内容解读

  看完回来告诉你们,一定要去看

参数 解析
138.20700 弹幕出现的时间(以秒为单位)
4 弹幕类型(1-跑马灯,4-底部)
25 字体
16711680 颜色
564226963 Unix时间戳,基准时间为 1970.01.01,日期=(Unix时间戳+83600)/86400+70365+闰天
0 弹幕池(0-普通池 1-字幕池 2-特殊池)
1b4df62a 用户ID
19443109448384516 唯一标识

5、参考代码: 

            
              import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas as pd

url = 'https://comment.bilibili.com/105487088.xml'  # 弹幕文档地址

r = requests.get(url) # 网页的请求

r.encoding = 'utf-8' #设置编码,以防中文乱码

soup = BeautifulSoup(r.text,'lxml') #解析网址

ds = soup.find_all('d') # 查找所有的 d 标签

data_list = []
for d in ds:
    dic = {}
    dic['内容'] = d.text #获取弹幕内容
    dic['时间'] = datetime.fromtimestamp(int(d['p'].split(',')[4])) # 把时间戳 转换为 当时发弹幕的时间
    data_list.append(dic)
    
df = pd.DataFrame(data_list) # 转换为 DataFrame 格式
df.to_csv('弹幕内容.csv') #保存数据到本地
            
          

6、可查看保存到本地的数据

python爬虫小案例_从B站爬取《哪吒之魔童降世》终极预告 的弹幕_第4张图片


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论