1. 为什么你需要提取B站视频字幕?
不知道你有没有过这样的经历:在B站看到一个干货满满的教程视频,或者一个观点犀利的深度访谈,想把里面的精彩内容整理成文字笔记,方便日后复习或者引用。又或者,你是一个内容创作者,想对某个热门视频的文案进行二次创作、翻译,或者分析它的语言风格。这时候,如果只能手动一句一句地暂停、打字,那效率简直低到让人抓狂。
我刚开始做技术内容整理的时候,就经常干这种“笨”活儿。一个20分钟的视频,光是整理字幕可能就要花掉一两个小时,不仅累,还容易出错。后来我发现,其实B站的视频字幕就“藏”在网页里,而且是以一种非常规整的格式(通常是JSON)存在的。只要找到它,我们就能用程序轻松地把文字“掏”出来,瞬间解放双手。
这个方法特别适合几类朋友:学生党想整理网课重点;自媒体从业者需要分析爆款文案结构或获取灵感;研究者需要批量处理访谈资料进行文本分析;甚至就是普通用户,想保存某个UP主的金句合集。掌握了这个技能,你处理视频信息的效率会提升好几个量级。接下来,我就手把手带你,用几种不同的方法,把这件事变得像复制粘贴一样简单。
2. 方法一:浏览器开发者工具“挖宝”(最直接)
这是最基础、也最不需要额外安装软件的方法,完全在浏览器里完成。它的原理很简单:当你在网页上看到那些飘过的弹幕和稳定的字幕时,这些文字数据已经被加载到了你的浏览器里。我们只是利用浏览器的“开发者工具”把它们找出来。
具体操作,跟着我一步步来:
- 打开目标B站视频页面。比如,你想提取某个知识区UP主视频的字幕。
- 打开开发者工具。在视频页面的空白处点击鼠标右键,选择“检查”(Inspect)。或者更通用的快捷键是
F12(Windows/Linux)或Command+Option+I(Mac)。 - 切换到“网络”(Network)面板。开发者工具顶部有一排选项卡,点击“Network”。这里会记录网页加载的所有资源,比如图片、脚本、数据。
- 刷新页面并过滤。按下
F5或点击浏览器刷新按钮,重新加载视频页面。此时,“Network”面板会开始刷出一大堆请求记录。在面板顶部找到一个过滤输入框(通常显示“Filter”或有一个放大镜图标),在里面输入json。 - 寻找字幕文件。过滤后,列表会清爽很多,你会看到一些名称里包含“subtitle”、“caption”或者一串神秘字符、以
.json结尾的文件。通常,最新的那个、大小合适的.json文件就是字幕数据。你可以点击文件名预览一下,如果里面是类似[{"from": 1.0, "to": 3.5, "content": "大家好"}]这样的结构,那就没错了。 - 下载并查看。右键点击这个
.json文件,选择“Open in new tab”(在新标签页打开)。浏览器会打开一个全是代码的页面,这就是纯数据了。直接Ctrl+S(或Command+S)把它保存到你的电脑上。
这个方法直观,能让你亲眼看到数据是怎么来的。但它有个小缺点:每次只能处理一个视频,如果需要批量处理多个,重复这个操作会比较繁琐。不过,作为理解原理的第一步,它绝对是最佳选择。
2.1 从JSON到纯文本:用Python小脚本“提纯”
现在,我们手里有了一个 .json 文件,但它里面除了文字,还夹杂着时间戳等元信息。我们的目标是得到干净、连贯的文本。用Python写个几行的小脚本就能搞定,即使你完全没学过编程,照着我的代码复制粘贴也能运行。
首先,确保你的电脑安装了Python。打开一个文本编辑器(比如记事本、VS Code、甚至IDLE都行),把下面的代码复制进去。
import json
# 第一步:告诉程序你的字幕文件放在哪
# 把 '你的字幕文件.json' 替换成你实际下载的文件名,注意路径要对
json_file_path = '你的字幕文件.json'
# 第二步:打开文件,读取里面的内容
try:
with open(json_file_path, 'r

1万+

被折叠的 条评论
为什么被折叠?



