IJCV 2026|让重复视频片段拥有“唯一”字幕,判别性提示 CDP,检索性能提升 15%

导读

日常生活中,视频里的动作、场景、人物往往高度重复。现有视频字幕模型独立处理每个片段,导致大量片段获得完全相同的描述——在 Ego4D 数据集中,使用现成字幕器生成的片段中 66%与至少另一个片段共享相同字幕。这种重复性严重影响了基于文本的视频检索:用户必须线性浏览所有相似片段才能找到想要的。

布里斯托大学与牛津大学合作提出 “Captioning by Discriminative Prompting (CDP)”,通过观察一组视觉相似片段,预测能够区分它们的“判别性提示”,从而为每个片段生成唯一字幕。在自建的第一视角和循环电影评测基准上,CDP 将 text→video R@1 分别提升了 15%和10%,Cycle@1 提升最高达 35.1%。该方法即插即用,无需微调字幕模型,推理速度仅增加约 1.3 秒/片段。


文章信息

  • 标题:It's Just Another Day: Unique Video Captioning by Discriminative Prompting

  • 作者:Toby Perrett, Tengda Han, Dima Damen, Andrew Zisserman

  • 机构:布里斯托大学(University of Bristol)、牛津大学(University of Oxford)

  • 发表:International Journal of Computer Vision (IJCV), 2026

  • 代码:https://tobyperrett.github.io/its-just-another-day


一、重复片段带来的检索困境

生活是充满重复的。日常活动的视频不可避免地包含视觉上相似的事件、场所、人物和动作。当使用现成的视频字幕模型(如 Zhao et al. 2023)时,每个片段被独立处理,结果就是大量片段获得了完全相同的描述。在 Ego4D 数据集中,66%的片段与至少另一个片段共享相同的字幕,因此没有唯一标识。

这种字幕的唯一性缺失严重影响了基于文本的检索。当用户搜索“打开冰箱”时,会得到几十条完全相同的字幕结果,必须逐一浏览才能找到目标片段。现有的字幕模型专注于生成高质量的描述,却从未考虑过“唯一性”这一需求。

本文提出的 CDP 框架首次系统性地解决了视频片段的唯一字幕生成问题。它的核心思路是:与其让字幕器独立工作,不如让它“看到”所有相似片段,然后找出每个片段独有的特征,并用这些特征来引导生成。


二、CDP 方法:从判别性提示到唯一字幕

2.1 问题形式化

给定 N 个视频片段集合 V = {v₁, v₂, ..., v_N},目标是输出一组唯一的字幕 C = {c₁, c₂, ..., c_N}。模型假设已有一个冻结的视频字幕器 Θ(v, p)(可接受可选提示 p)和一个双编码器视频‑文本模型(编码器 f 和 g)。唯一性由余弦相似度条件严格定义(原文 Eq.1):v_i 与 c_i 的相似度必须大于 v_i 与任何其他 c_j 的相似度,也大于任何其他 v_j 与 c_i 的相似度。

2.2 判别性提示与组合搜索

方法的核心是使用一组固定提示库 B(例如从训练集叙述中提取的高频 N‑gram)。对于每个片段 v_i,系统尝试每个提示 p,计算视频‑字幕相似度 s(v_i, v_i, p)。并定义唯一性余量M(v_i, p) = s(v_i, v_i, p) - max( max_{j≠i} s(v_j, v_i, p), max_{j≠i} s(v_i, v_j, p) )。选择使余量最大的提示作为判别性提示。当单个提示不够时,允许组合最多 α 个提示(默认 α=3),取平均相似度。如果最大余量仍低于阈值 λ(默认 0.1),则通过时间扩展:将片段延长,观察后续不同发展(如“X 然后 Y” vs “X 然后 Z”)。

2.3 CDPNet:高效近似搜索

组合全搜索计算量巨大(O(NP^α))。为此,训练一个轻量级网络 CDPNet,只用视频片段和提示直接预测相似度,避免实际生成字幕和计算嵌入。CDPNet 是一个 2 层 4 头的 Transformer,总参数量仅 1.6M,预测误差均值为 0,标准差 0.11。最终,CDP 将单片段字幕时间从 4.5 秒增加到 5.8 秒,而不用 CDPNet 的穷举搜索需要 300 秒。

图片

图片来源于原论文


三、数据集与评测基准

为评估唯一字幕生成,作者构建了两个新基准:

3.1 第一视角基准(Egocentric Benchmark)

基于 Ego4D 的 NLQ 训练集,抽取 30K 条重复次数 ≥10 次的叙述,每条随机采样 10 个片段(可跨视频),生成 300K 片段的训练集。评估集为 300 组 × 10 片段,来自 NLQ 验证集,固定不变。提示库从训练集叙述中选取频率最高的 10 个 N‑gram,并手工去除语义相似的条目。最终提示包括:“holding”, “carrying”, “looking at”, “picks up”, “walks”, “opens” 等。

3.2 循环电影基准(Timeloop Movies Benchmark)

利用 Wikipedia 列出的时间循环电影(共 71 部),手工标注重复片段时间戳。要求每部电影至少 3 个重复时刻,且这些时刻视觉上几乎相同。最终得到 10 部电影、63 个片段,每组大小 3-10。由于数据稀缺,训练集使用 Condensed Movie Dataset(非循环电影)构造视觉相似度 >0.92 的 30K 组片段作为代理。

3.3 评测指标

采用标准检索指标:Text→Video R@K, Video→Text R@K, Avg R@1(两者平均值),以及更严格的 Cycle@1(要求 v_i 检索到 c_i 且 c_i 检索回 v_i,等价于 Eq.1 的唯一性条件)。图 5 清晰展示了这些指标的区别。

图片

图片来源于原论文


四、实验结果与关键数据

4.1 第一视角基准 (LaViLa VCLM 作为基础字幕器)

T (秒)

方法

Text→Video R@1

Avg R@1

Cycle@1

+0s

LaViLa VCLM

40%

34.3%

22.0%

+0s

+ CDP

55%

(+15)

45.0%

(+11)

26.0%

(+4)

+5s

LaViLa VCLM

42%

36.3%

23.0%

+5s

+ CDP

69%

(+27)

57.0%

(+21)

38.6%

(+16)

+10s

LaViLa VCLM

45%

40.5%

25.3%

+10s

+ CDP

77%

(+32)

65.0%

(+25)

47.1%

(+22)

+30s

LaViLa VCLM

47%

43.0%

27.2%

+30s

+ CDP

86%

(+39)

76.0%

(+33)

62.3%

(+35)

T=+0s 表示仅使用当前 5 秒片段;T=+30s 表示可额外访问后续 30 秒内容(共 7 个片段)。CDP 在所有时间步和所有指标上均显著优于基线。

4.2 循环电影基准 (Video-LLaMA 作为基础字幕器)

T (秒)

方法

Text→Video R@1

Avg R@1

Cycle@1

0s

Video-LLaMA

37%

35.0%

18.3%

0s

+ CDP

47%

(+10)

42.0%

(+7)

25.0%

(+7)

2s

Video-LLaMA

39%

36.5%

25.4%

2s

+ CDP

51%

(+12)

48.0%

(+12)

32.0%

(+7)

4s

Video-LLaMA

38%

36.5%

18.4%

4s

+ CDP

62%

(+24)

53.0%

(+17)

37.4%

(+19)

10s

Video-LLaMA

36%

35.5%

18.2%

10s

+ CDP

73%

(+37)

63.0%

(+28)

44.5%

(+26)

循环电影中,随着时间的推移,故事线出现分歧,CDP 能捕获这些差异并生成独特字幕。最大改善为 Avg R@1 +25%,Cycle@1 +26.3%。

4.3 长视频案例研究

在 10 条平均 40.3 分钟的真实第一视角长视频上(每条约 483 个连续 5 秒片段),进行 text→video 检索。CDP(使用 T=+5s)将 R@1 从 12%(LaViLa VCLM)提升至 32%(+20%),R@3 从 20% 提升至 48%(+28%),R@5 从 26% 提升至 56%(+30%)。定性示例中,CDP 能区分“在洗手池前的两个片段”、“推手推车的两个片段(一个走向出口,一个绕仓库)”以及“使用钢笔的不同时刻”。

4.4 消融实验

  • 提示组合数 α:α=1 时 Avg R@1 为 47.6%;α=2 时提升至 56.3%;α=2 且增加时间到 +10s 后达到 66.8%。α=3 性能最佳,且性能高于 α=2 的增益随 T 增大更明显。

  • 提示贡献:与主动物品(holding, carrying, picks up, looks at)相关的提示被选择最多,且单独使用效果最好。

  • 余量阈值 λ:增大 λ 会使得被判定为“唯一”的片段减少,但 Cycle@1 提高,λ=0.1 时两者平衡良好。

  • CDPNet 精度:预测相似度与真实相似度之间误差均值为 0,标准差 0.11,大多数误差在 0.1 以内。

4.5 其他字幕模型验证

在 LaViLa 和 Video-LLaMA 之外,CDP 也提升了 VideoBLIP 模型在 egocentric 基准上的 Avg R@1(从 48.7% 到 52.4%)和 Cycle@1(从 37.5% 到 46.5%),表明方法具有模型无关性。

4.6 定性展示

图 8‑11 展示了丰富的定性结果。例如,egocentric 中三个“looks around the shelves”的片段,CDP 通过“the other man is talking”(clip1)、“looks at shopping list”(clip2)和“picks up”(clip3, 需向后 10s)加以区分。在《土拨鼠之日》中,三个“a man wakes up”片段,CDP 在 2s 时靠“lying down”、6s 时靠“window”特征、10s 时靠其他角色和地点实现唯一标识。

图片

图片来源于原论文


五、总结与未来方向

CDP 首次提出了唯一视频字幕生成任务,并通过判别性提示(从固定提示库中选择)以及可选的时间扩展,为重复性视频片段生成可区分的描述。在两个新基准(第一视角日常视频、时间循环电影)上,CDP 显著提升了 text→video 和 video→text 检索性能,并提供了严格的 Cycle@1 指标来评估完整唯一性。该方法无需微调字幕模型,即插即用,计算开销小。

未来方向包括:学习提示而非使用固定库、跨整个数据集的唯一字幕生成、以及利用多个具有不同专长的字幕模型协同工作。代码和数据完全开源,可从项目网站获取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值