论文解读 VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

原创

已于 2022-09-01 21:25:58 修改 · 4.8k 阅读

标签

#深度学习 #clip #videoclip #视频文本检索 #视频动作识别

于 2022-08-31 19:05:44 首次发布

VideoCLIP是一种无需下游任务标签的对比学习方法，用于预训练视频和文本理解模型。通过时间重叠的正样本对和检索增强的负样本对，训练Transformer模型。实验表明，VideoCLIP在多种下游任务中表现出SOTA性能，甚至超越监督方法。

一. 摘要

在本文中，作者提出了VideoCLIP，这是一种不需要下游任务的任何标签，用于预训练零样本视频和文本理解模型的对比学习方法。VideoCLIP通过对比时间重叠的正视频文本对和最近邻检索的负样本对 ，训练视频和文本的Transformer。在本文中，作者对一系列下游任务（包括序列级文本视频检索、VideoQA、token级动作定位和动作分割）进行了实验，实验结果表明本文提出的VideoCLIP可以达到SOTA的性能，在某些情况下甚至优于监督方法。

VideoCLIP：针对零样本迁移的视频文本预训练，提出了一个对比学习方法，训练了一个统一的Transformer模型，能够迁移到多个下游任务中。

该论文对于对比学习中的正负样本对采集分别提出了改进的方法：使用时序上重叠的视频文本正样本对和检索出来更难的视频负样本对。

论文地址
 代码地址

二. 介绍

近几年，“预训练+微调”的训练范式对NLP和CV领域进行了革新。尽管以这种方式训练的模型可以获得不错的性能，但它们仍然需要特定于任务的标注数据，并需要基于每个下游任务进行微调。基于这样的问题，最近也有一些工作致力于研究无需微调的零样本迁移到下游任务的预训练，比如NLP领域中GPT，CV领域中的CLIP。

在本文中，作者主要研究零样本迁移到视频文本理解任务的预训练。本文的方法使用成对的视频本文 clip，基于对比学习的目标函数，对Transformer结构进行预训练。本文的VideoCLIP基于一个公开的预训练数据集HowTo100M来使模型能够获得视频理解的能力。实验表明，所得到的预训练模型可以直接应用于或通过微调应用于一系列视频文本任务。

作者发现，简单直接的目标函数会导致较差的结果，并认为学习视频和文本之间的细粒度关联对于零样本迁移到下游任务至关重要，因为下游任务可能需要不同粒度的视频文本交互。以前的工作是在随机batch中对短时间的、对齐的视频和文本片段进行采样，但没有学习视频帧和单词token之间的细粒度关联。

在本文中，作者提出了VideoCLIP，使用了两种关键技术（如下图所示）来计算训练目标，通过对比学习来预训练统一的视频文本表示。首先，作者的目标是改善视频和文本与不同序列长度的关联。尽管大多数视频和文本没有语义对齐，但当前的视频文本模型是通过精确的时间对齐进行训练的。因此，多个或更长的文本clip能与视频clip很好地对齐，但是许多视频clip并可能没有任何相应的文本。

为了解决这些问题，作者使用在时间上重叠的视频和文本clip对进行预训练（如下图所示），从而大大提高视频