2025_NIPS_Training Transitive and Commutative Multimodal Transformers with LoReTTa

文章总结与翻译

一、主要内容

本文针对多模态数据集稀缺(尤其是三模态及以上对齐数据匮乏)的问题,提出了一种名为LoReTTa(Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)的自监督预训练框架。该框架融合因果建模、掩码建模,并利用交换律和传递律规则,实现模态内和模态间的转换,从而让预训练模型能够探索真实的联合概率分布。

在仅存在不相交模态组合(如(A,B)和(B,C))的情况下,LoReTTa可通过A↔B↔C的传递关系建模未见过的模态组合(A,C),且在推理时能处理任意模态混合(包括未见过的模态对和三模态组合)。文章在合成数据集(SVL-MNIST)、医疗数据集(TCGA-OMICS)和强化学习数据集(MUGEN-GAME)上进行了广泛评估,结果表明,LoReTTa在涉及缺失模态组合的任务中,持续优于GPT、BERT、CLIP等强基线模型,在分类、生存预测、跨模态生成等下游任务中表现突出。

二、创新点

  1. 传递性与交换律融合的预训练策略:首次将交换律((A,B)=(B,A))和传递律((A→B)∧(B→C)⇒(A→C))融入多模态预训练,解决了仅存在不相交模态组合时的跨模态关联建模问题。
  2. 统一因果与掩码建模:结合因果建模(用于生成任务,预测下一个token)和掩码建模(用于判别任务,利用双向上下文),兼顾生成能力和上下文理解能力,避免单一建模方式的局限性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值