2025_NIPS_Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activati

文章核心总结与翻译

一、主要内容

本文聚焦扩散Transformer(DiTs)在视觉对应任务中的应用潜力,核心围绕DiTs存在的“大规模激活(massive activations)”问题展开研究:

  1. 问题发现:与稳定扩散模型(SD)不同,DiTs(如Pixart-alpha、SD3、Flux)提取的特征存在“大规模激活”现象——极少数固定维度的特征激活值远超其他维度(达100倍以上),且这些维度在所有图像块令牌中均存在,缺乏局部信息,导致特征表示无区分度,视觉对应任务性能不佳。
  2. 根源分析:大规模激活与DiTs中的自适应层归一化(AdaLN)机制密切相关,其集中维度与AdaLN产生的残差缩放因子(αₖ)高度对齐。
  3. 解决方案:提出无训练框架DiTF(Diffusion Transformer Feature),通过AdaLN的通道调制自适应定位并归一化大规模激活,同时引入通道丢弃策略进一步抑制其负面影响,从DiTs中提取语义区分性特征。
  4. 实验验证:在SPair-71k、AP-10K、PF-Pascal等数据集的语义对应、几何对应、时间对应任务中验证,DiTF性能超越DINO和SD基模型,在SPair-71k上提升9.4%,AP-10K-C.S.上提升4.4%,且在语义分割任务(ADE20K)中展现良好泛化性。

二、创新点

  1. 首次识别并表征DiTs中的“大规模激
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值