文章核心总结与翻译
一、主要内容
本文聚焦扩散Transformer(DiTs)在视觉对应任务中的应用潜力,核心围绕DiTs存在的“大规模激活(massive activations)”问题展开研究:
- 问题发现:与稳定扩散模型(SD)不同,DiTs(如Pixart-alpha、SD3、Flux)提取的特征存在“大规模激活”现象——极少数固定维度的特征激活值远超其他维度(达100倍以上),且这些维度在所有图像块令牌中均存在,缺乏局部信息,导致特征表示无区分度,视觉对应任务性能不佳。
- 根源分析:大规模激活与DiTs中的自适应层归一化(AdaLN)机制密切相关,其集中维度与AdaLN产生的残差缩放因子(αₖ)高度对齐。
- 解决方案:提出无训练框架DiTF(Diffusion Transformer Feature),通过AdaLN的通道调制自适应定位并归一化大规模激活,同时引入通道丢弃策略进一步抑制其负面影响,从DiTs中提取语义区分性特征。
- 实验验证:在SPair-71k、AP-10K、PF-Pascal等数据集的语义对应、几何对应、时间对应任务中验证,DiTF性能超越DINO和SD基模型,在SPair-71k上提升9.4%,AP-10K-C.S.上提升4.4%,且在语义分割任务(ADE20K)中展现良好泛化性。
二、创新点
- 首次识别并表征DiTs中的“大规模激

订阅专栏 解锁全文
1781

被折叠的 条评论
为什么被折叠?



