文章核心总结与翻译
一、主要内容
本文聚焦大型音频语言模型(LALMs)的长音频理解瓶颈——尽管其文本主干支持长上下文,但音频上下文窗口通常受限(如30秒以内),导致难以泛化到更长音频输入。研究通过适配和改进LLM的上下文扩展技术,提出了两种核心方案,并通过实验验证其有效性:
- 问题背景:现有LALMs(如SALMONN、Qwen2-Audio)受限于训练时的短音频片段,对1分钟以上的长音频理解性能大幅下降;传统LLM上下文扩展方法(如YaRN)会同时修改文本和音频的位置编码,可能损害模型原有的文本能力。
- 核心方法:
- Partial YaRN:无训练成本的音频专用扩展方法,仅修改音频令牌的位置编码,保持文本位置不变以保留基础LLM的文本能力。通过将RoPE维度分为低频(插值扩展)和高频(外推保留局部信息)两组,实现音频上下文窗口的拉伸。
- Virtual Longform Audio Training(VLAT):基于Partial YaRN的训练阶段位置增强策略,通过在训练中模拟多样化的音频长度(压缩或拉伸虚拟上下文窗口),让模型泛化到训练中未见过的超长音频。
- 实验验证:在自定义的YODAS2-MCQA数据集(1-10分钟音频)上验证,两种方法在SALMONN和Qwen2-Audio模型上均显著优于传统扩展方法;VLAT与推理时的Partial PI结合,
订阅专栏 解锁全文
1348

被折叠的 条评论
为什么被折叠?



