Extending Audio Context for Long-Form Understanding in Large Audio-Language Models

文章核心总结与翻译

一、主要内容

本文聚焦大型音频语言模型(LALMs)的长音频理解瓶颈——尽管其文本主干支持长上下文,但音频上下文窗口通常受限(如30秒以内),导致难以泛化到更长音频输入。研究通过适配和改进LLM的上下文扩展技术,提出了两种核心方案,并通过实验验证其有效性:

  1. 问题背景:现有LALMs(如SALMONN、Qwen2-Audio)受限于训练时的短音频片段,对1分钟以上的长音频理解性能大幅下降;传统LLM上下文扩展方法(如YaRN)会同时修改文本和音频的位置编码,可能损害模型原有的文本能力。
  2. 核心方法
    • Partial YaRN:无训练成本的音频专用扩展方法,仅修改音频令牌的位置编码,保持文本位置不变以保留基础LLM的文本能力。通过将RoPE维度分为低频(插值扩展)和高频(外推保留局部信息)两组,实现音频上下文窗口的拉伸。
    • Virtual Longform Audio Training(VLAT):基于Partial YaRN的训练阶段位置增强策略,通过在训练中模拟多样化的音频长度(压缩或拉伸虚拟上下文窗口),让模型泛化到训练中未见过的超长音频。
  3. 实验验证:在自定义的YODAS2-MCQA数据集(1-10分钟音频)上验证,两种方法在SALMONN和Qwen2-Audio模型上均显著优于传统扩展方法;VLAT与推理时的Partial PI结合,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值