Extending Audio Context for Long-Form Understanding in Large Audio-Language Models

原创于 2026-06-28 07:30:00 发布 · 3 阅读

·

0

·

标签

#语言模型 #c# #人工智能

LLM Daily 专栏收录该内容

2885 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章核心总结与翻译

一、主要内容

本文聚焦大型音频语言模型（LALMs）的长音频理解瓶颈——尽管其文本主干支持长上下文，但音频上下文窗口通常受限（如30秒以内），导致难以泛化到更长音频输入。研究通过适配和改进LLM的上下文扩展技术，提出了两种核心方案，并通过实验验证其有效性：

问题背景：现有LALMs（如SALMONN、Qwen2-Audio）受限于训练时的短音频片段，对1分钟以上的长音频理解性能大幅下降；传统LLM上下文扩展方法（如YaRN）会同时修改文本和音频的位置编码，可能损害模型原有的文本能力。
核心方法：
- Partial YaRN：无训练成本的音频专用扩展方法，仅修改音频令牌的位置编码，保持文本位置不变以保留基础LLM的文本能力。通过将RoPE维度分为低频（插值扩展）和高频（外推保留局部信息）两组，实现音频上下文窗口的拉伸。
- Virtual Longform Audio Training（VLAT）：基于Partial YaRN的训练阶段位置增强策略，通过在训练中模拟多样化的音频长度（压缩或拉伸虚拟上下文窗口），让模型泛化到训练中未见过的超长音频。
实验验证：在自定义的YODAS2-MCQA数据集（1-10分钟音频）上验证，两种方法在SALMONN和Qwen2-Audio模型上均显著优于传统扩展方法；VLAT与推理时的Partial PI结合，

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。