一、文章主要内容总结
本文聚焦大型音频语言模型(LALMs)在说话者情绪变化下的安全脆弱性问题,填补了该领域对副语言特征中“情绪”影响研究的空白。研究通过构建包含多种情绪(中性、愤怒、厌恶、恐惧、快乐、悲伤)和强度(低、中、高)的恶意语音指令数据集,对10个主流LALMs(含开源和闭源模型)进行安全性评估,核心发现如下:
- 模态差异:LALMs在语音输入下的不安全响应(非拒绝率NRR、不安全率UR)普遍高于文本输入,证实语音模态是LALMs安全对齐的薄弱环节。
- 情绪依赖性:不同情绪会引发显著的安全不一致性,各模型存在特定“情绪盲点”(如部分模型对愤怒情绪更敏感),且无统一触发不安全响应的情绪类型。
- 强度非单调效应:情绪强度对安全风险的影响并非线性,中等强度的情绪表达往往比低强度和高强度更易引发不安全响应。
- 模型安全性分化:模型可分为相对安全组(如Qwen2-Audio、Gemini系列)和高风险组(如SALMONN 7B/13B、Typhoon-audio),但即使是低风险模型,在情绪变化下仍存在安全稳定性不足的问题。
二、文章创新点
- 首次系统性研究:率先探索说话者情绪与LALMs安全对齐的交互关系,填补了副语言特征中情绪对LALMs安全性影响的研究空白。
- 精细化数据集构建:创建包含8320条恶意语音指令的数据集,控制语
订阅专栏 解锁全文
1627

被折叠的 条评论
为什么被折叠?



