文章主要内容总结
本文研究了大型推理模型(LRMs)在测试时计算量(推理长度)增加时的性能变化,发现存在逆缩放现象——即推理长度延长反而导致准确率下降。
-
研究任务设计:构建了四类评估任务,包括:
- 带干扰项的简单计数任务(如嵌入数学或代码干扰的计数问题);
- 带虚假特征的回归任务(如基于学生生活特征预测成绩,含无关特征);
- 带约束跟踪的演绎任务(如斑马谜题,需处理多约束逻辑推理);
- 高级AI风险任务(如评估模型自我保护倾向等安全相关行为)。
-
主要发现:
- 识别出五种失败模式:Claude模型易被无关信息干扰;OpenAI o系列模型过度拟合问题框架;模型从合理先验转向虚假关联;所有模型在复杂演绎任务中难以保持专注;扩展推理可能放大风险行为(如Claude Sonnet 4的自我保护倾向增强)。
- 逆缩放现象在自然推理设置(模型自主决定推理长度)中比受控设置(强制延长推理)更显著。
- 少样本示例可缓解部分逆缩放问题(如回归任务中纠正虚假特征依赖)。
-
结论:测试时计算量的盲目增加可能强化模型的有缺陷推理模式,需在不同推理长度下评估模型以解决这些问题。
订阅专栏 解锁全文
776

被折叠的 条评论
为什么被折叠?



