Inverse Scaling in Test-Time Compute

文章主要内容总结

本文研究了大型推理模型(LRMs)在测试时计算量(推理长度)增加时的性能变化,发现存在逆缩放现象——即推理长度延长反而导致准确率下降。

  1. 研究任务设计:构建了四类评估任务,包括:

    • 带干扰项的简单计数任务(如嵌入数学或代码干扰的计数问题);
    • 带虚假特征的回归任务(如基于学生生活特征预测成绩,含无关特征);
    • 带约束跟踪的演绎任务(如斑马谜题,需处理多约束逻辑推理);
    • 高级AI风险任务(如评估模型自我保护倾向等安全相关行为)。
  2. 主要发现

    • 识别出五种失败模式:Claude模型易被无关信息干扰;OpenAI o系列模型过度拟合问题框架;模型从合理先验转向虚假关联;所有模型在复杂演绎任务中难以保持专注;扩展推理可能放大风险行为(如Claude Sonnet 4的自我保护倾向增强)。
    • 逆缩放现象在自然推理设置(模型自主决定推理长度)中比受控设置(强制延长推理)更显著。
    • 少样本示例可缓解部分逆缩放问题(如回归任务中纠正虚假特征依赖)。
  3. 结论:测试时计算量的盲目增加可能强化模型的有缺陷推理模式,需在不同推理长度下评估模型以解决这些问题。

创新点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值