SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

SIMBENCH 论文核心总结与翻译

一、主要内容

SIMBENCH 是首个大规模标准化基准,用于评估大型语言模型(LLM)模拟群体级人类行为的能力。它整合了20个多样化数据集,覆盖道德决策、经济选择、心理评估等任务,涵盖全球130多个国家的参与者,提供了统一的评估框架。

通过对45个主流LLM的测试,核心发现包括:当前最优模型(Claude-3.7-Sonnet)的模拟得分仅为40.80/100,能力有限;模拟性能随模型参数规模呈对数线性增长,但推理时的计算资源增加无明显帮助;存在“对齐-模拟权衡”——指令微调提升低熵(共识性)问题表现,却损害高熵(多样性)问题性能;模型在模拟宗教/意识形态等特定人群时表现最差;模拟能力与深度知识密集型推理能力(如MMLU-Pro)相关性最强(r=0.939)。

二、创新点

  1. 首次构建大规模标准化基准,统一20个异质数据集为多 choice 格式,解决现有评估碎片化问题。
  2. 提出双分裂评估方案(SimBenchPop 测广谱人群、SimBenchGrouped 测特定人群),覆盖1093万+模拟目标。
  3. 发现“对齐-模拟权衡”现象,揭示指令微调对不同熵值问题的差异化影响及内在机制。
  4. 建立模拟能力与模型规模、推理资源、任务类型、人群特征的关联规律,明确核心影响因素。
  5. 设计基于总变异距离(TVD)的SIMBENCH得分,实现模拟 fidelity 的量化对比。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值