SIMBENCH 论文核心总结与翻译
一、主要内容
SIMBENCH 是首个大规模标准化基准,用于评估大型语言模型(LLM)模拟群体级人类行为的能力。它整合了20个多样化数据集,覆盖道德决策、经济选择、心理评估等任务,涵盖全球130多个国家的参与者,提供了统一的评估框架。
通过对45个主流LLM的测试,核心发现包括:当前最优模型(Claude-3.7-Sonnet)的模拟得分仅为40.80/100,能力有限;模拟性能随模型参数规模呈对数线性增长,但推理时的计算资源增加无明显帮助;存在“对齐-模拟权衡”——指令微调提升低熵(共识性)问题表现,却损害高熵(多样性)问题性能;模型在模拟宗教/意识形态等特定人群时表现最差;模拟能力与深度知识密集型推理能力(如MMLU-Pro)相关性最强(r=0.939)。
二、创新点
- 首次构建大规模标准化基准,统一20个异质数据集为多 choice 格式,解决现有评估碎片化问题。
- 提出双分裂评估方案(SimBenchPop 测广谱人群、SimBenchGrouped 测特定人群),覆盖1093万+模拟目标。
- 发现“对齐-模拟权衡”现象,揭示指令微调对不同熵值问题的差异化影响及内在机制。
- 建立模拟能力与模型规模、推理资源、任务类型、人群特征的关联规律,明确核心影响因素。
- 设计基于总变异距离(TVD)的SIMBENCH得分,实现模拟 fidelity 的量化对比。
订阅专栏 解锁全文
3493

被折叠的 条评论
为什么被折叠?



