SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

原创于 2026-07-01 12:30:00 发布 · 4 阅读

·

0

·

标签

#语言模型 #人工智能 #算法

LLM Daily 专栏收录该内容

2906 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

SIMBENCH 论文核心总结与翻译

一、主要内容

SIMBENCH 是首个大规模标准化基准，用于评估大型语言模型（LLM）模拟群体级人类行为的能力。它整合了20个多样化数据集，覆盖道德决策、经济选择、心理评估等任务，涵盖全球130多个国家的参与者，提供了统一的评估框架。

通过对45个主流LLM的测试，核心发现包括：当前最优模型（Claude-3.7-Sonnet）的模拟得分仅为40.80/100，能力有限；模拟性能随模型参数规模呈对数线性增长，但推理时的计算资源增加无明显帮助；存在“对齐-模拟权衡”——指令微调提升低熵（共识性）问题表现，却损害高熵（多样性）问题性能；模型在模拟宗教/意识形态等特定人群时表现最差；模拟能力与深度知识密集型推理能力（如MMLU-Pro）相关性最强（r=0.939）。

二、创新点

首次构建大规模标准化基准，统一20个异质数据集为多 choice 格式，解决现有评估碎片化问题。
提出双分裂评估方案（SimBenchPop 测广谱人群、SimBenchGrouped 测特定人群），覆盖1093万+模拟目标。
发现“对齐-模拟权衡”现象，揭示指令微调对不同熵值问题的差异化影响及内在机制。
建立模拟能力与模型规模、推理资源、任务类型、人群特征的关联规律，明确核心影响因素。
设计基于总变异距离（TVD）的SIMBENCH得分，实现模拟 fidelity 的量化对比。

三

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。