美团Longcat团队推VitaBench 2.0:揭示AI成“高情商助理”的短板与挑战

AI能否分清不同用户需求?美团推VitaBench 2.0应对挑战

一个经常加班的白领,一个带着孩子出游的父亲,AI助理能分清他们需要什么样的服务吗?现实是,它常常分不清。AI能执行明确指令,却难记住藏在场景和身份背后的真实需求。它们是真的无法理解,还是"情商"不够高呢?

自去年10月发布了VitaBench 1.0,首次定义生活场景下智能体任务的复杂度,美团Longcat团队再次推出VitaBench 2.0,它不再仅关注任务难度,而是投向更深层次的挑战。

VitaBench 2.0是首个真实生活场景下面向长期动态用户建模的智能体评测基准,它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。

VitaBench 2.0的核心看点有哪些?

其核心“硬核”看点包括:一是高难度业界首创,首次将智能体场景与丰富用户生态相结合,打造面向长期动态用户建模的智能体基准,包含56名真实特征用户、819个复杂任务、超2000个动态偏好及66个可执行工具;二是超长跨度动态追踪,平均每位用户包含2093个交互事件,平均时间跨度长达1580天,严格按时间线向Agent暴露,真实还原用户偏好的演进与漂移;三是统一评测生态,针对长文本上下文学习与智能体记忆策略的统一评测平台。

VitaBench 2.0的设计原理是什么?

搭建“人生副本”:让AI在真实用户轨迹中接受考验

不同于一次性问答,VitaBench 2.0为56位虚拟用户,在送餐、到店、差旅等多个真实领域中,构建了包含2000多种动态偏好、跨度长达数年的生活轨迹。这背后有庞大而真实的数据支撑,数据生态包含56个拟真用户,每个用户都有基于真实世界统计数据构建的独特身份、习惯和需求;819个可执行任务,贯穿于用户的整个生命周期;用户的偏好会动态演变,平均每个用户的偏好会发生超过48次动态变化。这些偏好被嵌入到碎片化的互动历史中,智能体需从混杂着“信号”与“噪音”的线索中,持续对用户进行理解。

引入“时间标尺”:将持续理解作为核心目标

传统的Agent评测关注“单个任务是否完成”,而VitaBench 2.0的核心目标是评测智能体是否在持续理解一个动态的人。为此,评测的时间轴被拉长,用户的平均交互周期长达1580天(约4.3年),最长甚至达到2974天。在这漫长的时间线里,智能体需要不断地提取、利用、并更新对用户的理解,才能在后续任务中做出正确决策,这改变了评测焦点,从单次任务的成功转向了对用户偏好的考核。

设立“记忆擂台”:对决AI的两种记忆模式

为探究记忆在长期用户建模中的作用,VitaBench 2.0搭建了首个真实用户场景下的统一长期智能体评测平台,通过可扩展的接口,让智能体记忆和RAG记忆两种代表性机制在此对决。智能体记忆是AI自己决定记住什么、忘记什么,主动维护一个精炼的用户档案;RAG记忆像一个外部搜索引擎,根据当前任务检索最相关的历史片段。通过对比这两种模式,可看到不同记忆架构及同架构下不同设计对个性化决策的真实影响,回答“AI应该如何记忆”这一关键问题。同时,还设计了主动性任务,考验AI的“眼力劲”,在这些任务中,AI必须意识到信息不足并主动提问,而不是盲目决策。

用VitaBench 2.0能看清模型的哪些短板?

VitaBench 2.0不仅给出了总分,更用数据揭示了模型们犯错的具体原因。从主要模型在不同记忆设置下的性能排行榜可以看出,即使在“开卷”模式下,最强的模型Claude - Opus - 4.6的平均分也刚过0.5,说明从海量信息中准确提炼偏好本身就比较困难。而切换到更真实的记忆模式,模型的表现出现不同程度的下滑。

洞察一:时间越长,AI忘得越快

随着任务序列索引增加(即时间推移),所有模型的平均性能都在下降,说明处理超长上下文的能力和记忆模块的累积误差,严重限制了AI的长期服务能力。且记忆并没有成为解药,大部分模型在接入Agentic Memory或RAG Memory后,性能反而低于直接使用全历史记录的场景,记忆的正确更新、检索和利用才是真正的挑战。

洞察二:高“智商”不等于高“情商”

常见假设是开启模型的“思考模式”能提升其表现,但VitaBench 2.0的实验结果给出了相反答案:开启思考模式,在个性化任务上并不总是有帮助。从模型在开启/关闭思考模式下的性能与效率关系图可以看到,开启思考模式的点并没有稳定地比关闭模式更优越。

洞察三:AI普遍缺乏“主动沟通”的意愿

模型普遍缺乏在信息不足时主动提问的“眼力见”,所有模型家族在需要主动提问的任务上,得分都出现了“断崖式”下跌。例如,Claude家族的平均分从46.0骤降至27.4,表明AI倾向于“想当然”,而不是在不确定时“多问一句”。

洞察四:就算“喂到嘴边”,AI也未必会吃

直接把真实用户偏好告诉模型,性能虽有所提升,但仍有很大进度空间。即便把真实偏好直接告诉模型,多数模型仍然失败,说明即使拥有准确的用户画像,在高压、多约束的决策中正确应用这些偏好,本身就是一个巨大的挑战。

洞察五:从“工具失误”到“情商不足”的瓶颈转移

对模型的失败原因进行分类统计,在由66个真实工具构成的复杂生活服务场景中,早期模型更多地犯下工具使用错误,而更强的模型虽然工具用得更好了,但在偏好理解和应用上的失败却成了主要矛盾。这表明随着模型基础能力的提升,个性化已是当前Agent的最大瓶颈。

定义下一代智能体评测范式,VitaBench 2.0有何价值?

VitaBench 2.0清晰地揭示了,当前AI在成为“高情商助理”的路上,依然任重道远。它的核心价值在于推动了评测范式的演进:从单点任务到长期陪伴,从被动执行到主动沟通,从黑盒到透明。这使得VitaBench 2.0成为一座连接技术与产品的“桥梁”,用可量化的数据回答了“我的AI为什么不够好用”的问题,并为开发者指明了模型在“服务于人”这一终极目标上的具体短板。

希望VitaBench 2.0能成为一个起点,激发更多研究关注智能体的个性化、记忆和主动性,共同推动AI从一个强大的“工具”进化为一个有温度的“伙伴”。VitaBench 2.0已全面开源,各大模型能否通过这次“情商”大考呢?

【重要提示】本资源设置为0积分下载,若非0积分请勿轻易下载 亲爱的CSDN用户: 首先感谢你点进这个资源页面。我需要提前说明一个重要情况: 本资源原本已设置为“0积分下载”,即作者希望完全免费共享。但CSDN平台有时会根据文件的下载热度、文件大小、用户权限等因素,自动将部分资源的积分调整为非0数值(如1积分、2积分、5积分等)。这是平台系统的自动行为,而非作者本人的设定。 因此,如果你当前看到该资源的下载所需积分不是0(例如显示为1、2、3……),请谨慎决定是否下载。 如果你按照非0积分支付并下载后发现资源内容不符合预期、链接失效,或者实际上该资源本应是免费的,作者无法为此承担积分损失或退还操作。强烈建议:仅在页面显示为0积分时进行下载。 另外,本资源描述中并未直接提供具体的下载地址或外部链接,因为它本身是一个通过CSDN官方上传通道提交的文件/内容包。如果你看到描述中没有外部网盘地址,这是正常的——资源文件应通过CSDN内置的“下载”按钮获取。若因平台积分显示异常导致你支付了积分,请优先联系CSDN客服咨询积分退还政策,作者没有权限修改平台自动设定的积分值。 感谢你的理解支持。技术分享本应开放,但受限于平台规则,特此提醒如上。祝学习进步!
源码下载地址: https://pan.quark.cn/s/a4b39357ea24 MAC(媒体访问控制器)PHY(物理接口收发器)是构以太网基础架构的两个核心组部分,它们在数据链路层和物理层中承担着重要功能。以太网技术是计算机网络领域中应用最为广泛的局域网技术之一,其相关标准主要由IEEE通过IEEE 802.3标准来制定,该标准详细规定了从物理层到介质访问控制层的通信协议和规范。MAC主要负责数据链路层的下半部分功能,其核心职责包括对网络中的数据传输进行管理,确保数据能够准确无误地在网络中传输。MAC通过评估网络状态来决定是否可以发送数据,并在发送前为数据附加必要的控制信息,最终将数据和控制信息按照标准格式传输至物理层。在接收数据时,MAC协议负责判断数据传输是否出现错误,若无错误则将数据的控制信息剥离后传递给逻辑链路控制(LLC)层。 PHY则负责物理层的具体实现,涵盖了电信号的传输接收,以及将数据转换为物理信号发送至网络,或将物理信号转换回数据供MAC处理。IEEE 802.3标准对PHY的规范进行了规定,不同速度的PHY,例如10BaseT和100BaseTX,虽然在物理层上具有相同的分组描述,但所采用的信令机制存在差异,10BaseT使用曼彻斯特编码,而100BaseTX采用4B/5B编码,这种设计防止了硬件在不同速度下能够轻易兼容。 媒体独立接口(MII)是用于连接MAC和PHY的标准接口,作为IEEE 802.3定义的一个以太网行业标准,它包含了数据接口和管理接口。数据接口运用了两条独立的信道,其中一条用于发送器,另一条用于接收器,每条信道都包含数据、时钟和控制信号。总共需要16个信号来实现MII接口,以支持MAC和PHY之间的数据交...
内容概要:本文系统研究了基于交流潮流的电力系统多元件N-k故障模型,通过Matlab代码实现了在多重故障条件下电力系统潮流的精确计算安全性分析。该模型充分考虑交流潮流的非线性特性,构建了更为精确的N-k故障数学表达形式,能够有效模拟实际电网中多个元件同时发生故障的复杂场景,从而提升对系统脆弱性的识别能力和安全评估的准确性。研究重点涵盖故障组合的高效枚举、交流潮流方程在故障状态下的修正求解方法,以及关键故障场景的筛选机制,并配套提供完整的Matlab仿真程序,便于用户复现结果、验证算法并拓展应用于其他测试系统。; 适合人群:具备电力系统分析基础理论知识和Matlab编程能力的科研人员、电气工程专业研究生,以及从事电网安全评估、可靠性分析和运行调度的工程技术人员。; 使用场景及目标:①开展电力系统多重故障下的安全性稳定性评估;②支撑电网规划阶段的N-k安全准则校验;③用于学术研究中对连锁故障传播机理的建模仿真分析;④识别电网中的关键薄弱环节,为提升系统韧性、制定应急控制策略和优化防护资源配置提供技术依据。; 阅读建议:建议读者结合电力系统潮流计算稳定性相关理论,深入理解N-k故障建模的核心逻辑,重点关注交流潮流在故障注入后的处理方法,务必动手运行所提供的Matlab代码,通过调试修改加深对算法实现细节的掌握,并尝试将其应用于IEEE标准测试系统或其他实际电网模型中进行对比验证性能优化。
【重要提示】本资源设置为0积分下载,若非0积分请勿轻易下载 亲爱的CSDN用户: 首先感谢你点进这个资源页面。我需要提前说明一个重要情况: 本资源原本已设置为“0积分下载”,即作者希望完全免费共享。但CSDN平台有时会根据文件的下载热度、文件大小、用户权限等因素,自动将部分资源的积分调整为非0数值(如1积分、2积分、5积分等)。这是平台系统的自动行为,而非作者本人的设定。 因此,如果你当前看到该资源的下载所需积分不是0(例如显示为1、2、3……),请谨慎决定是否下载。 如果你按照非0积分支付并下载后发现资源内容不符合预期、链接失效,或者实际上该资源本应是免费的,作者无法为此承担积分损失或退还操作。强烈建议:仅在页面显示为0积分时进行下载。 另外,本资源描述中并未直接提供具体的下载地址或外部链接,因为它本身是一个通过CSDN官方上传通道提交的文件/内容包。如果你看到描述中没有外部网盘地址,这是正常的——资源文件应通过CSDN内置的“下载”按钮获取。若因平台积分显示异常导致你支付了积分,请优先联系CSDN客服咨询积分退还政策,作者没有权限修改平台自动设定的积分值。 感谢你的理解支持。技术分享本应开放,但受限于平台规则,特此提醒如上。祝学习进步!
【重要提示】本资源设置为0积分下载,若非0积分请勿轻易下载 亲爱的CSDN用户: 首先感谢你点进这个资源页面。我需要提前说明一个重要情况: 本资源原本已设置为“0积分下载”,即作者希望完全免费共享。但CSDN平台有时会根据文件的下载热度、文件大小、用户权限等因素,自动将部分资源的积分调整为非0数值(如1积分、2积分、5积分等)。这是平台系统的自动行为,而非作者本人的设定。 因此,如果你当前看到该资源的下载所需积分不是0(例如显示为1、2、3……),请谨慎决定是否下载。 如果你按照非0积分支付并下载后发现资源内容不符合预期、链接失效,或者实际上该资源本应是免费的,作者无法为此承担积分损失或退还操作。强烈建议:仅在页面显示为0积分时进行下载。 另外,本资源描述中并未直接提供具体的下载地址或外部链接,因为它本身是一个通过CSDN官方上传通道提交的文件/内容包。如果你看到描述中没有外部网盘地址,这是正常的——资源文件应通过CSDN内置的“下载”按钮获取。若因平台积分显示异常导致你支付了积分,请优先联系CSDN客服咨询积分退还政策,作者没有权限修改平台自动设定的积分值。 感谢你的理解支持。技术分享本应开放,但受限于平台规则,特此提醒如上。祝学习进步!
源码直接下载地址: https://pan.quark.cn/s/a4b39357ea24 ### 汇编语言程序:从键盘输入一串英文字母,分别将其转换为大写、小写并输出 #### 程序概述 本文档详细介绍了一个基础的汇编语言程序,该程序能够让用户通过键盘输入一系列英文字母,并将这些字母分别转换大写和小写形式后输出。此程序特别适合汇编语言初学者作为学习练习的参考实例。 #### 程序结构分析 程序主要分为两个部分:数据部分(DATASEGMENT)代码部分(CODESEGMENT)。 ##### 数据部分(DATASEGMENT) 在数据部分中,定义了以下几个变量: - `MESS1`:字符串常量,用于向用户发出输入提示。 - `MI`:用于保存用户输入的字符串。 - `MO1`:用于保存转换为大写的字符串。 - `MO2`:用于保存转换为小写的字符串。 具体定义如下: - `MESS1 DB Please input strings:, 0AH, 0DH, $`:定义了一个包含提示信息的字符串,其中`0AH`表示换行符,`0DH`表示回车符。 - `MI DB 50 DUP ($)`:定义了一个最大长度为50个字符的数组,用于保存用户输入的字符串。 - `MO1 DB 51 DUP ($)`:定义了一个最大长度为51个字符的数组,用于保存转换为大写的字符串,多出的一个字符用于保存字符串结束标志`$`。 - `MO2 DB 51 DUP ($)`:定义了一个最大长度为51个字符的数组,用于保存转换为小写的字符串。 ##### 代码部分(CODESEGMENT) 代码部分包含了程序的主要逻辑: 1. **初始化**:将数据段设置为当前数据段。 2. **显示提示信...
内容概要:本文详细介绍了基于物理信息神经网络(PINNs)求解欧拉-伯努利(Euler-Bernoulli)双梁正问题的PyTorch实战方法,通过Python代码实现,将结构力学中的偏微分方程作为物理约束嵌入深度学习模型,利用神经网络自动满足控制方程边界条件,从而实现对双梁系统变形行为的高精度建模求解。该方法摆脱了传统数值方法对网格划分的依赖,具备强泛化能力求解灵活性,尤其适用于复杂边界条件和连续介质力学问题的智能仿真。文中重点解析了损失函数的设计原理,涵盖方程残差、初始条件边界条件的加权融合,并提供了可复现的代码架构,便于进一步拓展至其他多物理场耦合问题。; 适合人群:具备一定深度学习基础、熟悉PyTorch框架,并掌握结构力学或偏微分方程基本概念的研究生、科研人员及从事智能计算工程仿真的技术人员。; 使用场景及目标:①应用于土木、机械等领域中梁结构的静动力响应分析;②动数据驱动物理模型融合的科学机器学习(SciML)技术发展;③为复杂工程系统的无网格化、智能化仿真提供新范式。; 阅读建议:建议读者结合提供的代码逐模块调试,深入理解物理约束项在损失函数中的数学表达实现逻辑,并尝试更换材料参数、边界条件或扩展至非线性梁模型以增强实际应用能力。
内容概要:本文系统阐述了基于蚁狮优化算法(ALO)在复杂三维动态环境中求解多无人机动态避障路径规划问题的研究方法,并提供了完整的Matlab代码实现。研究聚焦于智能优化算法在多无人机协同路径规划中的应用,通过构建合理的路径代价函数,结合环境建模动态障碍物处理机制,利用ALO算法全局搜索能力强、收敛精度高的特点,有效求解出满足安全性、平滑性最优性的飞行路径。文中不仅展示了该算法在提升多无人机系统自主避障能力任务执行效率方面的优势,还全面介绍了所属科研团队在智能优化、路径规划、机器学习、电力系统等多个领域的深厚技术积累丰富的MATLAB仿真服务能力,涵盖从算法设计到工程落地的全流程技术支持。; 适合人群:具备一定编程基础,熟悉Matlab工具,从事智能优化算法、无人机控制、路径规划、自动化机器人等相关方向的科研人员、高校研究生及工程技术人员。; 使用场景及目标:①研究多无人机在复杂三维动态环境下的协同避障路径优化问题;②深入理解蚁狮优化算法(ALO)的核心原理、实现流程及其在路径规划领域的具体应用;③获取可直接运行复现的Matlab代码资源,用于学术研究、论文撰写、项目开发或算法性能对比分析; 阅读建议:建议结合文中提供的网盘链接下载完整代码相关资料,按照荐的学习路径系统研读,重点关注ALO算法的参数设置、适应度函数设计以及路径规划模型的构建逻辑,同时可将其其他主流智能算法(如PSO、GWO、GA等)进行横向对比实验,以深化对不同优化策略性能差异的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值