2025_NIPS_Large Language Models Are Semi-Parametric Reinforcement Learning Agents

文章总结与翻译

一、主要内容

本文受认知科学中人类记忆与推理机制的启发,提出了一种基于大语言模型(LLM)的可进化智能体框架REMEMBERER,核心是为LLM配备长期经验记忆,并引入带经验记忆的强化学习(RLEM)机制更新记忆,使系统无需微调LLM参数,就能从成功和失败经验中学习并进化能力,构成半参数化强化学习(RL)智能体。

为验证框架有效性,研究在WebShop(模拟网店购物任务)和WikiHow(导航任务)两个RL任务集上开展实验。结果显示,REMEMBERER在不同初始化和训练集下,平均成功率分别比先前的SOTA(state-of-the-art)模型提升2%(WebShop)和4%(WikiHow),展现出优越性和鲁棒性。同时,该框架训练效率更高,所需标注样本和训练步骤远少于传统模仿学习(IL)和强化学习方法。

二、创新点

  1. 提出REMEMBERER智能体框架:通过外部持久化记忆存储过往交互经验,无需微调LLM参数或构建超长提示词,即可让LLM跨任务目标复用经验。
  2. 引入RLEM机制:借助类强化学习训练更新经验记忆,使REMEMBERER具备自我进化能力,能同时利用成功和失败经验,且无需人工反馈。
  3. 创新经验利用方式:将记忆中的经验以“行动建议”形式(包含推荐行动和不推荐行动)作为动态示例,辅助LLM进行少样本上下文学习,提升决策准确性。
  4. 性能突破:在WebShop和WikiHow两个基准任务上超越现有SOTA模型,且训练效率更高、鲁棒性更强,对不同初始化和训练集适配性更好。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值