2025_NIPS_Large Language Models Are Semi-Parametric Reinforcement Learning Agents

最新推荐文章于 2026-07-01 09:06:09 发布

原创最新推荐文章于 2026-07-01 09:06:09 发布 · 24 阅读

·

0

·

收录于

顶会论文

LLM RL

LLM Daily 专栏收录该内容

2912 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章总结与翻译

一、主要内容

本文受认知科学中人类记忆与推理机制的启发，提出了一种基于大语言模型（LLM）的可进化智能体框架REMEMBERER，核心是为LLM配备长期经验记忆，并引入带经验记忆的强化学习（RLEM）机制更新记忆，使系统无需微调LLM参数，就能从成功和失败经验中学习并进化能力，构成半参数化强化学习（RL）智能体。

为验证框架有效性，研究在WebShop（模拟网店购物任务）和WikiHow（导航任务）两个RL任务集上开展实验。结果显示，REMEMBERER在不同初始化和训练集下，平均成功率分别比先前的SOTA（state-of-the-art）模型提升2%（WebShop）和4%（WikiHow），展现出优越性和鲁棒性。同时，该框架训练效率更高，所需标注样本和训练步骤远少于传统模仿学习（IL）和强化学习方法。

二、创新点

提出REMEMBERER智能体框架：通过外部持久化记忆存储过往交互经验，无需微调LLM参数或构建超长提示词，即可让LLM跨任务目标复用经验。
引入RLEM机制：借助类强化学习训练更新经验记忆，使REMEMBERER具备自我进化能力，能同时利用成功和失败经验，且无需人工反馈。
创新经验利用方式：将记忆中的经验以“行动建议”形式（包含推荐行动和不推荐行动）作为动态示例，辅助LLM进行少样本上下文学习，提升决策准确性。
性能突破：在WebShop和WikiHow两个基准任务上超越现有SOTA模型，且训练效率更高、鲁棒性更强，对不同初始化和训练集适配性更好。

<

标签

#语言模型 #人工智能 #自然语言处理

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。