文章总结与翻译
一、主要内容
本文受认知科学中人类记忆与推理机制的启发,提出了一种基于大语言模型(LLM)的可进化智能体框架REMEMBERER,核心是为LLM配备长期经验记忆,并引入带经验记忆的强化学习(RLEM)机制更新记忆,使系统无需微调LLM参数,就能从成功和失败经验中学习并进化能力,构成半参数化强化学习(RL)智能体。
为验证框架有效性,研究在WebShop(模拟网店购物任务)和WikiHow(导航任务)两个RL任务集上开展实验。结果显示,REMEMBERER在不同初始化和训练集下,平均成功率分别比先前的SOTA(state-of-the-art)模型提升2%(WebShop)和4%(WikiHow),展现出优越性和鲁棒性。同时,该框架训练效率更高,所需标注样本和训练步骤远少于传统模仿学习(IL)和强化学习方法。
二、创新点
- 提出REMEMBERER智能体框架:通过外部持久化记忆存储过往交互经验,无需微调LLM参数或构建超长提示词,即可让LLM跨任务目标复用经验。
- 引入RLEM机制:借助类强化学习训练更新经验记忆,使REMEMBERER具备自我进化能力,能同时利用成功和失败经验,且无需人工反馈。
- 创新经验利用方式:将记忆中的经验以“行动建议”形式(包含推荐行动和不推荐行动)作为动态示例,辅助LLM进行少样本上下文学习,提升决策准确性。
- 性能突破:在WebShop和WikiHow两个基准任务上超越现有SOTA模型,且训练效率更高、鲁棒性更强,对不同初始化和训练集适配性更好。
订阅专栏 解锁全文
1721

被折叠的 条评论
为什么被折叠?



