文章核心总结
本文通过82620次大规模实验,系统研究了协作多智能体强化学习(MARL)的鲁棒性(抵御不确定性)和韧性(扰动后恢复能力),核心发现包括:轻度不确定性下优化协作可提升鲁棒性与韧性,但扰动加剧后该关联弱化;鲁棒性和韧性无法跨不确定性模态(观测/动作/环境)或智能体范围(单个/全体)泛化;超参数调优对可信MARL至关重要,部分常用策略(如参数共享、GAE)会损害性能,而早停、高评论家学习率等策略持续有效。仅通过超参数优化,就能显著提升协作(52.60%)、鲁棒性(34.78%)和韧性(60.34%),且该效果可迁移至鲁棒MARL方法。
创新点
- 首次在MARL中明确区分并量化鲁棒性与韧性,基于控制理论等领域的定义构建可操作的评估框架。
- 开展覆盖4类真实环境、13种不确定性类型、15个超参数的大规模实证研究,揭示三者间的关联规律。
- 发现超参数对MARL可信性的影响强于算法本身,颠覆部分传统优化认知,提出针对性调优准则。
- 验证超参数优化的普适性,证明其在普通和鲁棒MARL方法中均能大幅提升性能,提供低成本优化路径。
翻译部分(Markdown格式)
Abstract
在协作式多智能体强化学习(MARL)中,常见做法是在理想仿真环境中调优超参数以最大化协作性能。然而,为协作优化的策略在真实世界的不确定性下往往难以维持鲁棒性和韧性。构建可信的MARL系统需要深入理解鲁棒性(确保不确定性下的稳定性)和韧性(从

订阅专栏 解锁全文
1663

被折叠的 条评论
为什么被折叠?



