2025_NIPS_Globally Optimal Policy Gradient Algorithms for Reinforcement Learning with PID Control Po

最新推荐文章于 2026-06-29 22:45:03 发布

原创最新推荐文章于 2026-06-29 22:45:03 发布 · 122 阅读

·

3

·

标签

#算法 #人工智能

LLM Daily 同时被 2 个专栏收录

2899 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

文章核心总结与翻译

一、主要内容

文章聚焦强化学习（RL）与比例-积分-微分（PID）控制的融合，解决传统PID调参依赖启发式规则、缺乏理论保障的问题。通过将PID控制建模为优化问题，推导PID参数的精确策略梯度表达式，提出两种具有全局最优性和收敛保证的算法：模型基的PG4PID（适用于完整PID控制）和无模型的PG4PI（适用于PI控制）。在ControlGym环境的实验中，两种算法均展现出快速收敛性、零稳态跟踪误差和强鲁棒性，性能优于PPO和LQR等基准方法。

二、创新点

建立PID控制与RL策略梯度方法的严格理论衔接，证明PID优化目标的梯度优势特性，确保一阶平稳点即为全局最优。
推导PID参数（KP、KI、KD）的精确策略梯度表达式，为算法设计提供理论基础。
提出模型基PG4PID算法，通过系统辨识估计系统矩阵，实现线性收敛；提出无模型PG4PI算法，引入随机策略规避模型依赖，首次为PI控制提供全局最优性和样本复杂度保证。
实验验证算法在高维环境（8维化学反应器、48维医院系统）中的有效性，且PID架构自带的积分项使其相比LQR具有零稳态误差优势。

三、核心部分翻译（Markdown格式）

Abstract（摘要）

我们提出了具有全局最优性和收敛保证的策略梯度算法，用于基于比例-积分-微分（PID）参数化控制策略的强化学习（RL）。强化学习能够通过与

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。