Policy gradient(策略梯度):强化学习中的一类方法,通过对“策略(policy)”参数求梯度,并沿着能提升期望回报(expected return)的方向更新参数,来直接优化智能体的决策策略。常用于随机策略与连续动作空间。
(该术语也常泛指一整套“基于策略梯度的算法家族”。)
/ˈpɑːləsi ˈɡreɪdiənt/
Policy gradient methods can learn a stochastic policy directly.
策略梯度方法可以直接学习随机策略。
Using a policy gradient with a baseline can reduce variance and stabilize training in reinforcement learning.
在强化学习中,使用带基线(baseline)的策略梯度可以降低方差并让训练更稳定。
“Policy”在强化学习里指从状态到动作的决策规则(可参数化);“Gradient”指梯度,即目标函数对参数的导数方向。合起来,“policy gradient”字面意思就是“对策略做梯度优化”,对应常见的梯度上升来最大化期望回报(或最小化损失的等价形式)。