TRPO 是 Trust Region Policy Optimization 的缩写,中文常译为信赖域策略优化:一种用于强化学习的策略梯度算法,通过限制新旧策略之间的变化幅度(常用 KL 散度约束),让训练过程更稳定、减少性能“崩塌”。
/ˌtiː ɑːr piː ˈoʊ/
We trained the agent with TRPO.
我们用 TRPO 来训练智能体。
Compared with vanilla policy gradients, TRPO constrains policy updates, which often improves training stability in continuous-control tasks.
与基础策略梯度相比,TRPO 会约束策略更新幅度,因此在连续控制任务中往往更稳定。
TRPO 来自 2015 年左右强化学习研究中的术语缩写:Trust Region(信赖域)源自传统数值优化思想,表示每次只在“可信”的小范围内更新;Policy Optimization(策略优化)指直接优化策略参数。该方法因将“信赖域”思想引入策略梯度而得名。