TRPO

定义 Definition

TRPO 是 Trust Region Policy Optimization 的缩写，中文常译为信赖域策略优化：一种用于强化学习的策略梯度算法，通过限制新旧策略之间的变化幅度（常用 KL 散度约束），让训练过程更稳定、减少性能“崩塌”。

发音 Pronunciation (IPA)

/ˌtiː ɑːr piː ˈoʊ/

例句 Examples

We trained the agent with TRPO.
我们用 TRPO 来训练智能体。

Compared with vanilla policy gradients, TRPO constrains policy updates, which often improves training stability in continuous-control tasks.
与基础策略梯度相比，TRPO 会约束策略更新幅度，因此在连续控制任务中往往更稳定。

词源 Etymology

TRPO 来自 2015 年左右强化学习研究中的术语缩写：Trust Region（信赖域）源自传统数值优化思想，表示每次只在“可信”的小范围内更新；Policy Optimization（策略优化）指直接优化策略参数。该方法因将“信赖域”思想引入策略梯度而得名。

文献与作品 Literary Works

Schulman et al., “Trust Region Policy Optimization”（2015）
OpenAI, Spinning Up in Deep RL（教程与文档中介绍并实现 TRPO）
Sutton & Barto, Reinforcement Learning: An Introduction（相关章节讨论策略梯度与近端/约束更新思想，常与 TRPO 对照学习）
Maxim Lapan, Deep Reinforcement Learning Hands-On（书中常在算法谱系中提及 TRPO 与 PPO 的关系）

TRPO

定义 Definition

发音 Pronunciation (IPA)

例句 Examples

词源 Etymology

相关词 Related Words

文献与作品 Literary Works