V2EX  ›  英汉词典

TRPO

定义 Definition

TRPO 是 Trust Region Policy Optimization 的缩写,中文常译为信赖域策略优化:一种用于强化学习的策略梯度算法,通过限制新旧策略之间的变化幅度(常用 KL 散度约束),让训练过程更稳定、减少性能“崩塌”。

发音 Pronunciation (IPA)

/ˌtiː ɑːr piː ˈoʊ/

例句 Examples

We trained the agent with TRPO.
我们用 TRPO 来训练智能体。

Compared with vanilla policy gradients, TRPO constrains policy updates, which often improves training stability in continuous-control tasks.
与基础策略梯度相比,TRPO 会约束策略更新幅度,因此在连续控制任务中往往更稳定。

词源 Etymology

TRPO 来自 2015 年左右强化学习研究中的术语缩写:Trust Region(信赖域)源自传统数值优化思想,表示每次只在“可信”的小范围内更新;Policy Optimization(策略优化)指直接优化策略参数。该方法因将“信赖域”思想引入策略梯度而得名。

相关词 Related Words

文献与作品 Literary Works

  • Schulman et al., “Trust Region Policy Optimization”(2015)
  • OpenAI, Spinning Up in Deep RL(教程与文档中介绍并实现 TRPO)
  • Sutton & Barto, Reinforcement Learning: An Introduction(相关章节讨论策略梯度与近端/约束更新思想,常与 TRPO 对照学习)
  • Maxim Lapan, Deep Reinforcement Learning Hands-On(书中常在算法谱系中提及 TRPO 与 PPO 的关系)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   684 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 21:51 · PVG 05:51 · LAX 13:51 · JFK 16:51
♥ Do have faith in what you're doing.