Enqueued related words: TRPO

PPO

Definition / 定义

PPO 是 Proximal Policy Optimization（近端策略优化） 的缩写，一种常用的深度强化学习策略梯度算法。它通过“裁剪（clipping）”等机制限制每次策略更新的幅度，使训练更稳定、实现更简单，常用于训练智能体在游戏、机器人控制等任务中学习行为策略。
（注：PPO 也可能指医疗体系中的 Preferred Provider Organization 等含义；此处以强化学习中最常见用法为主。）

Pronunciation / 发音

/ˌpiː piː ˈoʊ/

Examples / 例句

We trained the agent with PPO.
我们用 PPO 训练了这个智能体。

PPO often improves training stability by clipping the policy update to prevent overly large changes.
PPO 常通过对策略更新进行裁剪来提升训练稳定性，从而避免一次更新带来过大的策略变化。

Etymology / 词源

PPO 来自短语 Proximal Policy Optimization 的首字母缩写：

Proximal（近端） 强调“每次只做相对接近的更新”，避免策略跳变过大；
Policy Optimization（策略优化） 指直接优化智能体的决策策略。
该名称和方法在 2017 年由 John Schulman 等人在论文中系统提出并推广。

Related Words / 相关词

Notable Works / 文学与著作例

Proximal Policy Optimization Algorithms（Schulman et al., 2017）——提出并定义 PPO 的核心目标函数与训练流程。
Deep Reinforcement Learning Hands-On（Maxim Lapan）——以工程实践方式介绍并实现 PPO 等算法。
Spinning Up in Deep RL（OpenAI 文档/教程）——用教学化写法讲解 PPO 的直觉、关键公式与实现要点。