V2EX  ›  英汉词典
Enqueued related words: TRPO

PPO

Definition / 定义

PPOProximal Policy Optimization(近端策略优化) 的缩写,一种常用的深度强化学习策略梯度算法。它通过“裁剪(clipping)”等机制限制每次策略更新的幅度,使训练更稳定、实现更简单,常用于训练智能体在游戏、机器人控制等任务中学习行为策略。
(注:PPO 也可能指医疗体系中的 Preferred Provider Organization 等含义;此处以强化学习中最常见用法为主。)

Pronunciation / 发音

/ˌpiː piː ˈoʊ/

Examples / 例句

We trained the agent with PPO.
我们用 PPO 训练了这个智能体。

PPO often improves training stability by clipping the policy update to prevent overly large changes.
PPO 常通过对策略更新进行裁剪来提升训练稳定性,从而避免一次更新带来过大的策略变化。

Etymology / 词源

PPO 来自短语 Proximal Policy Optimization 的首字母缩写:

  • Proximal(近端) 强调“每次只做相对接近的更新”,避免策略跳变过大;
  • Policy Optimization(策略优化) 指直接优化智能体的决策策略。
    该名称和方法在 2017 年由 John Schulman 等人在论文中系统提出并推广。

Related Words / 相关词

Notable Works / 文学与著作例

  • Proximal Policy Optimization Algorithms(Schulman et al., 2017)——提出并定义 PPO 的核心目标函数与训练流程。
  • Deep Reinforcement Learning Hands-On(Maxim Lapan)——以工程实践方式介绍并实现 PPO 等算法。
  • Spinning Up in Deep RL(OpenAI 文档/教程)——用教学化写法讲解 PPO 的直觉、关键公式与实现要点。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1865 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 09:57 · PVG 17:57 · LAX 01:57 · JFK 04:57
♥ Do have faith in what you're doing.