V2EX  ›  英汉词典

Policy Gradient

定义 Definition

策略梯度(Policy Gradient):强化学习中的一类方法,通过对策略参数求梯度来直接优化“策略”(即智能体选择动作的概率分布),目标通常是最大化长期期望回报。常用于连续动作控制或需要随机策略的任务。(也常指“策略梯度定理”或相关算法家族。)

发音 Pronunciation (IPA)

/ˈpɑːləsi ˈɡreɪdiənt/

例句 Examples

The agent learns with a policy gradient method.
智能体使用策略梯度方法进行学习。

By estimating the policy gradient from sampled trajectories, the algorithm updates its neural-network policy to maximize expected return while using a baseline to reduce variance.
通过从采样到的轨迹中估计策略梯度,该算法更新其神经网络策略以最大化期望回报,同时使用基线来降低方差。

词源 Etymology

该术语由两部分组成:policy(策略)源自希腊语 polis(城邦、公共事务)并经由拉丁语、法语进入英语,引申为“管理/决策方针”;gradient(梯度)来自拉丁语 gradiens(行走、逐步前进),在数学中表示“变化最快的方向”。合起来即“用梯度来优化策略”。

相关词 Related Words

文献与作品 Literary Works

  • Richard S. Sutton & Andrew G. Barto, Reinforcement Learning: An Introduction(多处讨论策略梯度与actor-critic框架)
  • Ronald J. Williams (1992), “Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning”(提出 REINFORCE,策略梯度经典来源)
  • John Schulman et al. (2015), “Trust Region Policy Optimization (TRPO)”(基于策略梯度的约束优化方法)
  • John Schulman et al. (2017), “Proximal Policy Optimization Algorithms (PPO)”(广泛应用的策略梯度变体)
  • David Silver et al. (2014), “Deterministic Policy Gradient Algorithms”(确定性策略梯度,适用于连续动作控制)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   684 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 21:51 · PVG 05:51 · LAX 13:51 · JFK 16:51
♥ Do have faith in what you're doing.