V2EX  ›  英汉词典
Enqueued related words: Off-policy, Actor-critic, Monte-carlo

On-policy

释义 Definition

On-policy(同策略/在策略):指在强化学习中,用某个策略产生的数据来评估并改进的也是这个同一个策略。也就是说,学习过程“跟着当前正在执行的策略走”。(在该领域还常与 off-policy 对比。)

发音 Pronunciation (IPA)

/ˌɑːn ˈpɑːləsi/

例句 Examples

The agent learns on-policy using SARSA.
智能体使用 SARSA 进行同策略(on-policy)学习。

Because the behavior policy keeps exploring, on-policy training can be more stable but may learn slowly when safe exploration is hard.
由于行为策略会持续探索,同策略训练可能更稳定,但在难以安全探索的场景中学习速度可能较慢。

词源 Etymology

on(“在……之上/依照”)+ policy(“策略”)构成;在强化学习语境中,policy 特指“智能体选择动作的规则/概率分布”。“on-policy”强调学习所依据的数据与要优化的策略是同一个

相关词 Related Words

文学与作品 Literary Works

  • Sutton, R. S., & Barto, A. G. **Reinforcement Learning: An Introduction**(常用“on-policy / off-policy”区分 SARSA 与 Q-learning 等方法)
  • Silver, D. **Reinforcement Learning**(课程讲义/公开课材料中频繁使用 “on-policy” 描述策略梯度与部分控制算法)
  • Szepesvári, C. **Algorithms for Reinforcement Learning**(讨论同策略与异策略学习框架与收敛性质)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   867 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 18:03 · PVG 02:03 · LAX 10:03 · JFK 13:03
♥ Do have faith in what you're doing.