Enqueued related words: Off-policy, Actor-critic, Monte-carlo

On-policy

释义 Definition

On-policy（同策略/在策略）：指在强化学习中，用某个策略产生的数据来评估并改进的也是这个同一个策略。也就是说，学习过程“跟着当前正在执行的策略走”。（在该领域还常与 off-policy 对比。）

发音 Pronunciation (IPA)

/ˌɑːn ˈpɑːləsi/

例句 Examples

The agent learns on-policy using SARSA.
智能体使用 SARSA 进行同策略（on-policy）学习。

Because the behavior policy keeps exploring, on-policy training can be more stable but may learn slowly when safe exploration is hard.
由于行为策略会持续探索，同策略训练可能更稳定，但在难以安全探索的场景中学习速度可能较慢。

词源 Etymology

由 on（“在……之上/依照”）+ policy（“策略”）构成；在强化学习语境中，policy 特指“智能体选择动作的规则/概率分布”。“on-policy”强调学习所依据的数据与要优化的策略是同一个。

文学与作品 Literary Works