Off-policy(离策略/离线策略):在强化学习中,指用一种策略收集到的数据(行为策略,behavior policy)来学习或评估另一种策略(目标策略,target policy)的方法。常见于能利用历史数据、回放缓冲区(replay buffer)或与当前学习策略不一致的探索行为的算法中。(该词在其他语境也可泛指“偏离既定政策/方针”,但最常见用法在强化学习领域。)
/ˌɔːf ˈpɑːləsi/
We trained the agent with off-policy data from old logs.
我们用旧日志里的离策略数据来训练智能体。
Off-policy learning can be more sample-efficient, but it often needs techniques like importance sampling to reduce bias.
离策略学习在样本利用率上可能更高,但往往需要重要性采样等技术来降低偏差。
off- 表示“偏离、在……之外”,policy 表示“策略”。在强化学习里,“off-policy”强调学习所针对的策略与产生数据的策略不一致,即“离开(所学)策略来取数/学习”。