behavior policy 常见于强化学习(Reinforcement Learning)语境,指“行为策略/行为政策”:用于实际生成动作与采样数据的策略(用它来与环境交互、产生轨迹)。在离策略(off-policy)方法中,它通常不同于要学习/评估的 target policy(目标策略)。
(在更一般的管理语境里,也可指“行为规范政策”,即规定成员应如何行为的制度文件。)
/bɪˈheɪvjər ˈpɑːlɪsi/
The behavior policy chooses actions while the agent explores.
行为策略在智能体探索时负责选择动作。
In off-policy learning, data are generated by a behavior policy, but the value function is updated toward a different target policy.
在离策略学习中,数据由行为策略生成,但价值函数会朝着另一个目标策略进行更新。
behavior 来自动词 behave(表现、举止)加名词后缀构成,表示“行为、举止”;policy 源自法语 policie / politique,进一步追溯到希腊语中与“城邦治理、公共事务”相关的词根,逐渐引申为“方针、策略”。合在一起,behavior policy 在技术语境中特指“用来产生行为/数据的策略”。