Behavior Policy

释义 Definition

behavior policy 常见于强化学习（Reinforcement Learning）语境，指“行为策略/行为政策”：用于实际生成动作与采样数据的策略（用它来与环境交互、产生轨迹）。在离策略（off-policy）方法中，它通常不同于要学习/评估的 target policy（目标策略）。
（在更一般的管理语境里，也可指“行为规范政策”，即规定成员应如何行为的制度文件。）

发音 Pronunciation (IPA)

/bɪˈheɪvjər ˈpɑːlɪsi/

例句 Examples

The behavior policy chooses actions while the agent explores.
行为策略在智能体探索时负责选择动作。

In off-policy learning, data are generated by a behavior policy, but the value function is updated toward a different target policy.
在离策略学习中，数据由行为策略生成，但价值函数会朝着另一个目标策略进行更新。

词源 Etymology

behavior 来自动词 behave（表现、举止）加名词后缀构成，表示“行为、举止”；policy 源自法语 policie / politique，进一步追溯到希腊语中与“城邦治理、公共事务”相关的词根，逐渐引申为“方针、策略”。合在一起，behavior policy 在技术语境中特指“用来产生行为/数据的策略”。

文学与著作中的用例 Literary Works

Reinforcement Learning: An Introduction（Richard S. Sutton & Andrew G. Barto）——讨论离策略学习时常使用 behavior policy 与 target policy 的区分。
Algorithms for Reinforcement Learning（Csaba Szepesvári）——在离策略控制与评估部分使用该术语。
经典离策略相关论文与综述中（如离策略评估/重要性采样主题）也频繁出现 behavior policy。

Behavior Policy

释义 Definition

发音 Pronunciation (IPA)

例句 Examples

词源 Etymology

相关词 Related Words

文学与著作中的用例 Literary Works