V2EX  ›  英汉词典

Behavior Policy

释义 Definition

behavior policy 常见于强化学习(Reinforcement Learning)语境,指“行为策略/行为政策”:用于实际生成动作与采样数据的策略(用它来与环境交互、产生轨迹)。在离策略(off-policy)方法中,它通常不同于要学习/评估的 target policy(目标策略)
(在更一般的管理语境里,也可指“行为规范政策”,即规定成员应如何行为的制度文件。)

发音 Pronunciation (IPA)

/bɪˈheɪvjər ˈpɑːlɪsi/

例句 Examples

The behavior policy chooses actions while the agent explores.
行为策略在智能体探索时负责选择动作。

In off-policy learning, data are generated by a behavior policy, but the value function is updated toward a different target policy.
在离策略学习中,数据由行为策略生成,但价值函数会朝着另一个目标策略进行更新。

词源 Etymology

behavior 来自动词 behave(表现、举止)加名词后缀构成,表示“行为、举止”;policy 源自法语 policie / politique,进一步追溯到希腊语中与“城邦治理、公共事务”相关的词根,逐渐引申为“方针、策略”。合在一起,behavior policy 在技术语境中特指“用来产生行为/数据的策略”。

相关词 Related Words

文学与著作中的用例 Literary Works

  • Reinforcement Learning: An Introduction(Richard S. Sutton & Andrew G. Barto)——讨论离策略学习时常使用 behavior policytarget policy 的区分。
  • Algorithms for Reinforcement Learning(Csaba Szepesvári)——在离策略控制与评估部分使用该术语。
  • 经典离策略相关论文与综述中(如离策略评估/重要性采样主题)也频繁出现 behavior policy
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   692 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 20:25 · PVG 04:25 · LAX 12:25 · JFK 15:25
♥ Do have faith in what you're doing.