ε-贪心(epsilon-greedy):一种常见的探索-利用策略,尤其用于强化学习与多臂老虎机问题中。以概率 ε 随机探索(选一个随机动作),以概率 1−ε 选择当前估计最优的动作(贪心选择)。
/ˈɛpsɪlɒn ˈɡriːdi/
We used an epsilon-greedy policy to balance exploration and exploitation.
我们使用了ε-贪心策略来平衡探索与利用。
In a non-stationary environment, an epsilon-greedy approach can help the agent keep discovering better actions instead of always sticking to what seemed best early on.
在非平稳环境中,ε-贪心方法能帮助智能体持续发现更好的动作,而不是总固守早期看起来最优的选择。
该术语由两部分构成:epsilon(ε)指希腊字母ε,用来表示“随机探索”的概率参数;greedy(贪心的)表示在剩余概率下总是选择当前估计收益最高的选项。“ε-贪心”因此字面意思就是“以ε的概率探索、其余时间贪心选择”。