“多臂老虎机问题 / 多臂强盗问题”:指一种经典的决策与学习问题——面对多个可选项(“臂”),每个选项的回报分布未知;你需要在“探索”(试新选项获取信息)与“利用”(选择当前看起来最优的选项获取回报)之间权衡,以最大化长期收益。常用于强化学习、在线广告投放、推荐系统、临床试验等场景。
/ˌmʌlti ɑrmd ˈbændɪt/
We used a multi-armed bandit to choose which headline to show.
我们用多臂老虎机算法来决定展示哪条标题。
In production, the multi-armed bandit balances exploration and exploitation while updating its choice probabilities from real-time user feedback.
在生产环境中,多臂老虎机方法会在探索与利用之间取得平衡,并根据实时用户反馈不断更新各选项的选择概率。
该术语借用了赌场“老虎机”的形象:传统老虎机常被戏称为 one-armed bandit(“独臂强盗”,因拉杆像一只手臂且让人输钱)。当可供选择的“老虎机”不止一台时,就变成 multi-armed bandit,其中“多臂”对应“多个选择/多个动作”。