SARSA 是强化学习中的一种经典时序差分(TD)控制算法,名称来自它更新时使用的一串经验:State–Action–Reward–State–Action(状态–动作–奖励–新状态–新动作)。它通常用于学习动作价值函数 (Q(s,a)),并且是典型的 on-policy(同策略) 方法(用当前策略产生并评估动作)。
/ˈsɑːrsə/
SARSA is often taught alongside Q-learning in reinforcement learning courses.
SARSA 常常在强化学习课程中与 Q-learning 一起讲解。
Because SARSA is on-policy, it updates Q-values using the next action chosen by the current behavior policy, which can make learning more conservative under exploration.
由于 SARSA 是同策略方法,它会用当前行为策略选出的下一步动作来更新 Q 值,因此在探索较多时学习可能更保守、更稳健。
SARSA 是一个首字母缩写,来自更新所用的五元组:S-A-R-S-A(State, Action, Reward, State, Action)。这个命名直接反映了它与 Q-learning 的关键差异:SARSA 的目标依赖“下一步实际会执行的动作”,因此与当前策略绑定更紧。