Temporal-difference(时间差分):强化学习中的一种学习/估计方法,利用相邻时间步的预测差(误差)来更新对未来回报的估计。常见于TD 学习、TD 误差(TD error)、TD(λ) 等;与只在回合结束后更新的蒙特卡洛方法不同,时间差分可在过程中“边走边学”。
/ˈtɛmp(ə)rəl ˈdɪf(ə)rəns/
Temporal-difference learning updates its prediction after each step.
时间差分学习会在每一步之后更新预测。
In temporal-difference methods, the value estimate is adjusted using the difference between successive predictions, enabling online learning without waiting for the final outcome.
在时间差分方法中,价值估计会根据相邻两次预测的差来调整,从而可以在线学习,而不必等到最终结果出现。
temporal 来自拉丁语 tempus(时间),表示“时间上的”;difference 表示“差异/差”。合在一起字面意思是“时间上的差”,在强化学习语境中特指用“当前预测与下一时刻预测之间的差”作为学习信号的思想(即 TD 误差)。