V2EX  ›  英汉词典

Temporal-Difference

定义 Definition

Temporal-difference(时间差分):强化学习中的一种学习/估计方法,利用相邻时间步的预测差(误差)来更新对未来回报的估计。常见于TD 学习、TD 误差(TD error)TD(λ) 等;与只在回合结束后更新的蒙特卡洛方法不同,时间差分可在过程中“边走边学”。

发音 Pronunciation (IPA)

/ˈtɛmp(ə)rəl ˈdɪf(ə)rəns/

例句 Examples

Temporal-difference learning updates its prediction after each step.
时间差分学习会在每一步之后更新预测。

In temporal-difference methods, the value estimate is adjusted using the difference between successive predictions, enabling online learning without waiting for the final outcome.
在时间差分方法中,价值估计会根据相邻两次预测的差来调整,从而可以在线学习,而不必等到最终结果出现。

词源 Etymology

temporal 来自拉丁语 tempus(时间),表示“时间上的”;difference 表示“差异/差”。合在一起字面意思是“时间上的差”,在强化学习语境中特指用“当前预测与下一时刻预测之间的差”作为学习信号的思想(即 TD 误差)。

相关词 Related Words

文学与著作中的出现 Literary Works

  • Richard S. Sutton & Andrew G. Barto, Reinforcement Learning: An Introduction(书中系统介绍 TD 学习、TD(λ)、TD 误差等)
  • Richard S. Sutton (1988), “Learning to Predict by the Methods of Temporal Differences”(经典论文,提出并奠定时间差分预测方法)
  • Dimitri P. Bertsekas & John N. Tsitsiklis, Neuro-Dynamic Programming(讨论与动态规划/近似方法相关的 TD 思路与算法)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   688 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 21:28 · PVG 05:28 · LAX 13:28 · JFK 16:28
♥ Do have faith in what you're doing.