V2EX  ›  英汉词典

Replay Buffer

释义 Definition

Replay buffer(经验回放缓冲区):在强化学习中用于存储智能体的历史交互经验(通常是状态 s、动作 a、奖励 r、下一状态 s′、终止标记 done 等)的数据结构。训练时从中随机采样小批量数据来更新模型,以降低样本相关性、提高训练稳定性与数据利用率。(在深度强化学习里尤为常见;也常称 experience replay buffer。)

发音 Pronunciation (IPA)

/ˈriːpleɪ ˈbʌfər/

例句 Examples

The agent stores each step in a replay buffer.
智能体把每一步的经验都存进经验回放缓冲区。

By sampling uniformly from the replay buffer, the algorithm breaks temporal correlations in the data and improves learning stability in off-policy training.
通过从经验回放缓冲区进行均匀采样,该算法打破了数据的时间相关性,并提升了离策略训练的稳定性。

词源 Etymology

replay 原意是“重放、再播放”,来自 *re-*(再、重新)+ play(播放/玩);buffer 指“缓冲区/缓冲器”,常见于计算机中用于临时存放数据。合在一起,replay buffer 字面意思就是“用于把过去的数据暂存起来,之后再重放(再取出使用)的缓冲区”,在强化学习语境中引申为“把过去经验拿出来再训练”的存储池。

相关词 Related Words

文学与著名作品 Notable Works

  • Human-level control through deep reinforcement learning(Mnih et al., Nature, 2015)——提出并普及了经验回放(experience replay)与回放缓冲区在 DQN 中的用法。
  • Prioritized Experience Replay(Schaul et al., 2016)——系统讨论“优先级回放缓冲区”(prioritized replay buffer)的采样策略。
  • Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor(Haarnoja et al., 2018)——典型离策略算法,训练中依赖 replay buffer 采样。
  • Addressing Function Approximation Error in Actor-Critic Methods(Fujimoto et al., 2018,TD3)——离策略连续控制方法,使用 replay buffer 存储与采样转移数据。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   692 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 20:25 · PVG 04:25 · LAX 12:25 · JFK 15:25
♥ Do have faith in what you're doing.