Replay Buffer

释义 Definition

Replay buffer（经验回放缓冲区）：在强化学习中用于存储智能体的历史交互经验（通常是状态 s、动作 a、奖励 r、下一状态 s′、终止标记 done 等）的数据结构。训练时从中随机采样小批量数据来更新模型，以降低样本相关性、提高训练稳定性与数据利用率。（在深度强化学习里尤为常见；也常称 experience replay buffer。）

发音 Pronunciation (IPA)

/ˈriːpleɪ ˈbʌfər/

例句 Examples

The agent stores each step in a replay buffer.
智能体把每一步的经验都存进经验回放缓冲区。

By sampling uniformly from the replay buffer, the algorithm breaks temporal correlations in the data and improves learning stability in off-policy training.
通过从经验回放缓冲区进行均匀采样，该算法打破了数据的时间相关性，并提升了离策略训练的稳定性。

词源 Etymology

replay 原意是“重放、再播放”，来自 *re-*（再、重新）+ play（播放/玩）；buffer 指“缓冲区/缓冲器”，常见于计算机中用于临时存放数据。合在一起，replay buffer 字面意思就是“用于把过去的数据暂存起来，之后再重放（再取出使用）的缓冲区”，在强化学习语境中引申为“把过去经验拿出来再训练”的存储池。

文学与著名作品 Notable Works

Human-level control through deep reinforcement learning（Mnih et al., Nature, 2015）——提出并普及了经验回放（experience replay）与回放缓冲区在 DQN 中的用法。
Prioritized Experience Replay（Schaul et al., 2016）——系统讨论“优先级回放缓冲区”（prioritized replay buffer）的采样策略。
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor（Haarnoja et al., 2018）——典型离策略算法，训练中依赖 replay buffer 采样。
Addressing Function Approximation Error in Actor-Critic Methods（Fujimoto et al., 2018，TD3）——离策略连续控制方法，使用 replay buffer 存储与采样转移数据。

Replay Buffer

释义 Definition

发音 Pronunciation (IPA)

例句 Examples

词源 Etymology

相关词 Related Words

文学与著名作品 Notable Works