loss-scaling(损失缩放):在混合精度训练(常见为 FP16/BF16)中,把损失值(loss)乘以一个缩放因子(scale),以避免梯度在低精度下发生下溢(变成 0 或过小),随后在更新参数前再把梯度“反缩放”(unscale)。常见有静态缩放与动态缩放两种做法。(该词主要用于深度学习训练语境。)
/ˈlɔːs ˌskeɪlɪŋ/
We use loss-scaling to prevent FP16 gradients from becoming zero.
我们使用损失缩放来防止 FP16 梯度变成 0。
With dynamic loss-scaling enabled, the trainer increases the scale when training is stable and decreases it when overflow is detected.
启用动态损失缩放后,训练器会在训练稳定时提高缩放因子,并在检测到溢出时降低它。
该词由 loss(损失函数的数值)+ scaling(缩放)构成,是深度学习工程实践中为适配半精度浮点数(如 FP16)而形成的复合术语;其核心动机是:低精度表示范围有限,梯度在反向传播中可能过小而下溢,因此通过“先放大、后还原”的方式保持数值有效性。