负采样:一种常用于机器学习(尤其是词向量、推荐系统、对比学习等)的训练技巧。它在大量“负例”(不相关/不匹配的样本)中只抽取一小部分来参与训练,从而降低计算成本并提高训练效率。(在不同任务中实现方式会有差异。)
/ˈnɛɡətɪv ˈsæmplɪŋ/
We used negative sampling to speed up training.
我们使用负采样来加速训练。
Instead of computing the full softmax over millions of words, the model learns by contrasting the true context with a few randomly chosen negatives via negative sampling.
模型不再对数百万词做完整的 softmax 计算,而是通过负采样抽取少量随机负例,与真实上下文进行对比学习。
negative 源自拉丁语 negativus,表示“否定的”;sampling 来自 sample(样本)+ -ing(名词化/动作名词后缀)。合起来直译是“对负例进行抽样”,强调“不是把所有负例都算一遍,而是抽一部分来学”。