Oversampling:在数据处理或统计/机器学习中,指对某一类样本(通常是少数类)进行“过采样”,通过重复抽样或合成新样本来增加其数量,以缓解类别不平衡、提升模型对少数类的识别能力。(在信号处理里也可指以高于奈奎斯特率的采样率进行采样,此处以更常见的数据场景为主。)
/ˌoʊvərˈsæmplɪŋ/
Oversampling can help when one class has far fewer examples than the others.
过采样在某一类别样本远少于其他类别时会很有帮助。
By applying oversampling (such as SMOTE), the model reduced bias toward the majority class and improved recall on rare cases.
通过使用过采样(如 SMOTE),模型减少了对多数类的偏向,并提高了对罕见情况的召回率。
由 over-(“过度地、超过”)+ sampling(“抽样、采样”)构成,字面意思是“过度抽样/额外采样”。在统计与机器学习语境中,这个“over-”通常不是贬义,而是指为了平衡数据分布而有意增加某类样本数量。
该词主要用于统计学、信号处理与机器学习等技术写作中,在传统文学作品中出现较少。更常见于学术论文、技术书籍与工程文档(例如关于不平衡分类、SMOTE 或数字信号处理采样策略的讨论)。