自监督学习:一种机器学习方法,通过从未标注数据中自动构造“伪标签/训练信号”(例如遮盖预测、对比学习、下一步预测等)来学习有用的表示,再用于下游任务(分类、检索、生成等)。常被视为介于无监督学习与有监督学习之间的重要范式。(在不同语境下也可能与“无监督预训练”部分重叠。)
Self-supervised learning can learn useful features from unlabeled data.
自监督学习可以从未标注数据中学到有用的特征。
By pretraining a model with self-supervised learning objectives and then fine-tuning it, we can achieve strong performance even with limited labeled samples.
先用自监督学习目标进行预训练,再进行微调,即使标注样本很少也能获得很强的效果。
/ˌsɛlf səˈpɝːvaɪzd ˈlɝːnɪŋ/
该术语由 **self-**(“自我、自身”)+ supervised(“被监督的”)+ learning(“学习”)构成,强调“监督信号来自数据自身”。其核心思想是:不依赖人工标注,而是让模型通过预测输入的某些部分、重建被遮盖内容、或让相似样本表征靠近(对比学习)等方式,生成训练所需的“监督”。