TUP论文阅读

本文最后更新于:1 天前

TUP将target dataset加入到source dataset中,一起进行自监督预训练(如MOCO),之后对pretrained model在target dataset上采用ACKMeans进行finetune

关键

  • dataset合并
  • ACKMeans

概括

论文地址Improve Unsupervised Pretraining for Few-label Transfer

基本思想

Pasted image 20211104213800

将无标注的target dataset(实际上每类至少有一个标注)和无标注的source dataset一起进行自监督预训练,称为Target-aware Unsupervised Pretraining,因此pretrained model的features representation对target dataset有很好的聚类作用,TUP借助聚类可以找到eigen-samples,即聚类中心的样本,通过该样本对其他无标注样本进行标注,从而利用这些伪标注样本进行finetune,可以得到一个好的特征表达。而好的特征表达还可以为下一轮的训练找到更好的eigen-samples,从而起到一个环的效果。

聚类信息的优点

Pasted image 20211104215852

作者对比了无标注目标数据集在无监督pretrained model和有监督pretrained model的聚类效果,发现有监督的聚类效果更好,从而finetune的结果也更好。

因此作者认为,如果无标注目标数据集在无监督上也可以取得不错的聚类效果,那么就可以提高finetune的性能。

自监督的聚类效果不好的原因

自监督网络采用对比学习的方式,将同类的样本聚集,不同类的样本远离。

假设特征空间是一个球体,那么对比学习使得特征信息分布在了整个球体上。

In this sense, we can find that contrastive learning is indeed to cluster the pretraining unlabeled data, but it encourages the learned representation to uniformly distribute in the whole space.

因此,当目标数据集的分布和源数据集的分布相差很大时,目标数据集就无法在无监督预训练模型上得到一个好的聚类效果。

Therefore, if the target dataset has some domain gap with the source dataset, their feature representations will scatter and hard to cluster.

创新点

  • dataset合并
    • 通过合并目标数据集和源数据集,自监督预训练model可以学到一个更适合目标数据集的特征表示,从而目标数据集在该模型的特征表示中有更好的聚类效果
    • 对于两个数据集的权重占比,是一个值得考虑的问题
  • ACKMeans
    • 将锚点引入到传统的KMeans算法中,提高了聚类的多样化和全面性

方法与实现

实验

总结

TUP是finetune在无监督上的有效尝试,并且也取得不错的效果。

思考

  • TUP始终还是利用了少许的标签信息,是否可以再一步优化,进行完全无监督finetune
  • 预训练成本高,是否有其他将target dataset信息融入到预训练模型的方法
    • source pretrained + target pretrained + finetune 可不可行?

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!