Caron et al. - 2021 - Emerging Properties in Self-Supervised Vision Transformers

2022/12/25 posted in  笔记
Tags:  #Unsupervised #Transformer

About

标题

Emerging Properties in Self-Supervised Vision Transformers

自监督Transformer中的新特性

发表

2021年ICCV会议

作者

Mathilde Caron (Facebook AI Research / 法国国家信息与自动化研究所 )

Hugo Touvron (Facebook AI Research / 法国索邦大学)

关注点

Transformer、动量移动、知识蒸馏、自监督学习、语义分割

Content

提出问题

自监督用在vision transformer 上会不会产生一些有意思的性质

动机

探究自监督在 Vision Transformers下的新特性

如何利用自监督进一步发挥 Transformers的性能

DINO网络设计

16852892866491

  • 图像裁剪&数据增强:x1(全局随机裁剪) , x2 (全局随机裁剪+局部随机裁剪)
  • 知识蒸馏:teacher网络和student同结构,student网络通过梯度下降改变参数,teacher网络没有先验权重,而是根据student网络的参数进行滑动平均(exponential moving average, ema)改变参数。
  • centering模块计算机teacher输出的中心特征
  • 得到K维概率分布p1,p2。收敛损失以将p1 macth p2

结论

  1. 自监督ViT features 中包含清晰的图像语义分割信息,而这在有监督ViT和convnets没有类似的表现

    image-20221225220912895

    image-20221225220931139

  2. 基于小ViT模型产出的features,在K-NN分类器中达到78.1% top-1 (Image-Net)

  3. momentum encoder,multi-crop augmentation. 和smaller patches with ViTs 有重要的作用

想法

根据SSL在ViT上的特性做语意分割

Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation