About
标题
Pre-Trained Image Processing Transformer
预训练图像处理的Transformer
发表
2021CVPR
作者
Chen, Hanting
Wang, Yunhe:华为诺亚方舟实验室 北大哲学博士
Guo, Tianyu
Xu, Chang:悉尼大学计算机科学学院 研究员
Deng, Yiping
Liu, Zhenhua
Ma, Siwei:北大信息科学技术学院 教授
Xu, Chunjing
Xu, Chao:北大电子工程与计算机科学学院 教授
Gao, Wen
组织机构
北大智能科学系机器视觉重点实验室;华为诺亚方舟实验室
Content
研究背景
图像处理
- 图像处理是更全面的图像分析或计算机视觉系统的低层次部分的一个组成部分。图像处理的结果可以在很大程度上影响后续的高层部分对图像数据进行识别和理解。
- 深度学习已被广泛应用于解决低层次的视觉任务,如图像的超分辨率、绘画、去伪存真和着色。
- 由于许多图像处理任务是相关的,因此很自然地期望在一个数据集上预先训练的模型能对另一个数据集有所帮助。
- 很少有研究将预训练推广到整个图像处理任务。
目前图像处理存在的挑战
- 针对特定任务的图像数据有限(特别是需要付费或者私密的,如医疗)
- 图像处理工作的类型在给出测试图像前是未知的
Transformer & CV
- 第一类:在传统的卷积神经网络中引入自注意力机制
- Yuan等人为图像分割引入了空间注意力
- Fu等人提出DANET,通过结合空间和通道注意力,充分利用上下文信息
- Wang、Chen、Zhang等人通过自注意力机制增强特征,来提高几个高级视觉任务上的性能
- 第二类:用自注意力区块代替卷积神经网络
- Kolesnikov、Dosovitskiy用transformer区块进行图像分类工作
- Carion、Zhu等人在检测任务中应用了基于transformer的模型
- Chen等人提出了一个预训练的GPT模型用于生成和分类任务
- Wu和Zhao等人提出图像识别的预训练模型的预训练方法
目前有关CV的Transformer存在的问题
- 基本都是在研究的预测试分类任务,输入和输出都是图像,直接应用这些现有的预训练策略可能是不可行的
- 如何在预训练阶段有效地解决不同的图像处理任务,仍然是一个很难的挑战
Image Processing Transformer
结构
multiple pairs of head and tail corresponding to different tasks and a single shared body
head
encoder
decoder
tail