Rene et al. / Vision Transformers for Dense Prediction / ICCV 2021

1. Problem definition

  • 대부분의 dense prediction에서는 encoder와 decoder로 구성된 networks 구조를 채택하고 있으며 기존 연구는 encoder는 convolutional networks를 이용한채 decodoer의 구조와 aggregation strategy에 집중되고 있다.

  • 하지만, encoder(or backbone)에서 잃은 정보를 decoder에서 되찾기 힘드므로 encoder(or backbone)의 구조가 전체 model의 성능에 매우 많은 영향을 주므로 본 논문에서는 encoder(or backbone)의 구조에 집중하였다.

  • 대부분의 convolutional network를 backbone으로 사용하고 있는 기존 model들은 downsampling process로 인해 dense prediction task에서 deeper stages로 갈수록 feature resolutionfeature granularity 를 잃어버리는 단점을 가지게 된다.

  • 이러한 문제점을 해결하기 위해 본 논문에서는 vision transformer를 encoder의 기본 block으로 사용하는 dense predition transformer(DPT) 를 제안하였다.

2. Motivation

Fully-convolutional networks

  • semantic segmentation, keypoint detection과 같은 pixel level의 desnse predeiction에 fully-convolutional networks [1, 2]를 기반으로 다양한 모델이 제안되었다.

  • 하지만, 기존 제안된 모델의 경우 convolution과 subsampling block을 이용하므로써 dense prediction에서 convoulional network의 문제점인 feature resolution과 feature granularity를 해결하지 못하였다.

Attention-based model

  • NLP분야에서 제안된 transformer mechanism[3]를 이미지 분석 분야에 적용하는 연구가 활발히 이루어지고 있다[4-5].

  • 하지만, NLP분야의 transformer와 마찬가지로 vision transforemr(의 성능을 유지하기 위해서는 충분히 많은 양의 training data가 필요하다.


  • convolutional network를 backbone으로 사용하는 기존 dense prediction model과는 다르게 vision transformer를 encoder로 convolutional network를 decoder로 사용하였다.

  • 구체적으로, feature resolutionfeature granularity 문제를 해결하기 위해 아래와 같은 특징을 갖는 ViT를 적용하였다.

  • 초기 image embedding후에 downsampling을 수행하지 않은 Vit를 적용함으로써 모든 processing stage에서 변합없는 dimensionality의 representional을 유지할 수 있으며 매 stage마다 global receptive field를 가질 수 있다.

3. Method

  • 저자는 dense prediction task를 위해 아래그램과 같은 구조를 제안하였다.

  • 전체적인 구조(또는 흐름)는 1) input image를 token으로 변환(그림에서는 주황색으로 표현), 2) image embedding을 위치 embiding과 patch-independent readout token(그림에서는 빨강색으로 표현)으로 augmention, 3) token들에 multiple transformer stage 적용, 4) 각 단계들의 transformer output인 token들을 image 표현과 같에 재조합(reassembling), 5) 세분화된 예측(fine-grained prediction) 생성을 위해 전단계 represention을 융합 및 upsampling하는 fusion modul 적용함.

  • Reassemble block에서는 token들을 input image의 $1/s$ spatial resolution을 갖는 feature map으로 assembling한다.

  • Fusion block에서는 residual convoution unit을 사용하여 feature들을 결함하고 feature map을 upsampling한다.

4. Experiment & Result

  • 본 논문에서는 제안한 DPT의 성능을 비슷한 capacity를 같는 convolutional network와 비교하기 위하여 2가지 dese prediction task에(monocular depth estimation, semantic segmentation) 대한 실험을 수행하였다.

Experimental setup for Monocular Depth Estimation

  • Dataset: MIX 5 (in MiDaS [6]) and MIX 6 (extend MIX 5 with five additional datasets, contains 1.4 million images)

  • Baselines: follows the prococol of Ranftle et al. [6]

  • Training setup: multi-objective optimization together with Adam, backbone에는 1e-5 decoder weight를 위해서는 1e-4의 learing rate, encoder는 ImgaeNet-pretrained weitght decoder는 random하고 초기화, output header는 3개의 convolutional layer이용

Result for Monocular Depth Estimation

Experimental setup for Semantic Segmentation

  • Dataset: ADE20K semantic segmentation dataset[7]을 이용하였음

  • Baselines: follows the prococol of Zhang et al. [8]

  • Training setup: SGD with momentum 0.9, decay factor 0.9의 polynomial learning rate scheduler 이용, fusion laryey에 batch nomalization 이용, 0.002 learing rate이용

  • Evaluation Metric: pixel accuracy(pixAcc), mean Intersection over Union(mIoU)

Result for Semantic Segmentation

  • 아래 표는 semantic segmentation task시 pixAcc와 mIoU의 결과값을 보여주며 DPT-Hybird의 경우 다른 fully-convoultional 모델들 보다 더 좋은 결과를 얻을 수 있었다.

5. Conclusion

  • 본 논문에서는 기존 dense prediction task에서 사용되는 모델(convolutional network를 backbone으로 사용)의 단점인 feature resolutionfeature granularity 를 해결하기 위해 vision transformer를 encoder 기본 block으로 사용하는 DPT 제안하였다.

  • 제안한 DPT 모델은 monocular depth estimation과 segmentation task에서 기존의 fully-convolutional 구조의 dense predection 모델보다 더 좋은 성능을 얻을 수 있었다.

Take home message (오늘의 교훈)

기존 dense prediction task에서의 주된 decoder구조 연구에서 encoder 파트에 ViT를 적용 하여 기존 모델보다 더 좋은 결과를 얻은점에서 흥미로운 논문이라 생각된다.

윤영우 (Youngwoo Youn)

  Affiliation (KAIST AI)

  Contact information (ywyoun@kaist.ac.kr)


