LAFITE: Towards Language-Free Training for Text-to-Image Generation [Kor]

Yufan Zhou / LAFITE; Towards Language-Free Training for Text-to-Image Generation / CVPR 2022

1. Problem definition

이 논문의 주요 task는 text-to-image generation입니다. MS COCO와 같은 complex scene dataset에 대해 text caption을 input으로 현실적인 image를 출력하는 것은 매우 어려운 task입니다. 왜냐하면 text-image pair로 이루어진 dataset은 image만으로 구성된 dataset보다 훨씬 양이 적기 때문입니다.

LAFITE는 pretrained CLIP과 StyleGAN2 구조를 활용해서 text-to-image generation을 구현하였고 dataset의 부족을 해결하기 위해 CLIP을 이용해 pseudo text feature를 구해 활용하였습니다.

2. Motivation

우선 text-to-image와 관련한 multimodal task에서 가장 중요한 점은 서로 다른 형태의 두 data를 어떻게 semantically align 시킬 것인가입니다.

- CLIP

CLIP은 open-ai에서 나온 classifier model로 image와 text를 multimodal joint space에 mapping 시키는 방식으로 학습을 시켰습니다. Text를 인코딩할 때는 기존의 다른 여럿 text encoder와 같이 Transformer를 사용했습니다. Image를 인코딩할 때는 CNN이 아닌 Visual Transformer를 사용해서 image의 patch별 feature를 Transformer에 넣는 방식으로 학습을 했습니다. CLIP 역시 multimodal model이므로 학습할 때 text-image pair data가 많이 필요한데 CLIP은 이를 보완하는 새로운 방식을 도입했습니다. Image와 그에 해당하는 label이 있으면 (Image, "a photo of {label}") 이 pair를 이용하여 text caption 없이 학습을 진행하였습니다.

Idea

Text를 CLIP을 활용해 embedding 시키면 corresponding image를 CLIP을 활용해 embedding 시킨 것과 유사한 곳에 mapping이 됩니다. LAFITE는 text-image pair data 대신 image data만을 활용해서 학습을 하였는데, image의 CLIP embedding과 그에 해당하는 우리가 가지고 있지 않은 text의 CLIP embedding이 유사할 것이라는 가정 하에 text data 대신 CLIP image embedding을 살짝 변형시켜서 만든 pseudo text feature를 사용합니다.

3. Method

4. Experiment & Result

CLIP을 사용한 language-free setting은 기존 text-to-image model들이 standard setting으로 학습한 대부분의 모델보다 더 좋은 성능을 보였습니다. 이는 CLIP의 multimodal joint space의 특성을 잘 활용했기 때문입니다.

Experimental setup

  • Dataset: MS-COCO, CUB, LN-COCO, MM CelebA-HQ

  • Training setup: 4 Nvidia Tesla V100 GPUs

  • Evaluation metric: FID, IS

Result

5. Conclusion

이 논문은 text-to-image generation의 성능에 큰 향상을 가져온 LAFITE라는 model에 관한 연구입니다. LAFITE는 1) multimodal learning에서 제일 큰 어려움으로 여겨지는 data 부족 문제를 CLIP이라는 multimodal encoder를 활용해서 해결하였으며 2) StyleGAN2라는 검증된 구조의 network를 활용해 language-free setting 뿐 아니라 zero-shot 성능이나 standard setting 성능도 최고 수준입니다. 물론 엄청난 dataset에서 학습된 pretrained CLIP과 image generation에서 제일 많이 쓰이는 구조인 StyleGAN의 구조를 가져오긴 했지만 language-free setting에서의 contribution은 확실한 논문인 것 같습니다.

Take home message (오늘의 교훈)

논문의 contribution을 위해서는 처음부터 새로운 구조를 만들고 새로운 방법을 만들어서 연구하는 것도 좋지만 이미 나온 여러 성능 좋은 module들을 적절히 조합해서 새로운 contribution을 만들어 내는 것도 하나의 뜻 깊은 연구라는 생각이 들었습니다.

Author / Reviewer information

Author

이재웅 (Jaewoong Lee)

  • KAIST AI

  • GitHub: https://github.com/hello3196

Reviewer

  1. Korean name (English name): Affiliation / Contact information

  2. Korean name (English name): Affiliation / Contact information

  3. ...

Reference & Additional materials

  1. Alec Radford, et al. "Learning transferable visual models from natural language supervision"

Last updated