IPT [Kor]
Chen et al. / Pre-Trained Image Processing Transformer / CVPR 2021
1. Problem definition
์ด๋ฏธ์ง ์ฒ๋ฆฌ(Image processing)๋ ๋ณด๋ค ๊ธ๋ก๋ฒํ ์ด๋ฏธ์ง ๋ถ์ ๋๋ ์ปดํจํฐ ๋น์ ์์คํ ์ low-level ๋ถ๋ถ ์ค ํ๋์ ๋๋ค. ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ธ์ ๋ฐ ์ดํด๋ฅผ ์ํํ๋ ํ์ ์์ ๋ ๋ฒจ ๋ถ๋ถ์ ํฌ๊ฒ ์ํฅ์ ๋ฏธ์น ์ ์์ต๋๋ค. ์ต๊ทผ ๋ฅ๋ฌ๋์ GPU๋ฅผ ํ์ฉํ ํ๋์จ์ด ์ปดํจํ ์ฑ๋ฅ์ด ๊ฐ๋ ฅํ๊ฒ ์ฆ๊ฐํ๊ณ Pre-Trained Deep Learning Model๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํตํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ, ์ด๋ฌํ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ์ด๋ฏธ์ง ์ด๊ณ ํด์๋(super-resolution), ์ธํ์ธํ (inpainting), ๋๋ ์ธ(deraining), ์ฑ์(colorization)๊ณผ ๊ฐ์ ๋ฎ์ ์์ค์ ๋น์ ์์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋๋ฆฌ ์ ์ฉ๋๊ณ ์์ต๋๋ค. ํ์ง๋ง Pre-Training์ ํตํด ์ฌ๋ฌ ์ด๋ฏธ์ง ์ฒ๋ฆฌ Task๋ค์ ์ผ๋ฐํํ ์ฐ๊ตฌ๋ ๊ฑฐ์ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ Pre-Trained Deep Learning Model์ธ IPT(image processing transformer)๋ฅผ ํตํด ๋ ธ์ด์ฆ ์ ๊ฑฐ, ์ด๊ณ ํด์๋ ๋ฐ ๋๋ ์ด๋์ ๊ฐ์ low-level ์ปดํจํฐ ๋น์ Task์ ๋ํด ์ผ๋ฐํํ๊ณ ํ state-of-the-art ์ด์์ ๊ฒฐ๊ณผ(์ฑ๋ฅ)๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋ํ ๋ง์ ์์ ์์๋ ์ด๋ฏธ์ง ์์ ์คํ์ ์ฌ์ฉํ๊ธฐ ์ํด ์ ์๋ ค์ง ImageNet ๋ฒค์น๋งํฌ๋ฅผ ํ์ฉํฉ๋๋ค.
2. Motivation
A. Related work
1. Image processing
์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ super-resolution(ํด์๋๋ฅผ ๋์ด๋ ์์ ), denoising(๋ ธ์ด์ฆ ์ ๊ฑฐ), dehazing(์ฐ๋ฌด, ์๊ฐ ๋ฑ ๋๊ธฐ ์ค์ ๋ฏธ์ธ์ ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ) , deraining(๋น๋ด๋ฆฌ๋๋ฏํ ๋ ธ์ด์ฆ ์ ๊ฑฐ), debluring(๋ธ๋ฌ ์ ๊ฑฐ ์์ ) ๋ฑ์ ํฌํจํ ์ด๋ฏธ์ง ์กฐ์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
(Dong et al.) ์ ์ด๊ณ ํด์๋๋ฅผ ์ํด SRCNN์ ์ ์ํ์์ต๋๋ค. Low Resolution(์ ํด์๋) ์ด๋ฏธ์ง์์ High Resolution(๊ณ ํด์๋) ์ด๋ฏธ์ง๋ฅผ ์ฌ๊ตฌ์ฑํ๋ end-to-end ๋ชจ๋ธ์ ๋์ ํ ์ ๊ตฌ์ ์ธ ์ฐ๊ตฌ์ ๋๋ค.
(Kim et al.) ์ ์์ ์ฐ๊ตฌ์์ ๋ ๊น์ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ํฌ๊ธฐ์ ํค์ ์ต๋๋ค.
(Ahn et al. & Lim et al.) ์ SR(super-resolution) Task์ Residual block ๊ฐ๋ ์ ์ถ๊ฐํ์์ต๋๋ค.
(Zhang et al. & Anwar & Barnes) ๋ attention์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ SR Task์ ํ์ฉํ์์ต๋๋ค.
์ด์ธ์๋ ๋ค๋ฅธ Task๋ค์ ๋ํ ์ฐ๊ตฌ๋ ๋ง์ด ์์ต๋๋ค.
(Tian et al. ์ดํ 5๊ฐ ๋ ผ๋ฌธ)์์๋ ๋ ธ์ด์ฆ ์ ๊ฑฐ์ ๊ด๋ จ๋ Denoising์ ๋ํด ์ฐ๊ตฌํ์ต๋๋ค.
(Cai et al. ์ดํ 4๊ฐ ๋ ผ๋ฌธ)์์๋ dehazing์ ๋ํด ์ฐ๊ตฌํ์ต๋๋ค.
(Hu et al. ์ดํ 6๊ฐ ๋ ผ๋ฌธ)์์๋ deraining์ ๋ํด ์ฐ๊ตฌํ์ต๋๋ค.
(Tao et al. ์ดํ 4๊ฐ ๋ ผ๋ฌธ)์์๋ debluring์ ๋ํด ์ฐ๊ตฌํ์ต๋๋ค.
Idea 1. ์์ ์ฐ๊ตฌ๋ค์์๋ ๊ฐ๋ณ์ ์ธ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฐ๊ตฌํ์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ ํ๋์ ํฐ ๋ชจ๋ธ(pre-trained)๊ณผ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ์ด๋ฏธ์ง ์ฒ๋ฆฌ Task๋ค์ ๋ํด์ ์คํํ๊ณ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
2. Transformer
(Vaswani et al.) Transfomer๋ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ๊ฐ๋ ฅํ unsupervised ๋๋ self-supervised pretraining framework๋ก ์ฑ๊ณต์ ์ ์ฆํ์ต๋๋ค.
(Radford et al.) GPTs๋ ๊ฑฐ๋ํ ํ ์คํธ ๋ฐ์ดํฐ ์ธํธ์์ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ์๊ธฐํ๊ท ๋ฐฉ์์ผ๋ก ์ฌ์ ํ๋ จ๋ฉ๋๋ค.
(Devlin et al.) BERT๋ ๋ช ์์ ์ธ ๊ฐ๋ ์์ด ๋ฐ์ดํฐ์์ ํ์ตํ๊ณ ์ปจํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง์คํน ๋จ์ด๋ฅผ ์์ธกํฉ๋๋ค.
(Colin et al.)๋ ์ฌ๋ฌ Downstream Task์ ๋ํ ๋ณดํธ์ ์ธ Pre-training Framework๋ฅผ ์ ์ํฉ๋๋ค.
NLP ๋ถ์ผ์์ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฑ๊ณต์ผ๋ก ์ธํด ์ปดํจํฐ ๋น์ ๋ถ์ผ์์๋ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ์ฉํ๋ ค๋ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค.
(Yuan et al.)์์๋ ์ด๋ฏธ์ง ๋ถํ ์ ์ํ spatial attention์ ์๊ฐํฉ๋๋ค.
(Fu et al.)๋ spatial attention๊ณผ channel attention์ ๊ฒฐํฉํ์ฌ context ์ ๋ณด๋ฅผ ํ์ฉํ DANET์ ์ ์ํ์ต๋๋ค.
(Kolesnikov et al.)์ Transformer ๋ธ๋ก์ผ๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํํฉ๋๋ค.(convolutional neural network๋ฅผ selfโattention block์ผ๋ก ๋์ฒด)
(Wu et al. & Zhao et al.)์ ์ด๋ฏธ์ง ์ธ์ ์์ ์ ์ํ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ํ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
(Jiang et al.)์ Transformer๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด TransGAN์ ์ ์ํฉ๋๋ค.
Idea 2. ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ๋ํ ์ฐ๊ตฌ์ Transformer๋ฅผ ์ปดํจํฐ ๋น์ ๋ถ์ผ์ ํ์ฉํ๋ ์ฐ๊ตฌ๋ค์ ๋ง์ด ์์์ง๋ง, Transformer์ ๊ฐ์ Pre-Training๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ๊ฐ์ด low-level vision tasks์ ์ด์ ์ ๋ง์ถ ๊ด๋ จ ์ฐ๊ตฌ๋ ๊ฑฐ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์์ ์ ๋ํ ๋ณดํธ์ ์ธ Pre-Training ์ ๊ทผ ๋ฐฉ์์ ํ๊ตฌํฉ๋๋ค.
3. Method
A. Image Processing Transformer (IPT)
IPT์ ์ ์ฒด ์ํคํ
์ฒ๋ 4๊ฐ์ง ๊ตฌ์ฑ ์์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. (Heads - Incoder - Decoder - Tails)
์์๋ Input Image(๋
ธ์ด์ฆ๊ฐ ์๋ ์ด๋ฏธ์ง ๋ฐ ์ ํด์๋ ์ด๋ฏธ์ง)์์ Feature์ ์ถ์ถํ๊ธฐ ์ํ Head
Input Data์์ ์์ค๋ ์ ๋ณด๋ฅผ ๋ณต๊ตฌํ๊ธฐ ์ํ ์ธ์ฝ๋ - ๋์ฝ๋ Transformer
๋์ฝ๋์์ ๋์จ representation๋ค์ ์ ์ ํ๊ฒ ์ด๋ฏธ์ง๋ก ๋ณต์ํ๋ Tails
1. Heads
๋ค๋ฅธ ์ด๋ฏธ์ง ์ฒ๋ฆฌ Task์ ์กฐ์ ํ๊ธฐ ์ํด ๋ค์ค ํค๋ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ Task๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๊ฐ Head๋ 3๊ฐ์ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํ์ํฉ๋๋ค. (3 means R, G, and B) , ํค๋๋ C(๋ณดํต 64)๊ฐ์ ์ฑ๋์ ๊ฐ์ง feature map ์ ์์ฑํฉ๋๋ค. ๊ณต์ํํ์๋ฉด ์ด๋ฉฐ, ์ฌ๊ธฐ์ ๋ i๋ฒ์งธ Task์ ํค๋, ๋ task์ ์๋ก ๋ํ๋ ๋๋ค.
2. Transformer encoder
Input features๋ฅผ Transformer body์ ์ ์ฉ์ํค๊ธฐ ์ ์ features๋ฅผ "word"์ฒ๋ผ ๊ฐ์ฃผ ๋ ์ ์๋๋ก **ํจ์น(Patch)**๋ก ๋ถํ ๋ฉ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก feature map ์์ ์๋์ ์๊ณผ ๊ฐ์ด ํจ์น๋ค์ sequence๋ก ์ฌ๊ตฌ์ฑ๋ฉ๋๋ค.
์ฌ๊ธฐ์ ๋ ํจ์น์ ๊ฐฏ์(sequence์ ๊ธธ์ด)์ด๋ฉฐ P๋ ํจ์น ์ฌ์ด์ฆ์
๋๋ค.
๊ฐ ํจ์น์ ์์น ์ ๋ณด๋ฅผ ์ ์งํ๊ธฐ ์ํด Feature ์ ๊ฐ ํจ์น์ ๋ํ ๋ก ํ์ต ๊ฐ๋ฅํ ์์น ์ธ์ฝ๋ฉ์ ์ถ๊ฐํฉ๋๋ค. ์ดํ, ๋ Transformer encoder์ ์
๋ ฅ ๊ฐ์ด ๋ฉ๋๋ค.
Encoder layer์๋ original Transformer ๊ตฌ์กฐ์ ๊ฐ์ด multihead self-attention module ๊ณผ a feed forward network๋ก ๊ตฌ์ฑ๋์ด์์ต๋๋ค. ์ญ์ Encoder์ Input๊ณผ Output์ ๊ฐ์ ์ฌ์ด์ฆ์ด๋ฉฐ ๋ค์๊ณผ ๊ฐ์ด ๊ณต์์ ๊ณ์ฐํ ์ ์์ต๋๋ค.
์ฌ๊ธฐ์, l ์ ์ธ์ฝ๋์ ๋ ์ด์ด ๊ฐฏ์์ด๋ฉฐ, MSA๋ Multi-head Self-Attention module, LN์ Layer Normalization, FFN์ ๋๊ฐ์ Fully Connected Layers๋ฅผ ํฌํจํ Feed Forward Network๋ฅผ ๋ํ๋
๋๋ค.
3. Transformer decoder
๋์ฝ๋ ๋ํ ๊ธฐ์กด Transformer์ ๋์ผํ ์ํคํ
์ฒ๋ฅผ ๋ฐ๋ฅด๋ฉฐ, 2๊ฐ์ MSA ๋ ์ด์ด์ 1๊ฐ์ FFN ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํ๊ฐ์ง ์ฐจ์ด์ ์ด ์๋ค๋ฉด, Task๋ณ ์๋ฒ ๋ฉ์ ๋์ฝ๋์ Input์ผ๋ก ์ถ๊ฐ ํ์ฉํ๋ค๋ ๊ฒ์
๋๋ค. Task๋ณ ์๋ฒ ๋ฉ์ ๊ฒฝ์ฐ ์ผ๋ก ๋ํ๋ด๋ฉฐ, ๊ฐ๊ฐ ๋ค๋ฅธ Task ๋ณ๋ก feature๋ฅผ decode ํฉ๋๋ค.
๋์ฝ๋์ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ์ด ๊ณต์์ ๊ณ์ฐํ ์ ์์ต๋๋ค.
์ฌ๊ธฐ์, ๋ ๋์ฝ๋์ outputs์ด๊ณ , decode๋ size์ N๊ฐ์ ํจ์น feature์ ๊ฒฝ์ฐ size๋ฅผ ๊ฐ๋ feature๋ก ์ฌ๊ตฌ์ฑ ๋ฉ๋๋ค.
4. Tails
Tails์ ๊ฒฝ์ฐ Heads์ ์์ฑ๊ณผ ๋์ผํ๋ฉฐ multi tails๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๊ฐ ๋ค๋ฅธ Task๋ณ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๋ค์๊ณผ ๊ฐ์ด ๊ณต์ํ ํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ ๋ i๋ฒ์งธ Task์ Head๋ฅผ ๋ํ๋ด๋ฉฐ, ๋ task์ ๊ฐฏ์์ ๋๋ค. output ๋ ํน์ task์ ์ํด ๊ฒฐ์ ๋ ์ด๋ฏธ์ง ์ฌ์ด์ฆ๊ฐ ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ผ๋ฉด 2๋ฐฐ ํ๋ํ super-resolution task(๊ณ ํด์๋ ์์ )์ด ๋ ์ ์์ต๋๋ค.
B. Pre-training on ImageNet
Transformer ์์ฒด์ ์ํคํ ์ฒ ์ธ์๋ ์ฑ๊ณต์ ์ธ ํ์ต์ ํต์ฌ ์์ ์ค ํ๋๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ํ์ฉํด์ผ ํฉ๋๋ค. ๋ํ, ํ์ต์ ์ํด์๋ ์ ์ ์ด๋ฏธ์ง์ ์์๋ ์ด๋ฏธ์ง๊ฐ ์ฌ์ฉ๋๋ฏ๋ก ์ด์ ๋ง๋ ๋ฐ์ดํฐ ์ธํธ๊ฐ ํ์ํฉ๋๋ค. ImageNet ๋ฒค์น๋งํฌ์ ์ด๋ฏธ์ง๋ ์ง๊ฐ ๋ฐ ์์์ด ํ๋ถํ 100๋ง ๊ฐ ์ด์์ nature ์ด๋ฏธ์ง๊ฐ ํฌํจ๋์ด์๊ณ 1000๊ฐ ์ด์์ ๋ค์ํ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ฐ๋ผ์ ๋ ์ด๋ธ์ ์ ๊ฑฐํ๊ณ ๋ค์ํ Task์ ๋ง๊ฒ ์ฌ์ฉ๋ ์ ์๋๋ก ์ด๋ฏธ์ง๋ฅผ ์ ํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์๋์ผ๋ก ๋ค์ ๊ณต์๊ณผ ๊ฐ์ด ์์์์ผ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ค๋นํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์, f ๋ ์ ํ(์์) ๋ณํ์ด๋ผ ํ ์ ์์ผ๋ฉฐ Task์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. ์ง๋ ๋ฐฉ์์ผ๋ก IPT๋ฅผ ํ์ตํ๊ธฐ ์ํ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณต์ํํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ L1์ ๊ธฐ์กด L1 ์์ค์ ๋ํ๋ด๊ณ ํ๋ ์์ํฌ๊ฐ ์ฌ๋ฌ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์์ ์ผ๋ก ๋์์ ํ๋ จ๋์์์ ์๋ฏธํฉ๋๋ค. IPT ๋ชจ๋ธ์ pre-trainingํ ํ์๋ ๋ค์ํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ task์ ๋ํ ๊ณ ์ ํ feature๊ณผ ๋ณํ์ ์บก์ฒ(weight๋ฅผ ์ ์ฅ)ํ๋ฏ๋ก ์๋ก ์ ๊ณต๋ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ํ๋ ์์ ์ ์ ์ฉํ๋๋ก ๋์ฑ Fine-tuningํ ์ ์์ต๋๋ค. ์ด๋, ๊ณ์ฐ ๋น์ฉ์ ์ ์ฝํ๊ธฐ ์ํด ๋ค๋ฅธ Heads์ Tails๋ ์ญ์ ๋๊ณ ๋จ์ Heads์ Tails ๋ฐ Transformer body์ ๋งค๊ฐ๋ณ์๋ ์ญ์ ํ์ ๋ฐ๋ผ ์ ๋ฐ์ดํธ ๋ฉ๋๋ค.
๋ค์ํ ๋ฐ์ดํฐ ํ์ง ์ ํ ๋ชจ๋ธ์ด ์๊ณ ๋ชจ๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ task์ ์ ์ฉ์ํฌ ์ ์๊ธฐ์ IPT์ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋์ฑ ์ข์์ผ ํฉ๋๋ค.
NLP์์์ Word ์ฒ๋ผ Patch๋ผ๋ฆฌ์ ๊ด๊ณ๋ ์ค์ํ๊ธฐ์ ๋์ผํ feature map์์ ์๋ฆฐ patch๋ ์ ์ฌํ ์์น์ ํฌํจ๋์ด์ผํฉ๋๋ค.
๋์กฐํ์ต(contrastive learning)์ ํตํด ๋ณดํธ์ ์ธ features๋ฅผ ํ์ตํ์ฌ unseen tasks์ ๋ํด์๋ IPT๋ชจ๋ธ์ด ํ์ฉ๋ ์ ์๋๋ก ํ์ต๋๋ค.
๊ฐ์ ์ด๋ฏธ์ง์ ํจ์น feature ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ต์ํํ๋ฉฐ ๋ค๋ฅธ ์ด๋ฏธ์ง์ ํจ์น feature ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ ์ต๋ํํ๋๋ก ํ์์ต๋๋ค.
๋์กฐํ์ต์ Loss Function์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๋ํ, supervised ๋ฐ self-supervised ์ ๋ณด๋ฅผ ์์ ํ ํ์ฉํ๊ธฐ ์ํด IPT์ ์ต์ข
๋ชฉ์ ํจ์๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ณต์ํ ํ ์ ์์ต๋๋ค.
4. Experiment & Result
A. Experimental Setup
1. DataSet
1๋ฐฑ๋ง ๊ฐ ์ด์์ ์ปฌ๋ฌ ์ด๋ฏธ์ง ImageNet ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ๋ฉฐ 3์ฑ๋ 48X48 ํจ์น๋ค๋ก crop๋ฉ๋๋ค. (1์ฒ๋ง ๊ฐ ์ด์์ ํจ์น) ์์๋ ๋ฐ์ดํฐ๋ 6๊ฐ์ง(2๋ฐฐ, 3๋ฐฐ, 4๋ฐฐ bicubic interpolation, 30, 50 level ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ, rain streaks(๋น ๋ด๋ฆฌ๋ ๋ ธ์ด์ฆ))๋ก ์์ฑํฉ๋๋ค. ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด CNN ๊ธฐ๋ฐ ๋ชจ๋ธ์๋ ๋์ผํ ํ ์คํธ ์ ๋ต์ด ์ ์ฉ๋์์ผ๋ฉฐ CNN ๋ชจ๋ธ์ ๊ฒฐ๊ณผ PSNR ๊ฐ์ ๊ธฐ์ค์ ์ ๊ฐ๊ณผ ๋์ผํฉ๋๋ค.
2. Training & Fine-tuning.
NVIDIA V100 32์ฅ์ ์ฌ์ฉํ์ฌ Adam optimizer ฮฒ1 = 0.9, ฮฒ2 = 0.999๋ก 300์ํญ ์์ ๋ ImageNet dataset์ ํ์ตํฉ๋๋ค. Learning rate๋ ๋ถํฐ ๊น์ง 256 ๋ฐฐ์น ํฌ๊ธฐ๋ก 200 ์ํญ ๋์ ์ค์ด๋ญ๋๋ค. ํ๋ จ ์ธํธ๋ ์๋ก ๋ค๋ฅธ ์์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ด ๋จ์ผ ๋ฐฐ์น์ ๋ฉ๋ชจ๋ฆฌ ํ๊ณ๋ก ๋ชจ๋ input์ ํ์ธ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ๊ฐ ๋ฐ๋ณต์์ ๋ฌด์์๋ก ์ ํ๋ ์์ ์ ์ด๋ฏธ์ง ๋ฐฐ์น๋ฅผ ์์ต๋๋ค. IPT Model์ pre-training ํ ์ดํ ์ํ๋ task(e.g., 3๋ฐฐ super-resolution)๋ฅผ learning rate๋ก 30 ์ํญ ๋์ ํ์ตํฉ๋๋ค. SRCNN ๋ฐฉ์ ๋ํ ImageNet ํ์ต๋ฐฉ์์ ์ฌ์ฉํ๋ฉด super-resolution task์ ์ฑ๋ฅ์ด ๊ฐ์ ๋จ์ ๋ณด์ฌ์คฌ์ต๋๋ค.
B. Result
์ดํด์๋์ ์์ ์ก์ ์ ๊ฑฐ๋ฅผ ํฌํจํ ๋ค์ํ image processing tasks ์์ pre-trained๋ IPT์ ์ฑ๋ฅ์ state-of-the-art๋ฅผ ๋ฅ๊ฐํ์ต๋๋ค.
1. Super-resolution
IPT Model์ ๋ช๋ช์ state-of-the-art CNN-based SR ๋ฐฉ์๊ณผ ๋น๊ตํ๊ณ Table 1์์์ ๊ฐ์ด ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ ร2, ร3, ร4 scale ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์๊ณ ร2 scale Urban100 dataset์์ 33.76dB PSNR์ ๋ฌ์ฑํจ์ ๊ฐ์กฐํ์ต๋๋ค. ์ด์ ๋ชจ๋ธ๋ค์ด ์ด์ SOTA๋ณด๋ค <0.2dB ์ฉ ๊ฐ์ ๋์์์ง๋ง ์ด๋ฒ ๋ชจ๋ธ์ ~0.4dB์ด๋ ๊ฐ์ ๋์ด ๋๊ท๋ชจ pre-trained Model์ ์ฐ์์ฑ์ ๋ํ๋์ต๋๋ค.
2. Denoising
ํ์ต ๋ฐ ํ
์คํธ ๋ฐ์ดํฐ๋ ๊นจ๋ํ ์ด๋ฏธ์ง์์ ฯ = 30, 50 level์ ๊ฐ์ฐ์ค ์ก์์ ์ถ๊ฐํ์ฌ ์์ฑ๋์๊ณ SOTA Model๊ณผ ๋น๊ตํ์ต๋๋ค.
Table 2๋ BSD68 ๋ฐ Urban100 ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ์ปฌ๋ฌ ์ด๋ฏธ์ง ๋
ธ์ด์ฆ ์ ๊ฑฐ ๊ฒฐ๊ณผ์ด๋ฉฐ, IPT ๋ชจ๋ธ์ด ๋ค์ํ ๊ฐ์ฐ์ค ๋
ธ์ด์ฆ ๋ ๋ฒจ์์ ์ต์์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. Urban100 ๋ฐ์ดํฐ์
์์๋ โผ2dB ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๊ณ , Pre-training ๋ฐฉ์, Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฐ์์ฑ์ ๋ํ๋ด์์ต๋๋ค.
๊ธฐ์กด ๋ฐฉ์์ผ๋ก๋ ๋
ธ์ด์ฆ ์ด๋ฏธ์ง์์ ๊นจ๋ํ ์ด๋ฏธ์ง๋ก์ ๋ณต๊ตฌ๊ฐ ์ด๋ ค์ ๊ณ ์ถฉ๋ถํ ๋ํ
์ผ์ ์ฌ๊ตฌ์ฑํ์ง ๋ชปํด ๋น์ ์์ ์ธ ํฝ์
์ ์์ฑํ์ต๋๋ค. IPT์ ๊ฒฝ์ฐ ๋จธ๋ฆฌ์นด๋ฝ์ ๋ช ๊ฐ์ง ๋ํ
์ผ๊น์ง ์ ๋ณต๊ตฌํ๋ฉฐ ์๊ฐ์ ์ธ ํ์ง์ด ์ด์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ต๋๋ค.
3. Generalization Ability
๋ค์ํ ์์๋ ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ๋ฅํด๋, ์์ฐ์ ์ธ ์ด๋ฏธ์ง๋ ๋ณต์ก๋๊ฐ ๋๊ณ transformer์ pre-training์ ์ํด ๋ชจ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ ํฉ์ฑ(์์ฑ)ํ ์ ์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ฐ๋ผ์ IPT ๋ชจ๋ธ์ด Vision task๋ฅผ ๋์ด NLP๋ถ์ผ์์๊น์ง ์ฌ๋ฌ task๋ฅผ ์ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ์ด ์์ด์ผ ํฉ๋๋ค. ์ด๋ฌํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๊ณ ์ ImageNet ์ด์ธ์ ์์๋ ์ด๋ฏธ์ง(๋
ธ์ด์ฆ 10 & 70 level)์ ๋
ธ์ด์ฆ ์ ๊ฑฐ ํ
์คํธ๋ฅผ ์งํํ์ต๋๋ค.
IPT ๋ชจ๋ธ์ CNN ๋ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
4. Impact of data percentage
๋ฐ์ดํฐ ๋ฐฑ๋ถ์จ์ด Transformer ๋ฐ CNN ๋ชจ๋ธ์ pre-training ์ฑ๋ฅ์ ์ด๋ ํ ์ํฅ์ ์ฃผ๋์ง ์คํํฉ๋๋ค. ImageNet ๋ฐ์ดํฐ ์ธํธ์ 20%, 40%, 60%, 80% ๋ฐ 100%์ ์ฌ์ฉํ์ฌ Figure 6๊ณผ ๊ฐ์ด ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ์์ต๋๋ค. ๋ชจ๋ธ์ด pre-trainingํ์ง ์๊ฑฐ๋ ์๋ ํ์ต๋๋ ๊ฒฝ์ฐ CNN ๋ชจ๋ธ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ transformer ๊ธฐ๋ฐ pre-trained ๋ชจ๋ธ(IPT)์ด ์ฑ๋ฅ์ ์๋ํฉ๋๋ค.
5. Impact of contrastive learning
Pre-trained model์ ์ฑ๋ฅ์ ๊ฐ์ ์ํค๊ณ ์ ร2 scale super-resolution task์์ Set4 ๋ฐ์ดํฐ์
์ ํ์ฉํด ฮป ๋งค๊ฐ๋ณ์๋ฅผ ์คํํฉ๋๋ค.
ฮป=0 ์์๋ณด๋ค ฮป = 0.1 ์์ 0.1dB ๋์ 38.37dB PSNR ๊ฐ์ด ๋์๊ณ ์ต์ ์ ฮป ๋งค๊ฐ๋ณ์ ๊ฐ์ ์ฐพ์์ต๋๋ค.
5. Conclusion
์ด ๋ ผ๋ฌธ์์๋ NLP ๋ถ์ผ์์ ๊ทธ๋ฆฌ๊ณ ์ปดํจํฐ ๋น์ ๋ถ์ผ๊น์ง ๋ฐ์ ๋๊ณ ์๋ Transformer ๊ธฐ๋ฐ Pre-training ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ IPT๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ๋ค์ํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ๋ฌธ์ ์์ ์ต์ SOTA ์ด์์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์๋ณธ ์ด๋ฏธ์ง์ ์์๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์์ ํตํด IPT ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ์ฌ ๊ฐ ์ด๋ฏธ์ง ์ฒ๋ฆฌ task์ ๋ฐ๋ผ ์ ์ํ๊ฒ ๋ฏธ์ธ ์กฐ์ ํ ์ ์๋๋ก ํฉ๋๋ค. ๋ฐ๋ผ์ ํ๋์ ๋ชจ๋ธ๋ก๋ ๋ค์ํ Task์ ์ ์ฉํ ์ ์๊ณ ์ผ๋ฐํ ๋ ์ ์๋ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. ํนํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๊ณ ๋ฐ์ดํฐ์ ๋น๋กํ์ฌ ์ฑ๋ฅ์ด ๋์์ง ๊ฒ์ด๋ผ๊ณ ํ๋จ๋ฉ๋๋ค.
A. Take home message (์ค๋์ ๊ตํ)
์ด๋ฏธ์ง ์ฒ๋ฆฌ Task์์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํ์ฉํ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ Pre-training & Fine-tuning ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ด ์์ฃผ ํจ๊ณผ์ ์ด์์ต๋๋ค. ๋ํ ๋ฐ์ดํฐ์ ์์ด ๋ง์ผ๋ฉด ๋ง์์๋ก ๋น๋กํ์ฌ ์ฑ๋ฅ์ ์ข์์ง๋๋ค.
NLP์ Word์ ๊ฐ์ด ์ด๋ฏธ์ง input ๋ฐ์ดํฐ๋ฅผ Patch๋ก ๋ณํํ์ฌ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
IPT ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ ํ ๊ฐ Task์ ๋ง๋ ๊ณ ์ Feature๋ค๊ณผ ๋ณํ์ ์บก์ณํ์ฌ Fine-tuning ์ ์ํ๋ Task์ ๋ง๊ฒ ํ์์๋ ๋งค๊ฐ๋ณ์๋ ์ญ์ ํ์ฌ ๋น์ฉ์ ์ธ ์ธก๋ฉด์์๋ ์ ๋ฆฌํด๋ณด์์ต๋๋ค.
Author / Reviewer information
Author
๋ฐ์คํ (Junhyung Park)
Affiliation (KAIST AI / NAVER)
Machine Learning Engineer @ NAVER Shopping AI Team
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
โฆ
Reference & Additional materials
Last updated
Was this helpful?