CUT [Kor]
Park et al. / Contrastive Learning for Unpaired Image-to-Image Translation / ECCV 2020

1. Problem definition
image-to-image translation task๋
source domain A์ ์๋ input image xAโ๋ฅผ target domain B๋ก ๋ณํ์ํค๋๋ฐ, ์ด๋ source content๋ ์ ์งํ๋ฉด์ target style๋ก ๋ฐ๊ฟ์ผ ํฉ๋๋ค.
๋ฐ๋ผ์, ์ฐ๋ฆฌ๋ mapping function GAโฆBโ๋ฅผ ํ์ตํด์ผ ํ๊ณ , ์ด ํจ์๋ target domain image xBโโB์ ๊ตฌ๋ถํ๊ธฐ ํ๋ xABโโB๋ฅผ ์์ฑํฉ๋๋ค.
Image-to-image translation task๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค:
xAโโdomainA,xBโโdomainB
๋๋ฉ์ธ A์ ์์์ ์ด๋ฏธ์ง xAโ ์, ๋๋ฉ์ธ B์ ์์์ ์ด๋ฏธ์ง xBโ ๊ฐ ์์๋,
xABโโB:xABโ=GAโฆBโ(xAโ)
Generator GAโฆBโ ์ xAโ ๋ฅผ ๋ฃ์ ์์ํ xABโ ๋ ๋๋ฉ์ธ B์ ์์์ฌ์ผํฉ๋๋ค.
2. Motivation
Related work
Image translation
Image-to-Image translation์ด๋, A ๋๋ฉ์ธ์ ์๋ ์ด๋ฏธ์ง๋ฅผ B ๋๋ฉ์ธ์ ์ด๋ฏธ์ง๋ก ๋งตํํ๋ ๊ฒ์ ๋งํฉ๋๋ค. ์ฝ๊ฒ ๋งํ์๋ฉด, ๊ฐ์ ๋ง(A ๋๋ฉ์ธ)์ ์ผ๋ฃฉ๋ง(B ๋๋ฉ์ธ)๋ก ๋ฐ๊พธ๋ ค๋ ๊ฒ, ํ๋ฐฑ์ฌ์ง(A ๋๋ฉ์ธ)์ ์ปฌ๋ฌ์ฌ์ง(B ๋๋ฉ์ธ)์ผ๋ก ๋ฐ๊พธ๋ ค๋ ๊ฒ์ด image translation์ ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋, ๊ฐ์ ๋ง์ ๋ชธํต์ด๋ ํํ๋ ๊ทธ๋๋ก ์ ์งํ๋, ๋ง์ ํธ์๋ง ๋ฐ๊ฟ์ผ ๋ฉ๋๋ค. ํ๋ฐฑ์ฌ์ง ๋ํ ๊ฑด๋ฌผ์ด๋ ๋ฐฐ๊ฒฝ์ ๋ณํ์ง ์์ผ๋ฉด์ ๊ทธ๊ฒ๋ค์ ์๊น๋ง ๋ณํด์ผ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ํํ๋ ์ ์งํ๋ฉด์ ์ด๋ค ์๊น์ด๋ ํน์ง๋ง ๋ณํ๋๋ก ํด์ผ๋๋ฏ๋ก ํ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ทธ ๋๊ฐ์ง๋ฅผ ๋ถ๋ฆฌํ์ฌ ์งํํ๋ ๊ฒ์ด challenge์ ๋๋ค. ์ด๊ฒ์ 'disentanglement problem'์ด๋ผ๊ณ ํ๊ณ , img-to-img translation task์์ ๊ฐ์ฅ ์ค์ํ ๋ฌธ์ ์ค์ ํ๋์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๋ ์์ผ๋ก ๋ง์ ๋ชธํต/ํํ๋ฅผ 'content', ๋ง์ ํธ์์ 'style'์ด๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ ์ ๋๋ค.
Pix2Pix

Pix2Pix๋ paired dataset์ ์ฌ์ฉํ๋ ๋ํ์ ์ธ img-to-img translation๋ชจ๋ธ์ ๋๋ค.
์ฌ๊ธฐ์ Paired dataset์ด๋, ๋ ๋๋ฉ์ธ์ ํด๋นํ๋ ์ด๋ฏธ์ง๊ฐ ๋ฐ๋์ "ํ ์"์ผ๋ก ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด, ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด (์ค์ผ์น, ์ ๋ฐ์ฌ์ง), (๋ ์ด๋ธ, ๊ฑด๋ฌผ์ฌ์ง) ํํ๋ก ๋ฐ๋์ ๋ชจ๋ธ์ ์ธํ์ผ๋ก ํ ์์ ์ด๋ฏธ์ง๊ฐ ํ์ํ๊ฒ ๋ฉ๋๋ค.
Pix2Pix๋ ๊ธฐ์กด GAN์ด ๋๋ฌด๋ ์ ์ฝ์์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, L1 loss๋ฅผ ์ถ๊ฐํ์์ต๋๋ค. ์ฆ, ์์ฑ๋ ์ด๋ฏธ์ง์ ์๋ณธ ์ด๋ฏธ์ง๊ฐ์ ์ฐจ์ด๋ฅผ ์ค์ฌ๋๊ฐ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๋๋ก ํ์์ต๋๋ค.
๊ทธ๋ฌ๋ Pix2Pix์ ๋จ์ ์,
Paired dataset์ ์ฝ๊ฒ ์ป์ ์ ์๋ ๋ฐ์ดํฐ์ ์ด ์๋๋๋ค. ๊ทธ๊ฒ์ ๋ง๋๋ ๊ฒ๋ ์ฝ์ง ์์ต๋๋ค.
L1 loss์ ๋๋ฌด ์์กด์ ์ ๋๋ค. ์ด๋ค ๋ฐ์ดํฐ์ ์์๋ L1 loss๋ง ์ฌ์ฉํ์์ ๋ ๋ ์ข์ ์ฑ๋ฅ์ด ๋ณด์ด๊ธฐ๋ ํ์์ต๋๋ค.
๋ฐ๋ผ์ ์ด๋ฌํ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์ ์๋ ๋ ผ๋ฌธ์ด 'CycleGAN'์ ๋๋ค.
CycleGAN
CycleGAN์ ๋์ด์ paired dataset์ด ํ์ํ์ง ์์ต๋๋ค. ๊ทธ๋ฅ ๊ฐ ๋๋ฉ์ธ์ ํด๋นํ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ด ์กด์ฌํ๋ฉด ๋ฉ๋๋ค. ์ด๋ฌํ ์ธํ ์ 'Unpaired Dataset'์ด๋ผ๊ณ ํฉ๋๋ค. ์๋ฅผ ๋ค๋ฉด, ๋ง ์ฌ์ง 1000์ฅ๊ณผ ์ผ๋ฃฉ๋ง ์ฌ์ง 800์ฅ๊ณผ ๊ฐ์ด ์ด๋ฏธ์ง๊ฐ์ ์์ ์ด๋ฃจ์ง ์์๋ ๋ฉ๋๋ค.

CycleGAN๊ตฌ์กฐ๋ ์ ์ฌ์ง์ ๋ณด๋ฉด์ ์์๋ฅผ ๋ค์ด ์ค๋ช ํ๊ฒ ์ต๋๋ค.
๋จผ์ X๋ ๋ง ์ด๋ฏธ์ง, Y๋ ์ผ๋ฃฉ๋ง ์ด๋ฏธ์ง๋ผ๊ณ ํฉ์๋ค.
๋ง ์ด๋ฏธ์ง X๋ฅผ G๋ผ๋ generator์ ๋ฃ์ด์ฃผ๋ฉด, ์ด generator๋ ์ผ๋ฃฉ๋ง ์ด๋ฏธ์ง G(X)๋ฅผ ๋ง๋ค์ด์ค๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง ์ง์ง ์ผ๋ฃฉ๋ง ์ด๋ฏธ์ง Y์ ๋น๊ตํ๋ฉด์ ์ด๊ฒ์ด ์ง์ง๊ฐ์์ง, ๊ฐ์ง๊ฐ์์ง๋ฅผ ํ๋ณํด๋ด ๋๋ค. ์ด๊ฒ์ DYโ๊ฐ ํ๋ ์ผ ์ ๋๋ค.
๊ทธ ํ, ์์ฑ๋ ๊ฐ์ง ์ผ๋ฃฉ๋ง ์ด๋ฏธ์ง G(X)๋ฅผ F๋ผ๋ generator์ ๋ฃ์ด์ค๋๋ค. F๋ ๋ค์ ๋ง ์ด๋ฏธ์ง F(G(X))๋ฅผ ๋ง๋ค์ด์ค๋๋ค. ๊ทธ๋ฌ๋ฉด, DXโ๋ ์ฐ๋ฆฌ๊ฐ ์ฒ์์ ๋ฃ์ด์ฃผ์๋ ๋ง ์ด๋ฏธ์ง X์, ๋ generator๋ฅผ ๊ฑฐ์น๊ณ ๋์์จ ๊ฐ์ง ๋ง ์ด๋ฏธ์ง F(G(X))์ real/fake์ฌ๋ถ๋ฅผ ํ๋ณํฉ๋๋ค.
์ด ๊ณผ์ ์ ๋ฐ๋์ ์ํฉ์์๋ ๋ฐ๋ณตํด์ค๋๋ค. ์ฆ ์ผ๋ฃฉ๋ง ์ด๋ฏธ์ง Y๋ฅผ ๋ฃ์ด cycle์ ๋๊ณ ์ค๋ ๊ฐ์ง ์ผ๋ฃฉ๋ง ์ด๋ฏธ์ง G(F(Y))๋ฅผ ๋ง๋๋ ๊ฒ์ด์ฃ .
์ด๋ ๊ฒ ๊ตฌํ๋ loss๋ฅผ 'cycle consistency loss'๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ์ด๊ฒ์ pix2pix์ L1 loss๋ฅผ ๋์ ํด์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ผ ์ต์ข ์์ํ ์ด๋ฏธ์ง๋ ์ง์ง ์ผ๋ฃฉ๋ง ๊ฐ์ผ๋ฉด์๋(style), ๋ง ์ด๋ฏธ์ง์ ๊ณ ์ ์ ํํ(content)๋ ์ ์งํ ์ ์๊ฒ ๋ฉ๋๋ค.
๋ค๋ง ์ด ๊ตฌ์กฐ์๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
์ญ๋ฐฉํฅ ํจ์๊ฐ ํ์ํฉ๋๋ค. ์ฆ G์ inverse์ธ F๊ฐ ์ถ๊ฐ์ ์ผ๋ก ํ์ํฉ๋๋ค. ๋ชจ๋ธ์ ๋๊ฐ๋ ์ฌ์ฉํ๊ณ ์์ผ๋ ์ฉ๋์ด ๋ง์ด ๋ค๊ณ ์๋๊ฐ ๋๋ฆด ์ ์์ต๋๋ค.
๋ฐ๋์ ๋ ๋๋ฉ์ธ ๊ฐ์ ๊ด๊ณ๊ฐ ์ผ๋์ผ ๋์์ด์ด์ผํฉ๋๋ค. ์ด๊ฒ์ ๋๋ฌด ์ ์ฝ์ ์ ๋๋ค.

์ด ์ด์ผ๊ธฐ์ ๋ํด์ ์ข ๋ ์์ธํ ์๊ธฐํด๋ณด๊ฒ ์ต๋๋ค.
๋ง์ฝ ์ด๋ค ๊ฐ์ ๋ง์ ์ผ๋ฃฉ๋ง ๋๋ฉ์ธ์ผ๋ก ๋ณํํ๋ค๊ณ ํฉ์๋ค. ๊ทธ๋ผ ๊ธฐ์กด ๊ฐ์ ๋ง์ ํธ์ ์ ๋ณด๋ ์์ ๋ฉด์ ๊ทธ๊ฒ์ ํํ๋ง ์ ์ง๋ฅผ ํ๋, ์ผ๋ฃฉ๋ฌด๋ฌ๋ฅผ ์ ํ๋ ค๊ณ ํ ๊ฒ์ ๋๋ค. ๋ฐ๋ผ์, ๋ค์ ์ผ๋ฃฉ๋งโ๋ง๋ก ๋์๊ฐ ๋์, ์ฌ์ค ๊ทธ ํํ๊ฐ ์ค์ํ์ง ์๋ ๋ง์ด ๊ฐ์์ด์๋์ง, ํฐ์์ด์๋์ง, ์ ๋ฐ์ด์๋์ง ๊ทธ๋ฆฌ ์ค์ํ ์์๊ฐ ๋์ง ์์ ๊ทธ ์ ๋ณด๊ฐ ์์ค๋ฉ๋๋ค.
cycleGAN์ ๋งโ์ผ๋ฃฉ๋ง task๋ ์ ๋์ง๋ง, ์ผ๋ฃฉ๋งโ๋ง์ ์ ๋์ง ์์ต๋๋ค. ์ผ๋ฃฉ๋ง์ ๋ง์ ๋นํด์ ์๋์ ์ผ๋ก ๋ค์ํ์ง ์์ style(๊ทธ๋ฅ ํ๋ฐฑ ์ค๋ฌด๋ฌ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉด ๋จ)์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋ ์ฌ์ ๋ ๊ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ ๋ฐ๋๋ก ์ผ๋ฃฉ๋ง์ ๊ฐ์, ์ ๋ฐ์ด, ํฐ์ ๋ง๋ก ๋ง๋๋ ๊ฒ์ ์ฝ์ง์์ task๊ฐ ๋ฉ๋๋ค. ์ฆ, cycleGAN์ diversity๊ฐ ๋น๊ต์ ๋ฎ์ ์ ์ฝ์ ์ธ ๋ฉด์ด ์์ต๋๋ค.
Idea

๋ณธ ๋ ผ๋ฌธ์์๋ cycleGAN์ ์ด๋ฌํ ํ๊ณ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด์ ์๋ก์ด ๋ชจ๋ธ์ธ "CUT(Contrastive learning for Unpaired image-to-image Translation)"์ ์ ์ํฉ๋๋ค. (์ด ๋ ผ๋ฌธ์ ์ ์๊ฐ ๋ฐ๋ก cycleGAN์ ์ ์์ ๋๋ค.)
๋ง ์ด๋ฏธ์ง์ ์ผ๋ฃฉ๋ง ์ด๋ฏธ์ง๋ฅผ ํจ์น ๋จ์๋ก ์๋ผ์ ์ดํด๋ณด์์ ๋, ๋ง ๋จธ๋ฆฌ๋ ์ผ๋ฃฉ๋ง ๋จธ๋ฆฌ๋ผ๋ฆฌ, ๋ง ๋ค๋ฆฌ๋ ์ผ๋ฃฉ๋ง ๋ค๋ฆฌ๋ผ๋ฆฌ, ๊ทธ๋ฆฌ๊ณ ๋ฐฐ๊ฒฝ์ ๋ฐฐ๊ฒฝ๋ผ๋ฆฌ ์ฐ๊ด๊ด๊ณ๋ฅผ ์ ์งํ ์ ์๋๋ก ํ๋ฉด, ์ข๋ ์ง๊ด์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ translateํ ์ ์์ง ์์๊น ์๊ฐํ ๊ฒ๋๋ค. ์ด๊ฒ์ contrastive loss๋ฅผ ํตํด์ ๊ตฌํ๋ฉ๋๋ค.
contrastive loss๋ ์ธ์ฝ๋๊ฐ ๋ค์๊ณผ ๊ฐ์ ์๋ฒ ๋ฉ์ ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค.
๋ชธ์ ํํ๋ ๊ตฌ์กฐ์ ๊ฐ์ ๊ณตํต๋๋ ๋ถ๋ถ์ ์ ์งํ๋ฉด์(invariant)
๋ง์ ํธ์์ฒ๋ผ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ํด์๋ ์ ์ฐํ๊ฒ ๋ฐ๋๋๋ก ํฉ๋๋ค.(sensitive)
(contrastive loss๋ ์๋ method๋ถ๋ถ์์ ๋ ์์ธํ ์ค๋ช ํ๊ฒ ์ต๋๋ค.)
๊ทธ๋ฆฌ๊ณ CUT์ cycleGAN๊ณผ ๋ฌ๋ฆฌ inverse network๊ฐ ํ์ํ์ง ์์ ๋ ๊ฐ๋จํ๋ฉด์ ํ์ต์๊ฐ๋ ๋จ์ถ๋์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
3. Method
InfoNCE Loss
๋จผ์ ์์์ ๋งํ contrastive loss๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด ๊ฐ๋จํ ์ ๋ณด์ด๋ก ๊ฐ๋ ์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.

mutual information์ด๋, source vector c์ target vector x๊ฐ ์์๋ ๊ทธ ๋ ๋ฒกํฐ์ ์ํธ์์กด์ ๋ณด๋, ์ฆ ๋ ๋ฒกํฐ๊ฐ ๊ณต์ ํ๋ ์ ๋ณด๋ ์ ๋๋ผ๊ณ ์๊ฐํ์๋ฉด ๋ฉ๋๋ค.
๊ทธ๊ฒ์ ์์ ๊ฐ์ ์์์ผ๋ก ๊ตฌํ ์ ์๊ณ , ๊ทธ๊ฒ์ ๊ฐ๋จํ๊ฒ p(c)p(xโฃc)โ ์ ๋น๋กํ๋ f(xtโ,ctโ) ๋ผ๋ ํจ์๋ฅผ mutual information๋ผ๊ณ ํฉ์๋ค.(์ฌ๊ธฐ์ k๋ ๊ฐ๋ณ๊ฒ ๋ฌด์ํ๋๋ก ํฉ์๋ค. ์ ํฌ๊ฐ ์ด์ผ๊ธฐํ ๋ด์ฉ๊ณผ๋ ์๊ด์๋ ๊ฒ์ ๋๋ค.)
๊ทธ๋ ๋ค๋ฉด ๋ ๋ฒกํฐ ์ฌ์ด์ mutual information์ ์ต๋ํ์ํฌ ์ ์๋ loss, ์ฆ ๋ ๋ฒกํฐ๊ฐ์ ์ํธ์์กด์ ๋ณด๋์ ์ต๋๋ก ๋ง๋๋ loss๋ ์ด๋ป๊ฒ ์ ์ํ ์ ์์๊น์?
"Representation learning with contrastive predictive coding(2018)"์ด๋ผ๋ ๋ ผ๋ฌธ์์๋ InfoNCE๋ผ๋ loss๋ฅผ ์ ์ํ๊ฒ ๋ฉ๋๋ค.

InfoNCE loss๋ ์์ ๊ฐ์ต๋๋ค.
Vector space์์ target vector x ์ธ์ vector๋ฅผ ๋๋คํ๊ฒ ์ํ๋งํฉ๋๋ค. ์ด๊ฒ์ negative sampling์ด๋ผ๊ณ ํ๊ณ , ๊ทธ ์ํ๋ค์ negative sample์ด๋ผ๊ณ ํฉ๋๋ค.
N๊ฐ์ negative sample๊ณผ 1๊ฐ์ target vector(=positive sample), ์ฆ N+1๊ฐ์ vector ์ค, positive sample์ ๋ฝ์ ํ๋ฅ ์ ๋ํ๋ธ ๊ฒ์ ๋๋ค.
์ด ํ๋ฅ ์ ์ต๋ํํ๋ ๊ฒ์, ๋ถ์๊ฐ์ ๋์ด๊ณ ๋ถ๋ชจ๊ฐ์ ๊ฐ์ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ฆ target vector์์ mutual information์ ์ต๋ํ์ํค๋ฉด์ ๋๋จธ์ง negative sample๊ณผ์ mutual info๋ ์ค์ด๋ ๊ฒ์ ๋๋ค. ๋ฐ๋ผ์ ์ด๊ฒ์ loss๋ฅผ ์ต์ํํ๋๊ฒ๊ณผ๋ ๊ฐ์ต๋๋ค(๋ง์ด๋์ค๊ฐ ๋ถ์ด์).

๋ณธ ๋ ผ๋ฌธ์์๋ InfoNCE loss๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ฌ์ฉํ๊ณ ์์ต๋๋ค.
Query v(ํน์ source v) : output ์ด๋ฏธ์ง์์ ์จ ํจ์น์ feature
Positive v+ : input ์ด๋ฏธ์ง์์ ์จ ํจ์น์ feature. ๋จ query v์ ๊ฐ์ ์์น์ ์๋ ํจ์น์.
Negative v- : input ์ด๋ฏธ์ง์์ positive v+์ ํจ์น๋ฅผ ์ ์ธํ ๋๋จธ์ง ํจ์น๋ค์ feature.
๊ทธ๋ฆฌ๊ณ ์ด feature๋ค์ mutual information๋ cosine similarity๋ก ํํ๋์ด ๋ feature๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ตฌํฉ๋๋ค.
์ฆ, ์ด loss๋ฅผ ์ต์ํ(min)ํ๋ ๊ฒ์, query์ positive์ ์ ์ฌ๋๋ ์ต๋ํ(max)ํ๋ ๊ฒ์ด๊ณ , query์ negative์ ์ ์ฌ๋๋ ์ต์ํ(min)ํ๋ ๊ฒ์ ๋๋ค.
์ฌ๊ธฐ์ ''ํจ์น์ feature'๋ผ๋ ์ด์ผ๊ธฐ๋ฅผ ํ๊ณ ์๋๋ฐ, ์ด ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ Patchwise Contrastive Loss๋ผ๊ณ ์ ์ํ๊ณ ์์ต๋๋ค.
์์ธํ ๋ด์ฉ์ ๋ฐ์์ ์ด์ด์ ๋ค๋ฃจ๊ฒ ์ต๋๋ค.
Multilayer, patchwise contrastive learning

์๊น์ ๋ด์ฉ์ ์ ๊ทธ๋ฆผ๊ณผ ์ฐ๊ด์ํค์๋ฉด, ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ผ๋ฃฉ๋ง ๊ทธ๋ฆผ์์์ ๋จ์ ํจ์น = Query v
๋ง ๊ทธ๋ฆผ์์์ ํ๋์ ํจ์น = Positive v+
๋ง ๊ทธ๋ฆผ์์์ ๋ ธ๋์ ํจ์น = Negative v-
Motivation์์ ๋งํ๋ ๊ฒ์ฒ๋ผ, ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ์ ์ฒด ๋ฟ๋ง ์๋๋ผ, ๊ทธ๊ฒ์ ํจ์น๋จ์๋ก ๋ฏ์ด์ ์ดํด๋ณด์์ ๋์๋ ์ฐ๊ด๊ด๊ณ๋ฅผ ์ ์งํ ์ ์๊ธฐ๋ฅผ ์ํ์ต๋๋ค.
์ฆ, output์ผ๋ก ์์ฑ๋ ์ผ๋ฃฉ๋ง์ ๋จธ๋ฆฌ๋, input ๋ง์ ๋ค๋ฆฌ๋ณด๋ค๋ input ๋ง์ ๋จธ๋ฆฌ์ ๋ ์ฐ๊ด์ด ์์ด์ผ ๋ฉ๋๋ค.
๋ํ, ๊ทธ ๊ฐ๋ ์ด pixel level๋ก ๋ด๋ ค๊ฐ์๋๋ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. ์ผ๋ฃฉ๋ง์ ๋ชธ์ ์๊น์ ๋ง์ ๋ชธ ์๊น๊ณผ ๋ ์ฐ๊ด์ด ์์ด์ผ ํ๊ณ , ๋ฐฐ๊ฒฝ์ธ ์ด์(?)๊ณผ๋ ์ฐ๊ด์ฑ์ด ๋จ์ด์ ธ์ผ ํฉ๋๋ค.
์ฌ๊ธฐ์๋ input์ด encoder G์ ๋ค์ด๊ฐ๊ฒ ๋๋ฉด ๋ค์ํ ํฌ๊ธฐ์ feature map์ด ํ์ฑ๋๋๋ฐ, ๋ ผ๋ฌธ์์๋ ์ด๊ฒ์ loss๋ฅผ ๊ตฌํ๋๋ฐ์ ํ์ฉํ์์ต๋๋ค.
encoder์ l๋ฒ์งธ layer์์ ๋์จ feature map์ MLP network Hlโ์ ๋ฃ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋งคํ์์ผ์ค๋๋ค.
๊ทธ๋ฆฌ๊ณ ๋งคํ๋ feature์์ Slโ๊ฐ์ ํจ์น๋ฅผ ๋ฝ์ ๊ทธ ํจ์น๋ค๋ก contrastive loss๋ฅผ ๊ณ์ฐํฉ๋๋ค.
์ด๊ฒ์ L๊ฐ์ layer์ ๋ํด์ ๋ฐ๋ณต์์ผ์ค๋๋ค. ๋ค์ํ ํฌ๊ธฐ์ feature map์ ๋ํด์ ๋ฐ๋ณตํ๊ฒ ๋๋ฉด ์ด๋ฏธ์ง์ globalํ ํน์ฑ๋ถํฐ detailํ ํน์ฑ๊น์ง ๊ณ ๋ฃจ๊ณ ๋ฃจ ์ดํด๋ณผ ์ ์๊ฒ ๋ฉ๋๋ค.

์ ์๋ค์ ์ด loss์๊ฒ PatchNCE loss๋ผ๋ ์ด๋ฆ์ ๋ถํ์ฃผ์์ต๋๋ค.
์์์ ์ดํด๋ณด๋ฉด, ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Slโ๊ฐ์ ํจ์น๋ค ์ค์ ๋์๊ฐ๋ฉด์ query patch๋ฅผ ์ง์ ํ ๋ค contrastive loss๋ฅผ ๊ตฌํ๊ณ ์ด๋ฅผ ๋ฐ๋ณตํ๊ณ ๋ชจ๋ ๋ํจ.
๊ทธ๊ฒ์ L๊ฐ์ layer์ ๋ํด์ ๋ค์ ๋ฐ๋ณตํ๊ณ ๋ชจ๋ ๋ํจ.
โป ์ฐธ๊ณ : MLP network H๋ SimCLR(2020) ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๊ตฌ์กฐ์ ๋๋ค. ์ด network๋ 2๊ฐ์ linear layer + ReLU non-linear layer๋ก ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. ์ ์ด ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋์ง๋ ํด๋น ๋ ผ๋ฌธ์์ ์คํ์ ํตํด ์ฆ๋ช ํ์ผ๋ ์ฐธ๊ณ ํ์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
๊ทธ๋ฐ๋ฐ, ์ด๋ ๊ฒ ์๊ฐํด๋ณผ ์๋ ์์ต๋๋ค.
์ฌ๊ธฐ์๋ negative sample์ input ์ด๋ฏธ์ง ๋ด(internal patches)์์ ์ํ๋ง์ ํ๋๋ฐ, ์์ ๋ค๋ฅธ ์ด๋ฏธ์ง์์ negative sample์ ๊ฐ์ ธ์ฌ ์ ์์ง ์์๊น์(external patches)?
๊ทธ๊ฒ์ ๋ํ ์คํ์ ์งํํ์๋๋ฐ, ๊ฒฐ๊ตญ ์ด๋ฏธ์ง ๋ด์์ ์ํ๋ง์ ํ์๋๊ฐ ๋ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค๊ณ ํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ [Section 4. Experiment, Ablation Study](###Ablation study) ๊ฒฐ๊ณผ์ ์์ธํ ๋์์์ต๋๋ค.

์ ์๋ค์ ๊ทธ ์ด์ ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ถํด๋ณด์์ต๋๋ค.
์ธ์ฝ๋๋ internal patch๋ฅผ ์ผ์ ๋, intra-class variation์ ๋ํด์ ๋ชจ๋ธ๋งํ์ง ์์๋ ๋ฉ๋๋ค. ์ฆ, ํจ์น๊ฐ ํ์๋ง์ ํจ์น์ธ์ง, ๊ฐ์๋ง์ ํจ์น์ธ์ง๋ ์ผ๋ฃฉ๋ง์ ๋ง๋๋๋ฐ์ ์ค์ํ์ง ์๊ธฐ ๋๋ฌธ์, ๊ทธ๊ฒ์ ๊ณ ๋ คํ์ง ์์๋ ๋ฉ๋๋ค.
External patch๋ ๊ตฌ๋ถํ๊ธฐ๊ฐ ๋๋ฌด ์ฝ๊ณ , false positive๊ฐ ๋ ์๋ ์์ต๋๋ค. ์์ ๊ทธ๋ฆผ์ ๋ณด์๋ฉด ์์ฃผ ์ฐ์ฐํ๋, ๋ค๋ฅธ ๋ง ์ด๋ฏธ์ง์์ ์ํ๋ง์ ํ๋๋ฐ query ํจ์น์ ์ฐ๊ด์ด ์๋ ๋ง์ ๋จธ๋ฆฌ๋ถ๋ถ์ด negative sample๋ก ๋ฝํ ์๋ ์์ต๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด negative sample๋ก์จ์ ์ญํ ์ ํด์ฃผ์ง ๋ชปํฉ๋๋ค. ์ด๊ฒ์ false positive๋ผ๊ณ ํฉ๋๋ค.
์ด๋ฏธ internal patch๋ฅผ ์ฐ๋ ๋ฐฉ๋ฒ๋ก ์ texture synthesis๋ super resolution ๋ถ์ผ์์ ์ฑ๋ฅ์ ์ฆ์ด ๋์๊ธฐ ๋๋ฌธ์ ๋๋ค.
Final loss

์ต์ข loss๋ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ฉ๋๋ค.
๊ธฐ๋ณธ GAN loss, PatchNCE loss, ๊ทธ๋ฆฌ๊ณ identity loss๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
identity loss๋ PatchNCE loss๋ฅผ Y ๋๋ฉ์ธ์ ๋ํด์ ๋์ผํ๊ฒ ์ ์ฉํ ๊ฒ์ ๋๋ค. ์ด๊ฒ์ generator๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ถํ์ํ๊ฒ ๋ณํ์ํค๋ ๊ฒ์ ๋ง๊ธฐ ์ํด ์ฌ์ฉ๋์๋ค๊ณ ํฉ๋๋ค. ์ด๋ CycleGAN์์ ์ฌ์ฉํ identity loss์ ์ญํ ๊ณผ ๊ฑฐ์ ์ ์ฌํฉ๋๋ค. ์ฆ, G_Y์๊ฒ X๊ฐ ์๋, Y๋ฅผ ๋ฃ์์๋ ๋ค๋ฅธ ์ด๋ฏธ์ง๊ฐ ์๋ Y๋ก ๋งตํ๋๋๋ก ํ๋ ๋ก์ค์ ๋๋ค.
๊ธฐ๋ณธ CUT ๋ชจ๋ธ์ ฮปXโ=1,ฮปYโ=1์ ์ฌ์ฉํ์๊ณ ,
์ข ๋ lightํ ๋ชจ๋ธ์ธ ์ผ๋ช Fast CUT์ ฮปXโ=10,ฮปYโ=0 ์ ์ฌ์ฉํ์๋ค๊ณ ํฉ๋๋ค. ์ฆ, identity loss๋ฅผ ์ฌ์ฉํ์ง ์์์ ์ข ๋ ๊ฐ๋ฒผ์ด ๋ฒ์ ์ ๋๋ค.
4. Experiment & Result
Experimental Setup
Dataset:
CatโDog contains 5,000 training and 500 val images from AFHQ Dataset
HorseโZebra contains 2,403 training and 260 zebra images from ImageNet
Cityscapes contains street scenes from German cities, with 2,975 training and 500 validation images.
Baselines
CycleGAN
MUNIT
DRIT
Distance
SelfDistance
GCGAN
Evaluation Metric
FID(Fr ฬechet Inception Distance) : real ์ด๋ฏธ์ง์ ๋ถํฌ์ ์์ฑ๋ ์ด๋ฏธ์ง์ ๋ถํฌ๊ฐ์ divergence๋ฅผ ๊ตฌํ๋ metric. ๋ฎ์์๋ก ์ฑ๋ฅ์ด ์ข์.
Cityscape ๋ฐ์ดํฐ์ ์ ground-truth label์ด ์กด์ฌํ์ฌ segmentation ์งํ์ธ mAP, pixel-wise accuracy, average class accuracy๊ฐ ์ฌ์ฉ๋จ.
sec/iter, Mem(GB) : ์๋์ ์ฉ๋ ์ธก์ ์งํ
Training details:
Generator ๊ตฌ์กฐ : Resnet-based generator
Discriminator ๊ตฌ์กฐ: PatchGAN discriminator
GAN Loss๋ LSGAN loss๋ฅผ ์ฌ์ฉํจ.
Encoder๋ Generator์ ์ ๋ฐ๋ง ์ฌ์ฉํจ.
Feature๋ encoder์ 0, 4, 8, 12, 16๋ฒ์งธ ๋ ์ด์ด์์ ๋ฝ์.
Results

์ ์ฑ์ ๊ฒฐ๊ณผ์ ๋๋ค. Light ๋ฒ์ ์ธ FastCUT์ด ๋ค๋ฅธ baseline๋ค๋ณด๋ค๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค.
ํนํ horse-to-zebra์ task์์๋ CUT์ด ๋ค๋ฅธ ๋ชจ๋ธ๋ค, ํนํ cycleGAN๋ณด๋ค๋ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
๋ค๋ง ๋ง์ง๋ง 2๊ฐ์ ํ์ ๋ณด๋ฉด ์คํจํ ์ผ์ด์ค๋ฅผ ๋ณผ ์ ์๋๋ฐ์. ์ต์ํ์ง ์์ ๋ง์ ํฌ์ฆ๊ฐ ๋์ค๋ฉด ๋ฐฐ๊ฒฝ์ ์ค๋ฌด๋ฌ๋ฅผ ์ ํ๋ฒ๋ฆฐ๊ฑฐ๋, ๊ณ ์์ด์์ ๊ฐ๋ฅผ ๋ง๋ค ๋ ์์ง๋ ์์ ํ๋ฅผ ๋ง๋ค์ด ๋ฒ๋ ธ์ต๋๋ค.

๋ค์์ ์ ๋์ ๊ฒฐ๊ณผ์ ๋๋ค. FID๋ ๊ฐ์ฅ ๋ฎ์ง๋ง, ์๋์ ์ฉ๋์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด์ ๋งค์ฐ ๊ฒฝ์ ์ ์ ๋๋ค.
Ablation study

Ablation study๋ ๋ค์ํ ์ต์ ์ ๋๊ณ ์งํํ์ต๋๋ค.
Identity loss๋ฅผ ์ผ๋์ง
Negative sample์ ๊ฐ์
Multi-layer learning์ธ์ง, ์ค์ง encoder์ last layer๋ง ์ผ๋์ง
Internal patches vs. External patches
(์ฐ์ธก ์ขํ๋ฅผ ๋ดค์ ๋, ์ค๋ฅธ์ชฝ ์๋ก ์ฌ๋ผ๊ฐ ์๋ก ์ฑ๋ฅ์ด ์ข๊ณ , ์ข์ธก ํ๋จ์ผ๋ก ๊ฐ์๋ก ์ฑ๋ฅ์ด ์ข์ง์๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ์๋ฉด ๋ฉ๋๋ค.)
๋จผ์ external patch๋ฅผ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด ์ข์ง ๋ชปํ๋ค๋ ๊ฒ์ ๋ณผ ์ ์๊ณ , last layer๋ง ์ผ์๋๋ ์ฑ๋ฅ์ด ์ฉ ์ข์ง ๋ชปํฉ๋๋ค.
๊ทธ๋ฌ๋ identity loss๊ฐ ์์๋๋ ์ฑ๋ฅ์ด ๋น๊ต์ ์ขํ ์ข์ธก ํ๋จ์ ๋ชฐ๋ ค์์ต๋๋ค.
์ข์ธก ํ๋ฅผ ๋ณด๋ฉด, Horse-to-zebra์์๋ ์คํ๋ ค FID๊ฐ ๋ฎ์์ก์ง๋ง(์ฑ๋ฅโ), Cityscapes์์๋ FID๊ฐ ์ฌ๋ผ๊ฐ์ต๋๋ค(์ฑ๋ฅโ).
์ ์๋ค์ ์ด๋ ๊ฒ ๋ค๋ฅธ ์์์ ๋๋๊ฒ ์ด์ํ๋ค๊ณ ์๊ฐํ์ฌ training์์ loss ์ถ์ด๋ฅผ ์ดํด๋ณด์์ต๋๋ค.

๊ทธ๋ฌ๋๋ Cityscape์์๋ identity loss๋ฅผ ์ฐ์ง์์์ ๋, ๊ต์ฅํ ๋ถ์์ ํ๊ฒ ํ์ต์ ํ๊ณ ์๋ ํ์์ด ๋ํ๋ฌ์ต๋๋ค.
๋ฐ๋ผ์ identity loss๋ฅผ ์ฐ์ง์์ผ๋ฉด ์ต์ข FID๋ ์ ๋์ฌ ์ ์์ด๋, ํ์ต์ด ๋ถ์์ ํ ์ ์์ต๋๋ค. ์ฆ identity loss๋ ๋ณด๋ค ์์ ์ ์ผ๋ก ํ์ต์ ํ ์ ์๊ฒ ๋์์ฃผ๊ณ ์์ต๋๋ค.
Visualizing the learned similarity by encoder

๋ง์ง๋ง์ผ๋ก, ์ ์๋ค์ encoder network๊ฐ ์ด๋ป๊ฒ ํ์ต์ ํ๊ณ ์๋์ง๋ฅผ ํ์ธํ๊ธฐ ์ํด visualization์ ์งํํ์์ต๋๋ค.
์์ ์ฌ์ง(a)์์ ํ๋์ ๋ถ๋ถ์ด query patch์ด๊ณ , ์ด์ ํด๋นํ๋ ํ๋ ์ฌ๊ฐํ์ ์ด๋ฏธ์ง๋ค(c)์ด output ์ผ๋ฃฉ๋ง์ query patch์ input ๋ง์ patch๋ค๊ฐ์ similarity๋ฅผ ๊ณ์ฐํ๊ณ ์๊ฐํํ ๊ฒฐ๊ณผ์ ๋๋ค. (๋นจ๊ฐ์ ๋ ๋์ผํฉ๋๋ค.) ์ฆ, similarity ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์์ ํ์ ๋ถ๋ถ์ผ์๋ก ์ ์ฌํ๊ณ , ๊น๋ง ๋ถ๋ถ์ผ์๋ก ์ ์ฌํ์ง ์์ ๊ฒ์ ๋๋ค.
ํ๋์ , ์ผ๋ฃฉ๋ง์ ๋ชธ ๋ถ๋ถ์ ๋ง์ ๋ชธ ๋ถ๋ถ๊ณผ ์ ์ฌํ๊ณ ๋๋จธ์ง ๋ฐฐ๊ฒฝ๋ถ๋ถ๊ณผ๋ ์ ์ฌํ์ง ์์ต๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก ๋นจ๊ฐ์ , ๋ท๋ฐฐ๊ฒฝ ๋๋ญ์ ๋ถ๋ถ์ input์ด๋ฏธ์ง์ ์ด์๋ฐฐ๊ฒฝ๊ณผ ์ ์ฌํ๊ณ ๋ง์ ๋ชธ๊ณผ๋ ์ ์ฌํ์ง ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ฐ์ธก ๊ทธ๋ฆผ๋ค์ ํจ์น๋ค์ feature๋ฅผ ๊ฐ์ง๊ณ PCA๋ฅผ ์งํํ์ฌ ์ฃผ์ฑ๋ถ์ ์ถ์ถํ ๊ฒฐ๊ณผ์ ๋๋ค. ์ ์ฌํ ์๊น์ด ํผ์ณ์คํ์ด์ค์์ ์ ์ฌํ ์์น์์ ์จ๋ค๊ณ ํด์ํ๋ฉด ๋ฉ๋๋ค.
๊ฒฐ๊ตญ ์ผ๋ฃฉ๋ง๊ณผ ๋ง์ ๋ชธ ๋ถ๋ถ๋ผ๋ฆฌ๋ ์ฐ๊ด์ฑ์ด ์๊ณ , ๊ทธ์ธ์ ๋ฐฐ๊ฒฝ๋ถ๋ถ๋ผ๋ฆฌ ์ฐ๊ด์ฑ์ด ์์์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
5. Conclusion
CUT์ ์ฃผ์ contribution์ ์ ๋ฆฌํ์๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๊ธฐ์กด cycleGAN์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ๋ณด๋ค straightforwardํ ๋ฐฉ๋ฒ์ผ๋ก image translation task๋ฅผ ๋ค๋ฃจ๊ณ ์์.
ํนํ image synthesis task์์๋ ์ต์ด๋ก(์ ์๊ฐ ์ฃผ์ฅํ๊ธธ,) contrastive loss๋ฅผ ์ฌ์ฉํ์์.
perceptual loss์ ๊ฐ์ด imagenet์ ์ ์ฝ๋ predefined similarity function์ด ์๋ cross-domain similarity function์ ํ์ตํจ.
๋์ด์ inverse network๊ฐ ํ์์๊ณ , cycle-consistency์ ์์กดํ์ง ์์.
๊ทธ๋ฌ๋ ์ด ๋ ผ๋ฌธ์๋ limitation์ด ์กด์ฌํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ํน์ ๋๋ฉ์ธ์๋ง ์ํ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ์์ ์คํ์์๋ ๋ณด์๋ฏ์ด, ํนํ horse-to-zebra์๋ ์ ๋ ์ํ๋ ๊ฒฝํฅ์ ๋๊ณ ์์ง๋ง, cityscape๋ cat-to-dog๊ฐ์ ๊ฒฝ์ฐ์๋ ๊ทธ๋ฆฌ ๋์ ๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๊ณ ์๋ค๊ณ ํ๊ธฐ ํ๋ญ๋๋ค. ์ด์ฉ๋ฉด domain๊ฐ์ gap์ ๋ชจ๋ธ์ด ์ ์บ์นํด๋ด์ง ๋ชปํ๋ ๊ฒ์ผ ์๋ ์๊ฒ ์ฃ .
์ต๊ทผ์ ๋์จ Dual Contrastive Learning for Unsupervised Image-to-Image Translation(CVPRW, 2021) ์์๋ ๋ฐ๋ก ์ด ์ ์ ์ง์ ํ๋ฉฐ, CUT์์๋ ๋ ๋๋ฉ์ธ์ด ์ค์ง ํ๋์ ์ธ์ฝ๋๋ง ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค. ๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋ ์๋ฒ ๋ฉ์ ์ฌ๋ฌ ๊ฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ทธ ํ๊ณ์ ์ ํด๊ฒฐํ์๋ค๊ณ ํ๋ ๋ท ๋ด์ฉ์ด ๊ถ๊ธํ์ ๋ถ๋ค์ ํด๋น ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
์ ๋ ๋ฌด์๋ณด๋ค ์ด ๋ ผ๋ฌธ์ ์ฝ์ผ๋ฉด์ ์ฌ์ค cycleGAN์ด๋ผ๋ ์ ๋ช ๋ ผ๋ฌธ์ ์ด ์ ์๊ฐ ๋ถ๋ฌ์ด ๋ง์์ด ์ ์ผ ์ปธ์ต๋๋ค..๊ทธ๋ฌ๋ ์ ์๋ค์ ์ ๋ช ์ธ์ ๊ทธ์น์ง ์๊ณ ์ต๊ทผ์ ๋์จ ๋ฐฉ๋ฒ๋ก ์ธ contrastive learning์ ์์ ์ ๊ธฐ์กด์ฐ๊ตฌ์ ์ ์ฉํ์ฌ ๋ค์์ฐ๊ตฌ๋ก ๋ฐ์ ์ ์์ผฐ๋ค์. ๊ทธ๋ฌํ ์์ธ๋ฅผ ์ฐ๊ตฌ์๋ก์จ ๋ฐฐ์์ผ๊ฒ ๋ค๊ณ ๋๊ผ์ต๋๋ค.
Take home message
Contrastive learning์ feature๊ฐ์ embedding์ ๋ฐฐ์ฐ๊ธฐ์ ๋งค์ฐ ์ ํฉํ ๋ฐฉ๋ฒ์ด๋ค.
CycleGAN์ cycle consistency๋ ๋ค์ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ง ๋ชปํ๊ณ ๋ค์ ์ ์ฝ์ ์ด๋ค.
Contrastive representation์ single image๋ง ์์ด๋ ํํํ ์ ์๊ธฐ ๋๋ฌธ์, single image๋ง์ผ๋ก ํ์ตํ ๋ ์ฌ์ฉํ ์ ์๋ค.
์ง๊ธ๊น์ง ๊ธด ํฌ์คํ ์ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ๐
Author / Reviewer information
Author
๋ฐ์ฌ์ (Yeojeong Park)
M.S. Candidate in KAIST AI
E-mail: indigopyj@gmail.com; indigopyj@kaist.ac.kr
References & Additional materials
Last updated