SimCLR [Kor]
Ting Chen al. / A Simple Framework for Contrastive Learning of Visual Representation / ICML '2020
SimCLR [Korean]
1. Problem definition
๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋ํ ์ฌ์ ํ๋ จ์ ์ฌ๋ฌ ๋ ผ๋ฌธ์์ ์ ์ฆ๋ ๊ฒ์ฒ๋ผ ์ปดํจํฐ ๋น์ ์์ ์์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๋น์ฃผ๋ ํ์ต ๋ฌธ์ ๋ฅผ ๋ ์ด๋ธ๋์ง ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์์ ๋์ฉ ๋ ์ด๋ธ์ ์์ฑํ์ฌ ์ฃผ๋๋ ๋ฌธ์ ๋ก ์ ํํ๋ ๊ธฐ์ ์ ๊ณ์ด์ธ ์๊ธฐ์ฃผ๋ ํ์ต์ ํต์ฌ์ ๋๋ค. ๊ทธ๋ฌ๋, ํ์ฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๋ํ ์๊ธฐ์ฃผ๋ ๊ธฐ์ ์ ๋ณต์กํ์ฌ ์ํคํ ์ฒ ๋๋ ํ๋ จ ์ ์ฐจ์ ์๋นํ ์์ ์ด ํ์ํ๋ฉฐ ๋๋ฆฌ ์ฑํ๋์ง ์์์ต๋๋ค.
ํด๋น ๋ ผ๋ฌธ์ ์๊ธฐ ์ง๋ ํ์ต์์ ์ฃผ๋ ์์๋ค์ ์ฐ๊ตฌํ๋ฉฐ, ์ด๋ฏธ์ง์ ๋ํ ์๊ธฐ์ฃผ๋์ ํํ ํ์ต์ ๋ํ ์ด์ ์ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ์ํํ ๋ฟ๋ง ์๋๋ผ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํ SimCLR์ด๋ผ๋ ๊ธฐ์ด ํ๋ ์ ์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๋ํ, ์ด๋ฌํ ๋ฐฉ๋ฒ๋ก ์ ์ด์ฉํ์ฌ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ ๋ฐฉ์์ ๋จ์์ฑ์ ๊ธฐ์กด์ ์ฃผ๋ ํ์ต๊ด์ ์ฝ๊ฒ ํตํฉ๋ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
2. Motivation
Related work
์ฌ๋ ์์ด ํจ๊ณผ์ ์ธ ์๊ฐ์ ํํ์ ๋ํ ์ง๋ ํ์ต์ ์ค๋ซ๋์ ์ฐ๊ตฌ๋ก์ ๋ค๋ฃจ์ด์ ธ ์์ต๋๋ค. ๋๋ถ๋ถ์ ์ฃผ๋ฅ ์ ๊ทผ ๋ฐฉ์์ ์์ฑ์ ๋๋ ์ฐจ๋ณ์ ์ด๋ผ๋ ๋ ๊ฐ์ง ํด๋์ค ์ค ํ๋๋ก ๋ถ๋ฅํ ์ ์์ต๋๋ค. ์์ฑ์ ์ ๊ทผ์ ๋ชจ๋ธ์ ๋ผ๋ฒจ๋ง์ ๋ํด ์์ฑํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฑฐ๋ ๊ทธ๋ ์ง ์๋ค๋ฉด ์ ๋ ฅ ๊ณต๊ฐ์ ํฝ์ ์ ๋ชจ๋ธ๋งํฉ๋๋ค. ํ์ง๋ง, ์ด๋ฌํ ํฝ์ ๋จ์์ ์์ฑ์ ๊ณ์ฐ์ ์ผ๋ก ๋งค์ฐ ๋น์ผ ๋น์ฉ์ด ๋ค ๋ฟ๋ง ์๋๋ผ, ํํ ํ์ต์ ๊ผญ ํ์ํ์ง ์์ ์ ์์ต๋๋ค.
๋ณ๋ณ์ ์ธ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง์ ๋ํ ํํ์ ์ง๋ ํ์ต์ ๋ชฉ์ ํจ์์ ๋น์ทํ ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ ๋ ฅ๊ณผ ๋ ์ด๋ธ์ด ๋ชจ๋ ๋ ์ด๋ธ์ด ์ง์ ๋์ง ์์ ๋ฐ์ดํฐ์ ์์ ์ค๋ฉฐ, ์ด๋ฅผ ํตํด ๋คํธ์ํฌ๋ฅผ ํ์ตํ๋ค๋ ์ ์ด ์ง๋ ํ์ต๊ณผ์ ์ฐจ์ด์ ์ ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ฐ๊ตฌ์๊ฐ ์ ์ํ ์ ๋ฌด(pretext task)๋ฅผ ๋ง๋๋ ๊ฒ์ด ๋งค์ฐ ํด๋ฆฌ์คํฑํ๊ฒ ์ด๋ฃจ์ด์ก์ต๋๋ค.
Idea
๋ณธ ์ฐ๊ตฌ์์๋ ์๊ฐ์ ํํ์ ๋์กฐ ํ์ต์ ์ํ SimCLR์ด๋ผ๋ ๊ฐ๋จํ ํ๋ ์์ํฌ๋ฅผ ์๊ฐํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ ๋จผ์ ๋น ์ง์ ๋ ๋ ์ด๋ธ์ ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ์ง์ ์ผ๋ฐ์ ์ธ ํํ์ ํ์ตํ ๋ค์, ์๋์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ฃผ์ด์ง ๋ถ๋ฅ ์์ ์ ๋ํด ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
SimCLR์ ์๋ณธ ๋ฐ์ดํฐ์ ์์ ์์ ๋ฅผ ๋ฌด์์๋ก ์ถ์ถํ์ฌ ๊ฐ๋จํ ํ๋ (์์ ์๋ฅด๊ธฐ, ์์์ ์์ ์๊ณก ๋ฐ ๊ฐ์ฐ์์ ๋ธ๋ฌ)์ ์กฐํฉ์ ์ฌ์ฉํ์ฌ ๊ฐ ์์ ๋ฅผ ๋ ๋ฒ ๋ณํํ์ฌ ๋ ์ธํธ์ ํด๋น ๋ณด๊ธฐ๋ฅผ ๋ง๋ญ๋๋ค. ๊ฐ๋ณ ์ด๋ฏธ์ง์ ์ด๋ฌํ ๊ฐ๋จํ ๋ณํ์ ๊ทผ๊ฑฐ๋
๋ณํ์ ๋์ผํ ์ด๋ฏธ์ง์ ์ผ๊ด๋ ํํ์ ์ฅ๋ คํ๋ ๊ฒ์ ๋๋ค.
์ฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ๋ ์ด๋ธ์ด ์๊ธฐ ๋๋ฌธ์ ์ด๋ค ์ด๋ฏธ์ง์ ์ด๋ค ๊ฐ์ฒด๊ฐ ํฌํจ๋์ด ์๋์ง๋ฅผ ์ฌ์ ์ ์ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ๋ ์ด๋ฌํ ๊ฐ๋จํ ๋ณํ์ด ์ ๊ฒฝ๋ง์ด ์ข์ ํํ์ ๋ฐฐ์ฐ๊ธฐ์ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ์์์ง๋ง ๋ ๋ณต์กํ ๋ณํ ์ ์ฑ ๋ ํตํฉ๋ ์ ์์ต๋๋ค.
๊ทธ๋ฐ ๋ค์, SimCLR์ ResNet ์ํคํ ์ฒ ๊ธฐ๋ฐ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ๋ณํ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ํํ์ ๊ณ์ฐํฉ๋๋ค. ๊ทธ ํ SImCLR์ Fully-Connected Network๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ํํ์ ๋น์ ํ ํฌ์์ ๊ณ์ฐํฉ๋๋ค. ์ด ๊ธฐ๋ฅ์ ๋ณํ์ง ์๋ ๊ธฐ๋ฅ์ ์ฆํญ์ํค๊ณ ๋์ผํ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ๋ณํ์ ์๋ณํ๋ ๋คํธ์ํฌ์ ๊ธฐ๋ฅ์ ์ต๋ํํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋๋น ๋ชฉํ์ ์์ค ํจ์๋ฅผ ์ต์ํํ๊ธฐ ์ํด ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ฌ์ฉํ์ฌ CNN๊ณผ MLP๋ฅผ ๋ชจ๋ ์ ๋ฐ์ดํธํฉ๋๋ค. ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ ํ์ตํ ํ์๋ CNN์ ์ถ๋ ฅ์ ์ด๋ฏธ์ง ํํ์ผ๋ก ์ง์ ์ฌ์ฉํ๊ฑฐ๋ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ์ป์ ์ ์์ต๋๋ค.
3. Method
The Contrastive Learning Framework
๋จผ์ , ๋ณธ ๋ ผ๋ฌธ์์ ์ฌ์ฉํ SimCLR์ด๋ผ๋ ํ์ต ํ๋ ์์ํฌ์ ๋๋ค. ์ด๋ ์ต๊ทผ ๋์กฐ ํ์ต ์๊ณ ๋ฆฌ์ฆ์์ ์๊ฐ์ ๋ฐ์์ผ๋ฉฐ, ๋์ผ ๋ฐ์ดํฐ ์์์ ๋ํ์ฌ ๋ค๋ฅด๊ฒ ์ฆ๊ฐ๋ ๋ทฐ๋ฅผ ์ฌ์ด์ ์ผ์น๋ฅผ ์ต๋ํํฉ๋๋ค. ์ด๋ ๋ ์ ์ฌ ๊ณต๊ฐ์์์ ๋์กฐ ์์ค ํจ์๋ฅผ ํตํด ์ฒ๋ฆฌ๋ฉ๋๋ค.
Figure 2.๋ 4๊ฐ์ ์์๋ก ๊ตฌ์ฑ๋ SimCLR ํ๋ ์ ์ํฌ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ๋จผ์ ํ๋ฅ ์ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ชจ๋์ด ์ฃผ์ด์ง ์์์ ๋ฐ์ดํฐ ์์๋ฅผ ๋๋คํ๊ฒ ๋ ๊ฐ์ ์ฐ๊ด๋ ๋ทฐ๋ก ๋ง๋ญ๋๋ค. ์ด๊ฒ์ ๊ธ์ ์์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋, 3๊ฐ์ง์ ๋จ์ํ ์ฆ๊ฐ๋ฒ์ ์์ฐจ์ ์ผ๋ก ์ด์ฉํฉ๋๋ค. ์ด๋ ๋๋ค ์๋ผ๋ด๊ธฐ, ๋๋ค ์ ์๊ณก, ๊ทธ๋ฆฌ๊ณ ๋๋ค ๊ฐ์ฐ์์ ๋ธ๋ฌ์ ๋๋ค.
์ฆ๊ฐ๋ ๋ฐ์ดํฐ ์์ ์์ ํํ ๋ฒกํฐ๋ฅผ ์ถ์ถํ๋ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์ธ์ฝ๋๋ฅผ ์ด์ฉํฉ๋๋ค. ์ด๋ฌํ ์ธ์ฝ๋ f๋ ๋ณธ ์ฐ๊ตฌ๋ ๋จ์ํจ์ ์ถ๊ตฌํ๊ธฐ์, ๋ณธ ์ฐ๊ตฌ์ ํ๋ ์์ํฌ๋ ์ ์ฝ ์กฐ๊ฑด์์ด ๋ค์ํ ๋คํธ์ํฌ ์ํคํ ์ณ๋ฅผ ๊ณ ๋ฅผ ์ ์์ผ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ResNet๋ฅผ f๋ก์ ๋ณธ ์ฐ๊ตฌ์์๋ ์ฌ์ฉํ์ต๋๋ค.
์์ ๋ด๋ด ๋คํธ์ํฌ ํ๋ก์ ์ ํค๋ g๋ ์ด๋ฏธ์ง์ ํ์๋ฅผ ๋์กฐ ์์ค ํจ์๊ฐ ์ ์ฉ๋๋ ๊ณต๊ฐ์ผ๋ก ๋งคํ์ํต๋๋ค. ์ฆ, 1๊ฐ์ ์๋์ธต๊ณผ ReLu ํจ์๊ฐ ์๋ MLP๋ฅผ ์ด์ฉํ์ฌ ์์ค ํจ์์ ์ธ ๋น์ ํ ํจ์๋ฅผ ์ป์ด๋ ๋๋ค.
๋์กฐ ์์ค ํจ์๋ ๋์กฐ ์์ธก ์์ ์ ์ํด ์ ์๋ฉ๋๋ค. x_i์ x_j์ ๊ธ์ ์์ ํฌํจํ x_k์ด๋ผ๋ ์งํฉ์ด ์ฃผ์ด์ก์ ๋, ๋์กฐ ์์ธก ์์ ์ x_i๊ฐ ์ฃผ์ด์ก์ ๋, x_i๊ฐ ์๋ x_j๋ฅผ x_k ์งํฉ์์ ์ฐพ๋ ๊ฒ์ ์ฃผ๋ ฅํฉ๋๋ค.
๋ฐ๋ผ์, ๊ธ์ ์์ ๊ฐ์ง ์์คํจ์๋
๋ก์ ์ ์๋ฉ๋๋ค.
์๋ ์๊ณ ๋ฆฌ์ฆ์ SimCLR์ ๋ฉ์ธ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
Training with Large Batch Size
๋จ์ํจ์ ์ ์งํ๊ธฐ ์ํด, ๋ฉ๋ชจ๋ฆฌ ๋ฑ ํฌ๋ก ํ๋ จํ์ง ์์ต๋๋ค. ๋์ , ๋ณธ ์ฐ๊ตฌ์์๋ ํ๋ จ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ 256์์ 8129๊น์ง ๋ค์ํ๊ฒ ํฉ๋๋ค. 8192์ ๋ฐฐ์น ์ฌ์ด์ฆ๋ ์ฆ๊ฐ๋ ๋ทฐ๋ก๋ถํฐ ๋์จ ๊ฐ๊ฐ์ ๊ธ์ ์๋ง๋ค 16382๊ฐ์ ๋ถ์ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ ํ ํ์ต๋ฅ ์ค์ผ์ผ๋ง์ ์ด์ฉํ SGD/Momentum๋ฅผ ์ ์ฉํ์ ๋, ํฐ ์ฌ์ด์ฆ์ ๋ฐฐ์น๋ก ํ์ตํ๋ฉด ์์ ํ์ง ์์ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์๋ LARS ์ต์ ํ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
Data Augmentation for Contrastive Representation Learning
๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ํด์๋ ๋๋คํ๊ฒ ์ผ์ด๋๋ crop๊ณผ resize, ๊ทธ๋ฆฌ๊ณ ์ ์๊ณก๊ณผ ๊ฐ์ฐ์์ ๋ธ๋ฌ ๋ฑ์ ํ์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ์ฐ๊ตฌํ๊ธฐ ์ํด, ๋๋คํ๊ฒ ์ผ์ด๋๋ crop๊ณผ resize, ์ ์๊ณก, ๊ฐ์ฐ์์ ๋ธ๋ฌ ์ธ์๋ ๋ฐ์ดํฐ์ ํ์ , ์ปท์์, ๋๋น ๋ฐ ์ฑ๋ ๋ณํ ๋ฑ๊ณผ ๊ฐ์ ๋ณํ๋ฅผ ํฌํจํ์ฌ ์ฆ๊ฐํ์๋ค. ๊ฐ๋ณ์ ์ผ๋ก ํน์ ์ง์ผ๋ก ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ ์ฉํ ๋, ๋ณธ ํ๋ ์ ์ํฌ์ ์ฑ๋ฅ์ ์กฐ์ฌํ์๋ค. ImageNet์ ์ด๋ฏธ์ง๋ค์ ๊ฐ์ ๋ค๋ฅธ ์ฌ์ด์ฆ๋ค์ด๋ฏ๋ก, ๋ณธ ์ฐ๊ตฌ์์๋ ํญ์ ์๋ฅด๊ธฐ์ resize๋ฅผ ํ์๋ค.
๋จ์ผ ๋ณํ์ ์ต๊ณ ์ ํํ์ ์ ๊ณตํ๋ ์์ธก ์์ ์ ์ ์ํ๋ ๋ฐ ์ถฉ๋ถํ์ง ์๋ค. ํ์ง๋ง, ๋๋ค ํฌ๋๊ณผ ๋๋ค ์ ์๊ณก์ด๋ผ๋ ๋ ๊ฐ์ง ๋ณํ์ด ๊ฐ์ฅ ๋๋๋ฌ์ง๋ ์ํฅ์ ์ฃผ์๋ค. ์๋ฅด๊ธฐ๋ ์ ์๊ณก์ด ์์ฒด์ ์ผ๋ก ๊ณ ์ฑ๋ฅ์ ๋ด์ฃผ์ง ์์ง๋ง, ์ด ๋ ๊ฐ์ง ๋ณํ์ ๊ตฌ์ฑํ๋ฉด ์ต์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
Architectures for Encoder and Head
SimCLR์์๋ ๋์กฐ ํ์ต ๋ชฉํ์ ๋ํ ์์คํจ์๊ฐ ๊ณ์ฐ๋๊ธฐ ์ ์ MLP ๊ธฐ๋ฐ ๋น์ ํ ํฌ์์ด ์ ์ฉ๋์ด ๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ณํ์ง ์๋ ํน์ง์ ์๋ณํ๊ณ ๋์ผํ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ๋ณํ์ ์๋ณํ๋ ๋คํธ์ํฌ์ ๋ฅ๋ ฅ์ ์ต๋ํํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ๊ฐ ํ๋ ์คํ์์, ์ด๋ฌํ ๋น์ ํ ํฌ์๋ฒ์ ์ฌ์ฉํ๋ฉด ํํ ํ์ง์ ํฅ์ํ๊ณ SImCLR ํ์ต๋ ํํ์ ๋ํด ํ๋ จ๋ ์ ํ ๋ถ๋ฅ๊ธฐ์ ์ฑ๋ฅ์ 10% ์ด์ ํฅ์ํ๋ ๋ฐ์ ๋์์ด ๋๋ค๋ ๊ฒ์ ์์์ต๋๋ค.
Loss Functions and Batch Size
๋ณธ ์ฐ๊ตฌ์์๋ NT-Xent ์์ค ํจ์๋ฅผ ๋ค๋ฅธ ์ผ๋ฐ์ ์ธ ๋์กฐ ์์ค ํจ์๋ค(๋ก์ง์คํฑ ์์ค ํจ์)๊ณผ ๋น๊ตํ์ต๋๋ค.
Table 2๋ ์์ค ํจ์์ ์ธํ์ ๊ทธ๋๋์ธํธ์ ๋ชฉ์ ํจ์๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ L2 ์ ๊ทํ์ ์ ์ ํ temperature๊ฐ ๋ชจ๋ธ ํ์ต์ ๋์์ ์ค ์ ์๋ค๋ ๊ฒ์ ์์์ต๋๋ค.
4. Experiment & Result
If you are writing Author's note, please share your know-how (e.g., implementation details)
This section should cover experimental setup and results. Please focus on how the authors of paper demonstrated the superiority / effectiveness of the proposed method.
Note that you can attach tables and images, but you don't need to deliver all materials included in the original paper.
Experimental setup
๋ณธ ์ฐ๊ตฌ๋ ํ๊ฐ๋ฅผ ์ํ ํ๋กํ ์ฝ์ ์ ์ํ์ต๋๋ค. ์ด๋ ๋ค๋ฅธ ๋์์ธ ์ ํ์ ๋ํด ๋ณธ ์ฐ๊ตฌ์ ํ๋ ์์ํฌ๋ฅผ ์ดํดํ๋ ๋ฐ์ ์ด์ ์ ๋์์ต๋๋ค.
Dataset
๋ฐ์ดํฐ ์ ์ผ๋ก๋ ImageNet ILSVRC-2012 dataset์ ๋ณธ ์ฐ๊ตฌ์ ๋๋ถ๋ถ์์ ํ์ฉ๋๋ ๋น์ง๋ํ์ต์์ ์ฌ์ฉ๋์์ต๋๋ค. ์ฆ, ์ธ์ฝ๋ ๋คํธ์ํฌ f (Figure 2)๋ฅผ ๋ผ๋ฒจ ์์ด ํ์ต์ํค๋ ๋ฐ์ ํ์ฉํ์ต๋๋ค. ๋ช๋ช ์ถ๊ฐ์ ์ธ ์ฌ์ ํ๋ จ์ ์ํด์๋ CIFAR-10 ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์์ผ๋ฉฐ, ์ ์ด ํ์ต์ ํ ์คํธํด๋ณด์์ต๋๋ค.
Baselines
MoCo๋ PIPL, CPC v2, Local Agg, BigBiGAN.
Test setting
Optimizer : LARS optimizer
learning rate : 4.8 ( = 0.3 * BatchSize/256)
weight decay : 10^-6
Batch Size : 4096 for 100 epochs.
Using linear warmup for the first 10 epochs.
Evaluation metric
Default Setting
๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ํด ๋๋ค ํฌ๋, ๋๋ค ๋ฆฌ์ฌ์ด์ฆ, ์ ์๊ณก, ๊ฐ์ฐ์์ ๋ธ๋ฌ๋ฅผ ์ด์ฉํ์ผ๋ฉฐ, ๋ฒ ์ด์ค ์ธ์ฝ๋ ๋คํธ์ํฌ (Figure 2์ f) ResNet-50์ ์ด์ฉํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ 2-layer์ MLP ํ๋ก์ ์ ํค๋์ธ g๋ฅผ ์ด์ฉํ์ผ๋ฉฐ ์ด๋ ์ด๋ฏธ์ง ํ์๋ฅผ 128 ์ฐจ์์ latent space๋ก ์ ์ด์ํต๋๋ค.
Loss function์ผ๋ก๋ NT-Xent๋ฅผ ์ด์ฉํ๋ค.
Result
Comparison with State-of-the-art
๋ณธ ๋ ผ๋ฌธ์์ ์ ์๋ framework๋ฅผ ํตํด SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ ๊ฒฐ๊ณผ๋ก ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
5. Conclusion
๋ณธ ๋ ผ๋ฌธ์ ๋์กฐ์ ์๊ฐ์ ํํ ํ์ต์ ์ํ ๊ฐ๋จํ ํ๋ ์ ์ํฌ์ ์ธ์คํด์คํ๋ฅผ ์ ์ํ์ต๋๋ค.
์ฐ๋ฆฌ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ์ฌ ์์ฒด ์ง๋, ๋์กฐ ํ์ต ๋ฐ ์ ์ด ํ์ต์ด ์ด์ ๋ฐฉ๋ฒ๋ณด๋ค ์๋นํ ๊ฐ์ ๋์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ ํ์ค ์ง๋ํ์ต๊ณผ๋ ๋ค๋ฆ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์๋์ ๊ฐ์ ์ธ ๊ฐ์ง๋ฅผ ๋ณด์์ต๋๋ค.
๊ตฌ์ฑ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํจ๊ณผ์ ์ธ ์์ธก ์์ ์ ์ ์ํ๋ ๊ฒ์ ์์ฃผ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
ํํ๊ณผ ๋์กฐ ์์ค ์ฌ์ด์ ํ์ต ๊ฐ๋ฅํ ๋น์ ํ ๋ณํ์ ๋์ ํ๋ฉด ํ์ต๋ ํํ์ ํ์ง์ด ํฌ๊ฒ ํฅ์๋ฉ๋๋ค.
๋์กฐ ๊ต์ฐจ ์ํธ๋กํผ ์์ค ํจ์๋ฅผ ์ฌ์ฉํ ํํ ํ์ต์ ์ ๊ทํ๋ ์๋ฒ ๋ฉ๊ณผ ์ ์ ํ ์กฐ์ ๋ ์จ๋ ๋งค๊ฐ ๋ณ์๋ก๋ถํฐ ์ด์ ์ ์ป์ต๋๋ค.
๋์กฐ ํ์ต์ ๋ ํฐ ๋ฐฐ์น ์ฌ์ด์ฆ์ ๋ ํฐ ํธ๋ ์ด๋ ์คํ ์ ๋ํ์ฌ ์ง๋ํ์ต๊ณผ ๋น๊ตํ์ ๋์ ํฐ ์ด์ ์ ๊ฐ์ ธ๊ฐ๋๋ค.
Take home message (์ค๋์ ๊ตํ)
๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ฌ์ธตํ์ต ๊ธฐ๋ฐ์ ์ปดํจํฐ ๋น์ ์์ ์์ฃผ ์ค์ํ ์ญํ ์ ํ๋ค.
์ด์ ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๋ํ ์๊ธฐ์ฃผ๋ ๊ธฐ์ ์ ๋ณต์กํ์ฌ ์ํคํ ์ฒ ๋๋ ํ๋ จ ์ ์ฐจ์ ์๋นํ ์์ ์ด ํ์ํ๋ฉฐ ๋๋ฆฌ ์ฑํ๋์ง ์์์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ์ง์ ์ผ๋ฐ์ ์ธ ํํ์ ํ์ตํ ๋ค์, ์๋์ ๋ ์ด๋ธ์ด ์๋ ์ด๋ฏธ์ง๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ฃผ์ด์ง ๋ถ๋ฅ ์์ ์ ๋ํด SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
Data augmentation is important in the computer vision based on the deep learning
Data augmentation
All men are mortal.
Socrates is a man.
Therefore, Socrates is mortal.
Author / Reviewer information
You don't need to provide the reviewer information at the draft submission stage.
Author
๊นํ์ค (Kim Hajun)
Contact mail : hajun0219@kaist.ac.kr github : https://github.com/Hajun0219/
Company KAIST Mechanical Engineering
Introduction I'm studying about robotics. I'm interested in control, path planning, state estimation with optimization or learning based framework.
...
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
"A Simple Framework for Contrastive Learning of Visual Representations", Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton Proceedings of the 37th International Conference on Machine Learning, PMLR 119:1597-1607, 2020.
Citation of this paper
2.https://github.com/Hajun0219/awesome-reviews-kaist.git
Official (unofficial) GitHub repository
Citation of related work
Other useful materials ther useful materials
Last updated
Was this helpful?