Multimodal Versatile Network [Kor]

Alayrac et al. / Self-Supervised MultiModal Versatile Networks / NeurIPS 2020

μ˜μ–΄λ‘œ 쓰인 리뷰λ₯Ό 읽으렀면 μ—¬κΈ°λ₯Ό λˆ„λ₯΄μ„Έμš”.

1. Problem definition

이 논문은 μ‹œκ°, 청각, μ–Έμ–΄ 정보λ₯Ό λͺ¨λ‘ κ°€μ§€κ³  μžˆλŠ” Multimodal 데이터인 λΉ„λ””μ˜€λ₯Ό 기반으둜 μ„Έ κ°€μ§€ λͺ¨λ‹¬λ¦¬ν‹°(Modality) λͺ¨λ‘μ— μ ν•©ν•œ λ„€νŠΈμ›Œν¬λ₯Ό λ§Œλ“€κ³ μž ν•œλ‹€.

μ’€ 더 ꡬ체적으둜 ν‘œν˜„ν•˜λ©΄, λΉ„λ””μ˜€ xx의 Modalityλ₯Ό mm으둜 ν‘œν˜„ν•  λ•Œ, m∈{v,a,t}m \in \{v,a,t\}이닀. xv,xa,xtx_v, x_a, x_tλŠ” 각각 λΉ„λ””μ˜€μ˜ RGB 이미지, μ˜€λ””μ˜€ μƒ˜ν”Œ, ν…μŠ€νŠΈμ— ν•΄λ‹Ήν•œλ‹€. nn개의 λΉ„λ””μ˜€ ν•™μŠ΅μ…‹μ΄ μ£Όμ–΄μ§ˆ λ•Œ ({xi}i=1n\{x^i\}_{i=1}^n), λ…Όλ¬Έμ—μ„œλŠ” λ¨Όμ € 각 λͺ¨λ‹¬λ¦¬ν‹°μ— λ§žλŠ” μž„λ² λ”© fm:xmβ†’Rdmf_m: x_m \rightarrow \mathbb{R}^{d_m} 을 찾고자 ν•œλ‹€. fmf_m은 xmx_m을 μž…λ ₯κ°’μœΌλ‘œ λ°›μ•„ dmd_m 차원에 μž„λ² λ”©(vector representation)ν•œλ‹€.

각 λͺ¨λ‹¬λ¦¬ν‹° μž„λ² λ”©μ΄ 되면, 곡유(Shared/Joint) κ³΅κ°„μœΌλ‘œ ν™•μž₯ν•œλ‹€. 곡유 μž„λ² λ”© 곡간은 SsβŠ‚Rds\mathcal{S}_s \subset \mathbb{R}^{d_s}둜 ν‘œν˜„λ˜λ©°, 이 λ•Œ s∈{va,vt,at,vat}s \in \{va, vt, at, vat\}이닀. μ‹±κΈ€ λͺ¨λ‹¬λ¦¬ν‹° ν‘œν˜„(Representation) fm(xm)f_m(x_m)을 쑰인트 슀페이슀 Ss\mathcal{S}_s둜 νˆ¬μ‚¬ν•˜λŠ” ν”„λ‘œμ μ…˜ ν—€λ“œ(Projection Head) gmβ†’s:Rdmβ†’Rdsg_{m\rightarrow s}: \mathbb{R}^{d_m} \rightarrow \mathbb{R}^{d_s} λ₯Ό μ°ΎλŠ” 것이 두 번째 λ¬Έμ œμ΄λ‹€. 결과적으둜 λ§Œλ“€μ–΄μ§€λŠ” 쑰인트 μž„λ² λ”© zm,s=gmβ†’s(fm(xm))z_{m,s} = g_{m \rightarrow s} (f_m(x_m))λŠ” ν•™μŠ΅λœ λ§΅ν•‘ gmβ†’sg_{m \rightarrow s}λ₯Ό 톡해 계산할 수 μžˆλ‹€.

κ²°κ΅­ 쑰인트 μž„λ² λ”©μ€ 두 개 μ΄μƒμ˜ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό ν•¨κ»˜ μž„λ² λ”©ν•˜λŠ” 곡간이며, 이λ₯Ό ν™œμš©ν•˜λ©΄ λͺ¨λ‹¬λ¦¬ν‹°κ°„μ˜ Searchλ₯Ό κ°„νŽΈν•˜κ²Œ ν•  수 μžˆλ‹€λŠ” μž₯점이 μžˆλ‹€.

2. Motivation

μΈκ°„μ˜ 인식은 λ©€ν‹°λͺ¨λ‹¬λ‘œ 이루어진닀. λ”°λΌμ„œ μ–΄λ–€ λ°μ΄ν„°μ—μ„œ λ™μ‹œ λ‹€λ°œμ μœΌλ‘œ μΌμ–΄λ‚˜λŠ” μ—¬λŸ¬ λͺ¨λ‹¬λ¦¬ν‹°λ“€ κ°„μ˜ μœ μš©ν•œ 관계λ₯Ό λ„μΆœν•˜λ©΄ 이λ₯Ό ν™œμš©ν•˜μ—¬ 물리 세계λ₯Ό 더 잘 ν‘œν˜„(Representation)ν•  수 μžˆμ„ 것이닀. μ΄λŸ¬ν•œ 점에 κΈ°μΈν•˜μ—¬, 이 논문은 특히 λΉ„λ””μ˜€ 데이터에 μ£Όλͺ©ν•˜μ˜€λ‹€. λΉ„λ””μ˜€μ—λŠ” μ‹œκ°, μ˜€λ””μ˜€, ν…μŠ€νŠΈμ˜ μ„Έ κ°€μ§€ λ‹€λ₯Έ λͺ¨λ‹¬λ“€μ΄ μžμ—°μŠ€λŸ½κ²Œ μ‘΄μž¬ν•˜λ©° 이것을 톡해 심측 신경망(Deep Neural Nets)의 ν‘œν˜„ ν•™μŠ΅(Representation Learning)을 자기 지도(Self-supervised) ν•™μŠ΅ λ°©μ‹μœΌλ‘œ ν›ˆλ ¨μ΄ κ°€λŠ₯ν•˜λ‹€. μ΄λ ‡κ²Œ ν•™μŠ΅λœ λ©€ν‹°λͺ¨λ‹¬ ν‘œν˜„μ€ μ—¬λŸ¬ λͺ¨λ‹¬λ¦¬ν‹°μ˜ 데이터λ₯Ό ν¬ν•¨ν•˜λŠ” λ‹€μš΄μŠ€νŠΈλ¦Ό(Downstream) νƒœμŠ€ν¬μ— μ‚¬μš©ν•˜μ—¬ μ„±λŠ₯ ν–₯상을 κ°€μ Έμ˜¬ 수 μžˆλ‹€.

μ„œλ‘œ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹° κ°„μ˜ 쒋은 Representation을 μ–»μœΌλ €λ©΄ μ—¬λŸ¬ 연ꡬ λΆ„μ•Όμ˜ ν…Œν¬λ‹‰μ„ κ²°ν•©ν•˜λŠ” 것이 ν•„μš”ν•˜λ‹€. 이 논문은 Single Modalityλ₯Ό μœ„ν•œ 자기 지도 ν•™μŠ΅, μ‹œκ°-μ–Έμ–΄ / μ‹œκ°-μŒμ„± / μ‹œκ°-μŒμ„±-ν…μŠ€νŠΈ ν‘œν˜„ ν•™μŠ΅, λΉ„λ””μ˜€μ™€ 이미지λ₯Ό ν•¨κ»˜ μ²˜λ¦¬ν•˜λŠ” 기법과 같은 κΈ°μ‘΄ 연ꡬλ₯Ό μ°Έκ³ ν•œλ‹€.

single modalityμ—μ„œμ˜ 자기 지도 ν•™μŠ΅

Chen et al.은 μ‹œκ° ν‘œν˜„μ˜ λŒ€μ‘° ν•™μŠ΅(Contrastive Learning)을 μœ„ν•œ κ°„λ‹¨ν•œ ν”„λ ˆμž„μ›Œν¬(SimCLR)λ₯Ό μ œμ•ˆν•œλ‹€. SimCLRλŠ” augmentν•œ 이미지 κ°„μ˜ contrastive lossλ₯Ό μ΄μš©ν•œ 자기 지도 ν•™μŠ΅μœΌλ‘œ(같은 μ΄λ―Έμ§€μ—μ„œ augmentν•œ μ΄λ―Έμ§€λŠ” positive pair둜, λ‹€λ₯Έ μ΄λ―Έμ§€μ—μ„œ augmentν•œ μ΄λ―Έμ§€λŠ” negative pair둜 μ‚¬μš©) ImageNet λ²€μΉ˜λ§ˆν¬μ—μ„œ λ›°μ–΄λ‚œ κ²°κ³Όλ₯Ό 보여쀀닀. μ €μžλŠ” λ™μΌν•œ 자기 지도 ν•™μŠ΅ λ°©λ²•μ—μ„œ μ˜κ°μ„ μ–»μ—ˆμœΌλ©° λ©€ν‹°λͺ¨λ‹¬ λ„€νŠΈμ›Œν¬μ— contrastive loss와 λΉ„μ„ ν˜• projection headλ₯Ό μ°¨μš©ν–ˆλ‹€.

이미지-ν…μŠ€νŠΈ ν‘œν˜„ ν•™μŠ΅

이미지와 ν…μŠ€νŠΈλ₯Ό ν•˜λ‚˜μ˜ 곡간에 μž„λ² λ”©ν•˜λ €λŠ” μ—°κ΅¬λŠ” κ³„μ†λ˜μ–΄ μ™”μœΌλ©°, μ΄λŠ” 두 λͺ¨λ‹¬λ¦¬ν‹°κ°„μ˜ large-scale searchκ°€ κ°€λŠ₯ν•˜κ²Œ λ§Œλ“€μ—ˆλ‹€. ν•˜λ‚˜μ˜ 곡간에 이미지, ν…μŠ€νŠΈκ°€ λͺ¨λ‘ μž„λ² λ”©μ΄ κ°€λŠ₯ν•˜λ©΄ 이 μž„λ² λ”©λœ λ²‘ν„°λ“€κ°„μ˜ dot product 계산 만으둜 μœ μ‚¬λ„λ₯Ό μΈ‘μ •ν•  수 있기 λ•Œλ¬Έμ΄λ‹€. μ΅œκ·Όμ—λŠ” λΉ„λ””μ˜€μ—μ„œASR(Automatic Speech Recognition)을 톡해 λ‚˜λ ˆμ΄μ…˜μ„ ν…μŠ€νŠΈλ‘œ λ§Œλ“€μ–΄ 자기 지도 ν•™μŠ΅μœΌλ‘œ 많이 μ‚¬μš©ν•˜κ³  μžˆλ‹€. 이 λ…Όλ¬Έμ˜ μ €μžλ“€λ„ 이런 λ°©λ²•λ“€μ—μ„œ 아이디어λ₯Ό μ–»μ–΄ ν•™μŠ΅μ— μ μš©ν•˜μ˜€λ‹€.

이미지-μ˜€λ””μ˜€ ν‘œν˜„ ν•™μŠ΅

Alwassel et al.은 ν•œ λͺ¨λ‹¬λ¦¬ν‹°(예: μ˜€λ””μ˜€)의 ν‘œν˜„μ„ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°(예: λΉ„λ””μ˜€)μ—μ„œ λ°°μš°λŠ” 자기 지도 ν•™μŠ΅ 방법인 XDC(Cross-Modal Deep Clustering)λ₯Ό μ œμ•ˆν–ˆλ‹€. 이 방법은 지도 ν•™μŠ΅ 방법을 λŠ₯κ°€ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ‚˜, ν…μŠ€νŠΈ λͺ¨λ‹¬λ¦¬ν‹°μ— λŒ€ν•œ κ³ λ €λŠ” ν•˜μ§€ μ•Šμ•˜λ‹€.

이미지-μ˜€λ””μ˜€-ν…μŠ€νŠΈ ν‘œν˜„ ν•™μŠ΅

Aytar et al.은 μ‹œκ°, μ†Œλ¦¬, 언어에 λŒ€ν•œ cross-modal CNN λ„€νŠΈμ›Œν¬λ₯Ό μ œμ•ˆν•˜μ˜€λ‹€. 이미지-ν…μŠ€νŠΈ 그리고 이미지-μ†Œλ¦¬ 쌍으둜 λ„€νŠΈμ›Œν¬λ₯Ό ν›ˆλ ¨ν•œλ‹€. μ €μžμ— λ”°λ₯΄λ©΄ ν…μŠ€νŠΈ-μ†Œλ¦¬ κ°„μ˜ ν‘œν˜„μ€ 직접적인 ν›ˆλ ¨ 없이 ν•™μŠ΅ νš¨κ³Όκ°€ μΌμ–΄λ‚œλ‹€κ³  ν•œλ‹€. ν•œ κ°€μ§€ 단점은 이미지-ν…μŠ€νŠΈ μŒμ„ ν›ˆλ ¨ν•˜κΈ° μœ„ν•΄ COCO 및 Visual Genomeμ΄λΌλŠ” 주석이 달린 데이터 μ„ΈνŠΈλ₯Ό μ‚¬μš©ν•˜λŠ”λ°, μ™„μ „ν•œ 자기 지도 ν•™μŠ΅ 방식을 μ‚¬μš©ν•  수 μ—†κΈ° λ•Œλ¬Έμ΄λ‹€.

이미지와 λΉ„λ””μ˜€λ₯Ό ν•¨κ»˜ μ²˜λ¦¬ν•˜κΈ°

μ΄μ „μ˜ μ—°κ΅¬μ—μ„œ 이미지와 λΉ„λ””μ˜€λ₯Ό λͺ¨λ‘ μ²˜λ¦¬ν•˜λŠ” μž‘μ—…μ€ 일반적으둜 이미지 λ„€νŠΈμ›Œν¬μ—μ„œ λΉ„λ””μ˜€ λ„€νŠΈμ›Œν¬λ‘œ μ΄λ™ν•œλ‹€. Girdhar et al.은 이미지 데이터셋에 μ‚¬μ „ν•™μŠ΅λœ SOTAλͺ¨λΈμ„ μ‚¬μš©ν•œ distillation ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 λΉ„λ””μ˜€ representation을 λ°°μš°λŠ” 방법을 μ œμ•ˆν•˜μ˜€λ‹€. κ·ΈλŸ¬λ‚˜ λ³Έ λ…Όλ¬Έμ˜ μ €μžλŠ” 세상에 λŒ€ν•œ 우리의 인식이 μ •μ§€ 이미지보닀 λΉ„λ””μ˜€μ™€ 더 λΉ„μŠ·ν•˜κΈ° λ•Œλ¬Έμ— λΉ„λ””μ˜€μ—μ„œ λ°°μš°λŠ” 것이 더 μžμ—°μŠ€λŸ½λ‹€κ³  λ§ν•œλ‹€. λ”°λΌμ„œ λΉ„λ””μ˜€μ— ν›ˆλ ¨λœ λ„€νŠΈμ›Œν¬λ₯Ό 이미지에 λ°”λ‘œ μ μš©ν•  수 μžˆλŠ” λ””ν”Œλ ˆμ΄μ…˜(deflation)을 μ œμ•ˆν•œλ‹€.

Idea

이 λ…Όλ¬Έμ˜ 핡심 μ•„μ΄λ””μ–΄λŠ” λ ˆμ΄λΈ”λ˜μ§€ μ•Šμ€ λΉ„λ””μ˜€ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 자기 지도 ν•™μŠ΅μ„ 기반으둜 μ–΄λ””μ—λ‚˜ 적용 κ°€λŠ₯ν•œ MMV(Multi Modal Versatile) λ„€νŠΈμ›Œν¬μ™€ κ·Έ λ„€νŠΈμ›Œν¬μ˜ ν•™μŠ΅ 방법이닀. MMV λ„€νŠΈμ›Œν¬λŠ” λ‹€μŒ λ„€ κ°€μ§€ 원칙에 따라 μ„€κ³„λ˜μ—ˆλ‹€. 1) μ„Έ κ°€μ§€(μ‹œκ°, μ˜€λ””μ˜€, ν…μŠ€νŠΈ) λͺ¨λ‹¬λ¦¬ν‹° 쀑 μ–΄λŠ 것이든 μž…λ ₯으둜 받을 수 μžˆμ–΄μ•Ό ν•œλ‹€. 2) 각 λͺ¨λ‹¬λ¦¬ν‹°μ˜ νŠΉμ„±μ„ λ°˜μ˜ν•˜μ—¬ 데이터λ₯Ό μ²˜λ¦¬ν•΄μ•Ό ν•œλ‹€(예: μ˜€λ””μ˜€λ‚˜ μ‹œκ° λͺ¨λ‹¬λ¦¬ν‹°κ°€ ν…μŠ€νŠΈλ³΄λ‹€ 훨씬 정밀도가 λ†’μŒ) (Methodμ—μ„œ FAC λ„€ν¬μ›Œν¬μ— ν•΄λ‹Ή). 3) ν›ˆλ ¨ 쀑 보지 λͺ»ν•œ 데이터에 λŒ€ν•΄μ„œλ„ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹° κ°„μ˜ 비ꡐ가 κ°€λŠ₯ν•΄μ•Ό ν•œλ‹€. 4) 동적 λΉ„λ””μ˜€μ™€ 정적 이미지 ν˜•νƒœμ˜ 인풋 λͺ¨λ‘μ— 효율적으둜 μ μš©ν•  수 μžˆμ–΄μ•Ό ν•œλ‹€ (Methodμ—μ„œ Deflation κΈ°λŠ₯에 ν•΄λ‹Ή). MMV μ ‘κ·Ό 방식은 λΉ„λ””μ˜€ 데이터에 λ ˆμ΄λΈ”μ„ λ‹€λŠ” μž‘μ—…μ΄ ν•„μš”ν•˜μ§€ μ•Šλ‹€. μ΄λŠ” 닡이 달린 데이터에 μ˜μ‘΄ν•˜λ˜ μ΄μ „μ˜ μž‘μ—…κ³Ό 차별화 λœλ‹€.

3. Method

λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•˜λŠ” 방법은 μ•„λž˜ κ·Έλ¦Όκ³Ό κ°™λ‹€.

Figure 1: λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•˜λŠ” λ©€ν‹°λͺ¨λ‹¬ λ„€νŠΈμ›Œν¬ λ””μžμΈλ“€

MMV λ„€νŠΈμ›Œν¬μ˜ λͺ©ν‘œλŠ” λΉ„λ””μ˜€ 데이터(즉, μ‹œκ°, μ˜€λ””μ˜€ 및 ν…μŠ€νŠΈ)의 μ„Έ κ°€μ§€ λ‹€λ₯Έ 데이터 λͺ¨λ‹¬λ¦¬ν‹°λ“€μ˜ 의미적 관계(semantic relation)λ₯Ό κ°„λ‹¨ν•˜κ²Œ 내적을 계산 ν•¨μœΌλ‘œμ„œ μ•Œμ•„λ‚Όμˆ˜ μžˆλŠ”β€”μ¦‰, λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°κ°„μ˜ μœ μ‚¬μ„±μ„ λ‚΄μ μœΌλ‘œ 검사할 수 μžˆλŠ”β€”κ³΅ν†΅μ˜ 의미 벑터 곡간(jointly-shared vector space)인 S\mathcal{S}에 embedding ν•˜λŠ” 것이닀. λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•˜κΈ° μœ„ν•΄, 이 λ…Όλ¬Έμ—μ„œλŠ” MMV λ„€νŠΈμ›Œν¬μ— λŒ€ν•œ μ„Έ κ°€μ§€ μ•„ν‚€ν…μ²˜λ₯Ό κ³ λ €ν•œλ‹€.

"(a) Shared" κ³΅κ°„μ—μ„œλŠ” μ„Έ κ°€μ§€ λͺ¨λ‹¬λ¦¬ν‹°κ°€ κ³΅λ™μœΌλ‘œ 곡유된 단일 벑터 곡간 Svat\mathcal{S}_{vat}에 embedding되며 λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°μ™€μ˜ 직접 비ꡐ가 κ°€λŠ₯ν•˜λ‹€. κ·ΈλŸ¬λ‚˜ 단점은 λͺ¨λ“  λͺ¨λ‹¬λ¦¬ν‹°κ°€ λ™μΌν•œ 데이터 정밀도(granularity)λ₯Ό κ°€μ§€κ³  μžˆλ‹€κ³  κ°€μ •ν•˜λ©°, λͺ¨λ‹¬λ¦¬ν‹° 별 νŠΉμ„±μ„ κ³ λ €ν•˜μ§€ μ•ŠλŠ”λ‹€λŠ” 것이닀.

"(b) Disjoint" κ³΅κ°„μ—μ„œλŠ” λ‘κ°œμ˜ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό κ³΅μœ ν•˜λŠ” μ‹œκ°-μ˜€λ””μ˜€ 그리고 μ‹œκ°-ν…μŠ€νŠΈ 곡간인 Sva\mathcal{S}_{va}와 Svt\mathcal{S}_{vt}λ₯Ό 각각 ν•™μŠ΅ν•œλ‹€. 이 μ˜΅μ…˜μ€ μ„œλ‘œ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°μ˜ νŠΉμˆ˜μ„±, 특히 각기 λ‹€λ₯Έ 정밀도λ₯Ό κ³ λ €ν•˜μ—¬ λ‘κ°œμ˜ λ‹€λ₯Έ 곡유 곡간을 ν•™μŠ΅ν•˜μ§€λ§Œ, 단점은 μ˜€λ””μ˜€μ™€ ν…μŠ€νŠΈ 양식을 더 이상 직접 비ꡐ할 수 μ—†λ‹€λŠ” 것이닀.

"(c) FAC"(fine- and coarse-grained, 즉 κ³ μ •λ°€κ³Ό μ €μ •λ°€) κ³΅κ°„μ—μ„œλ„ 두 개의 μž„λ² λ”© 곡간에 λŒ€ν•œ ν•™μŠ΅μ„ μ œμ•ˆν•œλ‹€. κ³ μ •λ°€ 곡유 곡간 Sva\mathcal{S}_{va}μ—μ„œ κ³ μ •λ°€ λͺ¨λ‹¬λ¦¬ν‹° 쌍인 μ‹œκ°κ³Ό μ˜€λ””μ˜€λ₯Ό μž„λ² λ”© ν•˜κ³ , μ €μ •λ°€ 곡유 곡간인 Svat\mathcal{S}_{vat}μ—μ„œλŠ” μ €μ •λ°€ λͺ¨λ‹¬λ¦¬ν‹°μΈ ν…μŠ€νŠΈλ₯Ό ν¬ν•¨ν•œλ‹€. μ‹œκ°κ³Ό μ˜€λ””μ˜€λŠ” Sva\mathcal{S}_{va}μ—μ„œ 직접 λΉ„κ΅ν• μˆ˜ 있고, ν…μŠ€νŠΈλŠ” Svat\mathcal{S}_{vat}μ—μ„œ μ‹œκ°κ³Ό μ˜€λ””μ˜€μ™€ 내적을 κ³„μ‚°ν•˜μ—¬ 직접 비ꡐ가 κ°€λŠ₯ν•˜λ‹€. μ—¬κΈ°μ„œ, Sva\mathcal{S}_{va}μ—μ„œ Svat\mathcal{S}_{vat}(ν˜Ήμ€ λ°˜λŒ€)둜 κ°€λŠ” μ„ ν˜• 맀핑이 ν•„μš”ν•˜λ―€λ‘œ ν•™μŠ΅μ„ 톡해 μ•Œμ•„λ‚΄μ•Ό ν•˜κΈ° λ•Œλ¬Έμ— FAC μ˜΅μ…˜μ€ μ„Έ μ’…λ₯˜μ˜ 심측 신경망이 ν•™μŠ΅μ΄ ν•„μš”ν•œ λŒ€μ‹  "Shared"와 "Disjoint" μ˜΅μ…˜μ˜ 단점을 μ œκ±°ν•˜μ˜€λ‹€.

FACλŠ” MMV λ„€νŠΈμ›Œν¬μ˜ λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•˜κΈ° μœ„ν•œ 졜적의 아킀텍쳐이며, 이 논문은 Self-supervised λ°©μ‹μœΌλ‘œ FACλ₯Ό ν•™μŠ΅ν•˜λŠ” 방법에 λŒ€ν•΄ μ„€λͺ…ν•œλ‹€. μ œμ•ˆν•˜λŠ” λ„€νŠΈμ›Œν¬λŠ” μΈν„°λ„·μ—μ„œ ν”νžˆ 찾을 μˆ˜μžˆλŠ” λ§Žμ€ μ–‘μ˜ λΉ„λ””μ˜€ 데이터λ₯Ό ν™œμš©ν•˜μ—¬ ν•™μŠ΅ν•  수 있기 λ•Œλ¬Έμ— λ ˆμ΄λΈ”λ§λœ 데이터가 μ „ν˜€ ν•„μš”ν•˜μ§€ μ•Šλ‹€. μ €μžλ“€μ€ 이 λΉ„λ””μ˜€λ₯Ό κ°€μ§€κ³  λ©€ν‹°λͺ¨λ‹¬μš© μžκΈ°μ§€λ„ ν•™μŠ΅μ„ μœ„ν•œ Pretext Taskλ₯Ό μ…‹μ—…ν•˜λŠ” 방법을 μ•Œλ €μ€€λ‹€.

μ œμ•ˆλœ Self-supervised ν•™μŠ΅μ— ν•„μš”ν•œ λ©€ν‹°λͺ¨λ‹¬ Contrastive Loss의 μˆ˜μ‹μ€ λ‹€μŒκ³Ό κ°™λ‹€.

L(x)=Ξ»vaNCE(xv,xa)+Ξ»vtMIL-NCE(xv,xt)\mathcal{L}(x) = \lambda_{va} \textrm{NCE}(x_v,x_a) + \lambda_{vt} \textrm{MIL-NCE}(x_v,x_t)

μ—¬κΈ°μ„œ Ξ»va\lambda_{va}와 Ξ»vt\lambda_{vt}λŠ” Regularization νŒŒλΌλ―Έν„°μ΄λ©°, NCE Loss와 MIL-NCE Loss의 비쀑을 κ²°μ •ν•œλ‹€. NCEλŠ” noise contrastive estimation으둜 Contrastive Lossλ₯Ό ν™œμš©ν•œλ‹€. FACλŠ” negative sampling을 μ‚¬μš©ν•œλ‹€. NCE와 MIL-NCE Loss Function은 λ‹€μŒκ³Ό 같이 μˆ˜μ‹μœΌλ‘œ ν‘œν˜„λœλ‹€. (MIL은 Positive μƒ˜ν”Œκ³Ό Negative μƒ˜ν”Œ 갯수λ₯Ό λ§€μΉ­μ‹œμΌœ Lossλ₯Ό κ³„μ‚°ν•˜λŠ” Multiple Instance Learning을 λ§ν•œλ‹€.)

NCE(xv,xa)=βˆ’log⁑(exp⁑(zv,va⊀za,vaΟ„)exp⁑(zv,va⊀za,vaΟ„)+βˆ‘zβ€²βˆΌN(x)exp⁑(zv,vaβ€²βŠ€za,vaβ€²Ο„))\textrm{NCE}(x_v,x_a) = - \log \left ( \frac{\exp(\frac{z^\top_{v,va} z_{a,va}}{\tau})}{\exp(\frac{z^\top_{v,va} z_{a,va}}{\tau}) + \sum_{z'\sim \mathcal{N}(x)} \exp(\frac{z'^\top_{v,va} z'_{a,va}}{\tau})} \right )

MIL-NCE(xv,xt)=βˆ’log⁑(βˆ‘z∈P(x)exp⁑(zv,vat⊀zt,vatΟ„)βˆ‘z∈P(x)exp⁑(zv,vat⊀zt,vatΟ„)+βˆ‘zβ€²βˆΌN(x)exp⁑(zv,vatβ€²βŠ€zt,vatβ€²Ο„))\textrm{MIL-NCE}(x_v,x_t) = - \log \left ( \frac{\sum_{z \in \mathcal{P}(x)} \exp(\frac{z^\top_{v,vat} z_{t,vat}}{\tau})}{\sum_{z \in \mathcal{P}(x)} \exp(\frac{z^\top_{v,vat} z_{t,vat}}{\tau}) + \sum_{z'\sim \mathcal{N}(x)} \exp(\frac{z'^\top_{v,vat} z'_{t,vat}}{\tau})} \right )

λ§ˆμ§€λ§‰μœΌλ‘œ MMV λ„€νŠΈμ›Œν¬μ—λŠ” λ””ν”Œλ ˆμ΄μ…˜(Deflation)μ΄λΌλŠ” κΈ°λŠ₯이 μžˆλŠ”λ°, μ΄λŠ” λΉ„λ””μ˜€ λ„€νŠΈμ›Œν¬λ₯Ό 단일 이미지λ₯Ό μΈν’‹μœΌλ‘œλ„ 돌릴수 μžˆλŠ” λ„€νŠΈμ›Œν¬λ‘œ λ³€ν™˜ν•˜λŠ” 것이닀. Deflated된 λ„€νŠΈμ›Œν¬λŠ” λΉ„λ””μ˜€ 데이터에 ν›ˆλ ¨λœ μ˜€λ¦¬μ§€λ„ λ„€νŠΈμ›Œν¬λ₯Ό μ‚¬μš©ν•˜μ—¬, λΉ„λ””μ˜€ 인풋이 μ•„λ‹Œ 이미지 μΈν’‹μ˜ λ‹€μš΄μŠ€νŠΈλ¦Ό νƒœμŠ€ν¬μ— λ°”λ‘œ 적용이 κ°€λŠ₯ν•˜λ‹€.

이 λ…Όλ¬Έμ—μ„œλŠ” 두 κ°€μ§€ μœ ν˜•μ˜ λΉ„λ””μ˜€ λ„€νŠΈμ›Œν¬ λ””ν”Œλ ˆμ΄μ…˜μ„ κ³ λ €ν•œλ‹€. μ²«λ²ˆμ§ΈλŠ” 3D μ‹œκ³΅κ°„ ν•„ν„°λ₯Ό μ‹œκ°„ 차원에 λŒ€ν•΄ ν•©μ‚°ν•˜μ—¬ 2D ν•„ν„°λ₯Ό κ΅¬λ™ν•˜λŠ” 방식이며, λ‘λ²ˆμ§ΈλŠ” TSM (Temporal Shift Module) λ„€νŠΈμ›Œν¬λΌλŠ” Channel Shifting을 μ—†μ•  이미지λ₯Ό μΈν’‹μœΌλ‘œ ν•˜λŠ” Residual 아킀텍쳐 방식이닀.

4. Experiment & Result

μ‹€ν—˜μ€ μ„Έ κ°€μ§€λ‘œ κ΅¬μ„±λœλ‹€. λ¨Όμ € λ©€ν‹°λͺ¨λ‹¬ λ„€νŠΈμ›Œν¬μ— λŒ€ν•œ λ‹€μ–‘ν•œ 아킀텍쳐λ₯Ό μ‹€ν—˜ν•œλ‹€. 두 λ²ˆμ§ΈλŠ” μ•„ν‚€ν…μ²˜ 비ꡐ κ²°κ³Ό κ°€μž₯ μ„±λŠ₯이 λ›°μ–΄λ‚œ 것을 μ„ νƒν•˜μ—¬ λͺ¨λΈμ„ Scale Upν•˜μ—¬ SOTA 결과와 λΉ„κ΅ν•œλ‹€. λ§ˆμ§€λ§‰μœΌλ‘œ λΉ„λ””μ˜€ 기반으둜 ν•™μŠ΅λœ λ„€νŠΈμ›Œν¬λ₯Ό μ •μ§€λœ 이미지에 μ μš©ν•˜μ—¬ deflation μ ‘κ·Ό λ°©λ²•μ˜ 효과λ₯Ό 보여쀀닀.

Experimental setup, datasets and downstream tasks

  • Network architectures

    • Video

      • Backbone: S3D-G, TSM with a ResNet50, TSM with a ResNet50x2

      • 벑터 fv(xv)f_v(x_v)λ₯Ό μ–»κΈ° μœ„ν•΄ Backbone의 λ§ˆμ§€λ§‰ κ³„μΈ΅μ—μ„œ μ‹œ/곡간 Average Pooling

      • 32개(2번째 μ‹€ν—˜μ˜ 경우 16개) ν”„λ ˆμž„μ„ 10fps둜 μƒ˜ν”Œλ§ν•˜κ³  200 Γ— 200 크둭

      • ν‘œμ€€ Augmentation: λ¬΄μž‘μœ„ 자λ₯΄κΈ°, μˆ˜ν‰ λ’€μ§‘κΈ°, μ‹œκ°„ μƒ˜ν”Œλ§, 크기 λ³€κ²½, 색상 λ³€κ²½

    • Audio

      • 80개의 bin이 μžˆλŠ” log MEL μŠ€νŽ™νŠΈλ‘œκ·Έλž¨μœΌλ‘œ ν‘œν˜„

      • ResNet50으둜 처리

      • ν”„λ ˆμž„κ³Ό μ‹±ν¬ν•˜μ—¬ μƒ˜ν”Œλ§

      • dad_a = 2048 μ°¨μ›μ˜ fa(xa)f_a(x_a) 벑터λ₯Ό μ–»κΈ° μœ„ν•΄ 곡간 Pooling

    • Text

      • λΆˆμš©μ–΄λ₯Ό μ œκ±°ν•˜κ³  μž…λ ₯값을 16λ‹¨μ–΄λ‘œ μ œν•œν•œ ν›„, word2vec을 μ΄μš©ν•˜μ—¬ 300μ°¨μ›μœΌλ‘œ μΆ”μΆœν•œ ν›„ linear layerλ₯Ό μ μš©ν•˜μ—¬ 2048 μ°¨μ›μœΌλ‘œ 맡핑함

      • κ³΅μœ λ˜λŠ” subspace의 차원은 512μž„. μ˜ˆμ™Έμ μœΌλ‘œ FAC(Fine And Coarse) λ””μžμΈμ˜ 경우 Sva\mathcal{S}_{va}(fine)은 512차원, Svat\mathcal{S}_{vat}(coarse)λŠ” 256차원.

  • Hyperparameters & Optimization

    • NCE와 MIL-NCE lossμ—μ„œ 내적을 κ³„μ‚°ν•˜κΈ° 전에 벑터λ₯Ό μ •κ·œν™”

    • softmaxμ—μ„œ temperature Ο„ = 0.07

    • HowTo100M은 10:1, HotTo100M+AudioSet은 1:1둜 loss weight에 κ°€μ€‘μΉ˜

    • Initial learning rate = 0.002, Adam optimizer, warm up step 5K, helf-period cosine schedule

  • Datasets (μžκΈ°μ§€λ„ μ‚¬μ „ν•™μŠ΅μ— μ‚¬μš©)

    • HowTo100M: ASR을 μ΄μš©ν•˜μ—¬ μ˜€λ””μ˜€λ₯Ό ν…μŠ€νŠΈλ‘œ λ³€ν™˜ν•œ 1μ–΅κ°œμ˜ λ‚˜λ ˆμ΄μ…˜λœ λΉ„λ””μ˜€ 클립

    • AudioSet의 ν•™μŠ΅λ°μ΄ν„°: 2백만 개의 λ‹€λ₯Έ 인터넷 λΉ„λ””μ˜€μ—μ„œ κ°€μ Έμ˜¨ 10초 클립으둜 ꡬ성(ν…μŠ€νŠΈ 데이터 μ—†μŒ)

  • Downstream tasks

    μ‹œκ°, μ˜€λ””μ˜€, ν…μŠ€νŠΈ Representation을 ν‰κ°€ν•˜κΈ° μœ„ν•΄ λ‹€μ–‘ν•œ λ‹€μš΄μŠ€νŠΈλ¦Ό νƒœμŠ€ν¬λ₯Ό μ‚¬μš©ν•˜μ˜€λ‹€. μžμ„Έν•œ λ‚΄μš©μ€ μ•„λž˜ ν‘œμ— μ •λ¦¬ν•˜μ˜€λ‹€.

Task
Evaluation
Benchmark (Evaluation Metric)

Action Classification

Visual Representation

UCF101 (top-1 accuracy), HMDB51 (top-1 accuracy), Kinetics600 (top-1 accuracy)

Audio Classification

Audio Representation

ESC-50 (top-1 accuracy), AudioSet (mAP)

Zero-shot text-to-video retrieval

Text-Video Representation

MSRVTT (recall at 10), YouCook2 (recall at 10)

Image Classification

Transfer from video representations to image tasks

PASCAL VOC 2007 (mAP), ImageNet (top-1 and top-5 accuracies)

Results

Design explorations

첫 번째 μ‹€ν—˜μ€ λ©€ν‹°λͺ¨λ‹¬ λ„€νŠΈμ›Œν¬ 섀계 λ³„λ‘œ μ‹€ν—˜ν•˜μ—¬ ν‰κ°€ν•˜μ—¬ κ°€μž₯ λ›°μ–΄λ‚œ λ””μžμΈμ„ μ„ λ³„ν•œλ‹€. μ£Όμš” ν¬μΈνŠΈλŠ” μ„Έ κ°€μ§€ λͺ¨λ‹¬μ„ λͺ¨λ‘ ν•¨κ»˜ ν•™μŠ΅ν•˜λŠ” 것이 두 κ°€μ§€ λͺ¨λ‹¬λ‘œ ν›ˆλ ¨λœ λͺ¨λΈλ³΄λ‹€ μ„±λŠ₯이 μš°μˆ˜ν•˜λ‹€λŠ” 것이닀. μ œμ‹œλœ λ””μžμΈ 쀑 FAC(fine-and-coarse) 방법이 κ°€μž₯ λ›°μ–΄λ‚˜λ‹€.

Large-scale experiments and comparison to the state-of-the-art

SOTA λͺ¨λΈκ³Ό λΉ„κ΅ν•˜κΈ° μœ„ν•΄μ„œ μ•žμ„œ Design explorations μ‹€ν—˜μ—μ„œ 찾은 κ°€μž₯ μš°μˆ˜ν•œ μ•„ν‚€ν…μ²˜λ₯Ό μ„ νƒν•˜μ—¬ λͺ¨λΈμ˜ μ‚¬μ΄μ¦ˆλ₯Ό ν‚€μš΄λ‹€. κ²°κ³Όλ₯Ό 보면 μ œμ•ˆλœ FAC μ–΄ν”„λ‘œμΉ˜κ°€ UCF101, HMDB51, Kinetics600, AudioSet, ESC-50 benchmarksλ₯Ό ν¬ν•¨ν•œ λͺ¨λ“  λ‹€μš΄μŠ€νŠΈλ¦Ό νƒœμŠ€ν¬μ—μ„œ SOTAλ₯Ό λŠ₯κ°€ν•œλ‹€.

Transfer to image tasks via network deflation

Deflation의 효과λ₯Ό ν™•μΈν•˜κΈ° μœ„ν•΄ μ•žμ—μ„œ ν›ˆλ ¨λœ MMV λ„€νŠΈμ›Œν¬λ₯Ό 정적 이미지 νƒœμŠ€ν¬μ— μ μš©ν•œλ‹€. 결과적으둜 deflation λͺ¨λΈμ€ inflated μž…λ ₯(즉, μ •μ§€ 이미지 λŒ€μ‹  전체 λΉ„λ””μ˜€)μ—μ„œ λΉ„λ””μ˜€ λͺ¨λΈκ³Ό 거의 μœ μ‚¬ν•œ μ„±λŠ₯을 보인닀. μ œμ•ˆλœ deflation 방법은 naive deflationλ³΄λ‹€λŠ” μ„±λŠ₯이 μš°μˆ˜ν•˜μ§€λ§Œ 이미지에 λŒ€ν•΄ 자기 지도 ν•™μŠ΅μœΌλ‘œ ν›ˆλ ¨λœ SOTAλͺ¨λΈλ“€μ΄ 이미지 νƒœμŠ€ν¬μ—μ„œ MMV λ„€νŠΈμ›Œν¬λ³΄λ‹€ μ„±λŠ₯이 μ—¬μ „νžˆ λ›°μ–΄λ‚˜λ‹€.

5. Conclusion

이 논문은 λΉ„λ””μ˜€ 데이터에 μ‘΄μž¬ν•˜λŠ” μ‹œκ°, μ˜€λ””μ˜€, ν…μŠ€νŠΈ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό ν•¨κ»˜ μ²˜λ¦¬ν•  수 μžˆλŠ” MMV λ„€νŠΈμ›Œν¬λ₯Ό μ œμ‹œν•œλ‹€. MMV λ„€νŠΈμ›Œν¬λŠ” λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό κ²°ν•©ν•˜μ—¬ joint representationν•¨μœΌλ‘œμ¨ Downstream Taskμ—μ„œ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλ‹€. μ œμ•ˆλœ FAC μ ‘κ·Ό 방식을 μ‚¬μš©ν•˜λ©΄ μ‹œκ° 및 μ˜€λ””μ˜€ λͺ¨λ‹¬λ¦¬ν‹°μ˜ κ³ μ •λ°€ν•œ(fine-grained) ν‘œν˜„μ„ μœ μ§€ν•˜λ©΄μ„œ 비ꡐ적 μ €μ •λ°€μ˜(coarse-grained) ν…μŠ€νŠΈ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό ν•¨κ»˜ μž„λ² λ”©ν•  수 μžˆλ‹€. λ˜ν•œ 이 논문은 동적 λΉ„λ””μ˜€μ™€ 정적 이미지 ν˜•νƒœμ˜ μ‹œκ° 데이터 λͺ¨λ‘λ₯Ό μ²˜λ¦¬ν•  수 μžˆλŠ” MMV λ„€νŠΈμ›Œν¬μ— λŒ€ν•œ μƒˆλ‘œμš΄ λ””ν”Œλ ˆμ΄μ…˜ ν”„λ‘œμ„ΈμŠ€λ„ μ œμ•ˆν•˜μ˜€λ‹€. MMV λ„€νŠΈμ›Œν¬λŠ” μ˜¨λΌμΈμ—μ„œ μ‰½κ²Œ 찾을 수 μžˆλŠ” λ ˆμ΄λΈ”λ§λ˜μ§€ μ•Šμ€ λ‹€λŸ‰μ˜ λΉ„λ””μ˜€ 데이터λ₯Ό 톡해 contrastive lossλ₯Ό μ΄μš©ν•˜μ—¬ 자기 지도 ν•™μŠ΅ λ°©λ²•μœΌλ‘œ ν›ˆλ ¨ν•  수 μžˆλ‹€. μ΄λ ‡κ²Œ ν•™μŠ΅λœ MMV λ„€νŠΈμ›Œν¬λŠ” UCF101, HMDB51, Kinetics600, AudioSet, ESC-50 λ²€μΉ˜λ§ˆν¬μ—μ„œ SOTAλ₯Ό λ‹¬μ„±ν•˜μ˜€λ‹€.

μ£Όμš” 기술적 μ»¨νŠΈλ¦¬λ·°μ…˜μ€ λ‹€μŒκ³Ό κ°™λ‹€. 1) 자기 지도 ν•™μŠ΅ 방법을 기반으둜 λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°κ°„μ˜ μž„λ² λ”© 방법(shared, disjoint, FAC)에 λŒ€ν•œ μ‹€ν—˜ 연ꡬ, 2) λΉ„λ””μ˜€ λ˜λŠ” 정적 이미지λ₯Ό 효율적으둜 μ²˜λ¦¬ν•  수 μžˆλŠ” deflation μ ‘κ·Ό 방법, 3) λ‹€μš΄μŠ€νŠΈλ¦Ό νƒœμŠ€ν¬μ—μ„œμ˜ μš°μˆ˜ν•œ μ„±λŠ₯.

Take home message (였늘의 κ΅ν›ˆ)

데이터에 μ—¬λŸ¬ λͺ¨λ‹¬λ¦¬ν‹°κ°€ μžˆλŠ” 경우 ν•˜λ‚˜λ§Œ μ„ νƒν•˜μ—¬ single-modality learningμ—λ§Œ μ§‘μ€‘ν•˜μ§€ 말고 λͺ¨λ“  λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό ν™œμš©ν•˜μ—¬ λͺ¨λ‹¬λ¦¬ν‹° κ°„μ˜ 관계λ₯Ό μ°Ύκ³  ν™œμš©ν•˜λŠ” 것이 이득이닀!

Author / Reviewer information

Author

μ΅œν˜„μ§„ (Hyunjin Choi)

  • KAIST Software Graduate Program

  • Email: anneshj@kaist.ac.kr

Reviewer

  1. Korean name (English name): Affiliation / Contact information

  2. Korean name (English name): Affiliation / Contact information

  3. …

Reference & Additional materials

  1. Other useful materials

Last updated

Was this helpful?