Multimodal Versatile Network [Kor]
Alayrac et al. / Self-Supervised MultiModal Versatile Networks / NeurIPS 2020
μμ΄λ‘ μ°μΈ 리뷰λ₯Ό μ½μΌλ €λ©΄ μ¬κΈ°λ₯Ό λλ₯΄μΈμ.
1. Problem definition
μ΄ λ Όλ¬Έμ μκ°, μ²κ°, μΈμ΄ μ 보λ₯Ό λͺ¨λ κ°μ§κ³ μλ Multimodal λ°μ΄ν°μΈ λΉλμ€λ₯Ό κΈ°λ°μΌλ‘ μΈ κ°μ§ λͺ¨λ¬λ¦¬ν°(Modality) λͺ¨λμ μ ν©ν λ€νΈμν¬λ₯Ό λ§λ€κ³ μ νλ€.
μ’ λ ꡬ체μ μΌλ‘ νννλ©΄, λΉλμ€ μ Modalityλ₯Ό μΌλ‘ ννν λ, μ΄λ€. λ κ°κ° λΉλμ€μ RGB μ΄λ―Έμ§, μ€λμ€ μν, ν μ€νΈμ ν΄λΉνλ€. κ°μ λΉλμ€ νμ΅μ μ΄ μ£Όμ΄μ§ λ (), λ Όλ¬Έμμλ λ¨Όμ κ° λͺ¨λ¬λ¦¬ν°μ λ§λ μλ² λ© μ μ°Ύκ³ μ νλ€. μ μ μ λ ₯κ°μΌλ‘ λ°μ μ°¨μμ μλ² λ©(vector representation)νλ€.
κ° λͺ¨λ¬λ¦¬ν° μλ² λ©μ΄ λλ©΄, 곡μ (Shared/Joint) 곡κ°μΌλ‘ νμ₯νλ€. 곡μ μλ² λ© κ³΅κ°μ λ‘ ννλλ©°, μ΄ λ μ΄λ€. μ±κΈ λͺ¨λ¬λ¦¬ν° νν(Representation) μ μ‘°μΈνΈ μ€νμ΄μ€ λ‘ ν¬μ¬νλ νλ‘μ μ ν€λ(Projection Head) λ₯Ό μ°Ύλ κ²μ΄ λ λ²μ§Έ λ¬Έμ μ΄λ€. κ²°κ³Όμ μΌλ‘ λ§λ€μ΄μ§λ μ‘°μΈνΈ μλ² λ© λ νμ΅λ λ§΅ν λ₯Ό ν΅ν΄ κ³μ°ν μ μλ€.
κ²°κ΅ μ‘°μΈνΈ μλ² λ©μ λ κ° μ΄μμ λͺ¨λ¬λ¦¬ν°λ₯Ό ν¨κ» μλ² λ©νλ 곡κ°μ΄λ©°, μ΄λ₯Ό νμ©νλ©΄ λͺ¨λ¬λ¦¬ν°κ°μ Searchλ₯Ό κ°νΈνκ² ν μ μλ€λ μ₯μ μ΄ μλ€.
2. Motivation
μΈκ°μ μΈμμ λ©ν°λͺ¨λ¬λ‘ μ΄λ£¨μ΄μ§λ€. λ°λΌμ μ΄λ€ λ°μ΄ν°μμ λμ λ€λ°μ μΌλ‘ μΌμ΄λλ μ¬λ¬ λͺ¨λ¬λ¦¬ν°λ€ κ°μ μ μ©ν κ΄κ³λ₯Ό λμΆνλ©΄ μ΄λ₯Ό νμ©νμ¬ λ¬Όλ¦¬ μΈκ³λ₯Ό λ μ νν(Representation)ν μ μμ κ²μ΄λ€. μ΄λ¬ν μ μ κΈ°μΈνμ¬, μ΄ λ Όλ¬Έμ νΉν λΉλμ€ λ°μ΄ν°μ μ£Όλͺ©νμλ€. λΉλμ€μλ μκ°, μ€λμ€, ν μ€νΈμ μΈ κ°μ§ λ€λ₯Έ λͺ¨λ¬λ€μ΄ μμ°μ€λ½κ² μ‘΄μ¬νλ©° μ΄κ²μ ν΅ν΄ μ¬μΈ΅ μ κ²½λ§(Deep Neural Nets)μ νν νμ΅(Representation Learning)μ μκΈ° μ§λ(Self-supervised) νμ΅ λ°©μμΌλ‘ νλ ¨μ΄ κ°λ₯νλ€. μ΄λ κ² νμ΅λ λ©ν°λͺ¨λ¬ ννμ μ¬λ¬ λͺ¨λ¬λ¦¬ν°μ λ°μ΄ν°λ₯Ό ν¬ν¨νλ λ€μ΄μ€νΈλ¦Ό(Downstream) νμ€ν¬μ μ¬μ©νμ¬ μ±λ₯ ν₯μμ κ°μ Έμ¬ μ μλ€.
Related work
μλ‘ λ€λ₯Έ λͺ¨λ¬λ¦¬ν° κ°μ μ’μ Representationμ μ»μΌλ €λ©΄ μ¬λ¬ μ°κ΅¬ λΆμΌμ ν ν¬λμ κ²°ν©νλ κ²μ΄ νμνλ€. μ΄ λ Όλ¬Έμ Single Modalityλ₯Ό μν μκΈ° μ§λ νμ΅, μκ°-μΈμ΄ / μκ°-μμ± / μκ°-μμ±-ν μ€νΈ νν νμ΅, λΉλμ€μ μ΄λ―Έμ§λ₯Ό ν¨κ» μ²λ¦¬νλ κΈ°λ²κ³Ό κ°μ κΈ°μ‘΄ μ°κ΅¬λ₯Ό μ°Έκ³ νλ€.
single modalityμμμ μκΈ° μ§λ νμ΅
Chen et al.μ μκ° ννμ λμ‘° νμ΅(Contrastive Learning)μ μν κ°λ¨ν νλ μμν¬(SimCLR)λ₯Ό μ μνλ€. SimCLRλ augmentν μ΄λ―Έμ§ κ°μ contrastive lossλ₯Ό μ΄μ©ν μκΈ° μ§λ νμ΅μΌλ‘(κ°μ μ΄λ―Έμ§μμ augmentν μ΄λ―Έμ§λ positive pairλ‘, λ€λ₯Έ μ΄λ―Έμ§μμ augmentν μ΄λ―Έμ§λ negative pairλ‘ μ¬μ©) ImageNet λ²€μΉλ§ν¬μμ λ°μ΄λ κ²°κ³Όλ₯Ό 보μ¬μ€λ€. μ μλ λμΌν μκΈ° μ§λ νμ΅ λ°©λ²μμ μκ°μ μ»μμΌλ©° λ©ν°λͺ¨λ¬ λ€νΈμν¬μ contrastive lossμ λΉμ ν projection headλ₯Ό μ°¨μ©νλ€.
μ΄λ―Έμ§-ν μ€νΈ νν νμ΅
μ΄λ―Έμ§μ ν μ€νΈλ₯Ό νλμ 곡κ°μ μλ² λ©νλ €λ μ°κ΅¬λ κ³μλμ΄ μμΌλ©°, μ΄λ λ λͺ¨λ¬λ¦¬ν°κ°μ large-scale searchκ° κ°λ₯νκ² λ§λ€μλ€. νλμ 곡κ°μ μ΄λ―Έμ§, ν μ€νΈκ° λͺ¨λ μλ² λ©μ΄ κ°λ₯νλ©΄ μ΄ μλ² λ©λ 벑ν°λ€κ°μ dot product κ³μ° λ§μΌλ‘ μ μ¬λλ₯Ό μΈ‘μ ν μ μκΈ° λλ¬Έμ΄λ€. μ΅κ·Όμλ λΉλμ€μμASR(Automatic Speech Recognition)μ ν΅ν΄ λλ μ΄μ μ ν μ€νΈλ‘ λ§λ€μ΄ μκΈ° μ§λ νμ΅μΌλ‘ λ§μ΄ μ¬μ©νκ³ μλ€. μ΄ λ Όλ¬Έμ μ μλ€λ μ΄λ° λ°©λ²λ€μμ μμ΄λμ΄λ₯Ό μ»μ΄ νμ΅μ μ μ©νμλ€.
μ΄λ―Έμ§-μ€λμ€ νν νμ΅
Alwassel et al.μ ν λͺ¨λ¬λ¦¬ν°(μ: μ€λμ€)μ ννμ λ€λ₯Έ λͺ¨λ¬λ¦¬ν°(μ: λΉλμ€)μμ λ°°μ°λ μκΈ° μ§λ νμ΅ λ°©λ²μΈ XDC(Cross-Modal Deep Clustering)λ₯Ό μ μνλ€. μ΄ λ°©λ²μ μ§λ νμ΅ λ°©λ²μ λ₯κ°ν μ±λ₯μ 보μμΌλ, ν μ€νΈ λͺ¨λ¬λ¦¬ν°μ λν κ³ λ €λ νμ§ μμλ€.
μ΄λ―Έμ§-μ€λμ€-ν μ€νΈ νν νμ΅
Aytar et al.μ μκ°, μ리, μΈμ΄μ λν cross-modal CNN λ€νΈμν¬λ₯Ό μ μνμλ€. μ΄λ―Έμ§-ν μ€νΈ κ·Έλ¦¬κ³ μ΄λ―Έμ§-μ리 μμΌλ‘ λ€νΈμν¬λ₯Ό νλ ¨νλ€. μ μμ λ°λ₯΄λ©΄ ν μ€νΈ-μ리 κ°μ ννμ μ§μ μ μΈ νλ ¨ μμ΄ νμ΅ ν¨κ³Όκ° μΌμ΄λλ€κ³ νλ€. ν κ°μ§ λ¨μ μ μ΄λ―Έμ§-ν μ€νΈ μμ νλ ¨νκΈ° μν΄ COCO λ° Visual Genomeμ΄λΌλ μ£Όμμ΄ λ¬λ¦° λ°μ΄ν° μΈνΈλ₯Ό μ¬μ©νλλ°, μμ ν μκΈ° μ§λ νμ΅ λ°©μμ μ¬μ©ν μ μκΈ° λλ¬Έμ΄λ€.
μ΄λ―Έμ§μ λΉλμ€λ₯Ό ν¨κ» μ²λ¦¬νκΈ°
μ΄μ μ μ°κ΅¬μμ μ΄λ―Έμ§μ λΉλμ€λ₯Ό λͺ¨λ μ²λ¦¬νλ μμ μ μΌλ°μ μΌλ‘ μ΄λ―Έμ§ λ€νΈμν¬μμ λΉλμ€ λ€νΈμν¬λ‘ μ΄λνλ€. Girdhar et al.μ μ΄λ―Έμ§ λ°μ΄ν°μ μ μ¬μ νμ΅λ SOTAλͺ¨λΈμ μ¬μ©ν distillation νλ μμν¬λ₯Ό ν΅ν΄ λΉλμ€ representationμ λ°°μ°λ λ°©λ²μ μ μνμλ€. κ·Έλ¬λ λ³Έ λ Όλ¬Έμ μ μλ μΈμμ λν μ°λ¦¬μ μΈμμ΄ μ μ§ μ΄λ―Έμ§λ³΄λ€ λΉλμ€μ λ λΉμ·νκΈ° λλ¬Έμ λΉλμ€μμ λ°°μ°λ κ²μ΄ λ μμ°μ€λ½λ€κ³ λ§νλ€. λ°λΌμ λΉλμ€μ νλ ¨λ λ€νΈμν¬λ₯Ό μ΄λ―Έμ§μ λ°λ‘ μ μ©ν μ μλ λνλ μ΄μ (deflation)μ μ μνλ€.
Idea
μ΄ λ Όλ¬Έμ ν΅μ¬ μμ΄λμ΄λ λ μ΄λΈλμ§ μμ λΉλμ€ λ°μ΄ν°λ₯Ό μ¬μ©νμ¬ μκΈ° μ§λ νμ΅μ κΈ°λ°μΌλ‘ μ΄λμλ μ μ© κ°λ₯ν MMV(Multi Modal Versatile) λ€νΈμν¬μ κ·Έ λ€νΈμν¬μ νμ΅ λ°©λ²μ΄λ€. MMV λ€νΈμν¬λ λ€μ λ€ κ°μ§ μμΉμ λ°λΌ μ€κ³λμλ€. 1) μΈ κ°μ§(μκ°, μ€λμ€, ν μ€νΈ) λͺ¨λ¬λ¦¬ν° μ€ μ΄λ κ²μ΄λ μ λ ₯μΌλ‘ λ°μ μ μμ΄μΌ νλ€. 2) κ° λͺ¨λ¬λ¦¬ν°μ νΉμ±μ λ°μνμ¬ λ°μ΄ν°λ₯Ό μ²λ¦¬ν΄μΌ νλ€(μ: μ€λμ€λ μκ° λͺ¨λ¬λ¦¬ν°κ° ν μ€νΈλ³΄λ€ ν¨μ¬ μ λ°λκ° λμ) (Methodμμ FAC λ€ν¬μν¬μ ν΄λΉ). 3) νλ ¨ μ€ λ³΄μ§ λͺ»ν λ°μ΄ν°μ λν΄μλ λ€λ₯Έ λͺ¨λ¬λ¦¬ν° κ°μ λΉκ΅κ° κ°λ₯ν΄μΌ νλ€. 4) λμ λΉλμ€μ μ μ μ΄λ―Έμ§ ννμ μΈν λͺ¨λμ ν¨μ¨μ μΌλ‘ μ μ©ν μ μμ΄μΌ νλ€ (Methodμμ Deflation κΈ°λ₯μ ν΄λΉ). MMV μ κ·Ό λ°©μμ λΉλμ€ λ°μ΄ν°μ λ μ΄λΈμ λ€λ μμ μ΄ νμνμ§ μλ€. μ΄λ λ΅μ΄ λ¬λ¦° λ°μ΄ν°μ μμ‘΄νλ μ΄μ μ μμ κ³Ό μ°¨λ³ν λλ€.
3. Method
λ Όλ¬Έμμ μ μνλ λ°©λ²μ μλ κ·Έλ¦Όκ³Ό κ°λ€.
Figure 1: λ Όλ¬Έμμ μ μνλ λ©ν°λͺ¨λ¬ λ€νΈμν¬ λμμΈλ€
MMV λ€νΈμν¬μ λͺ©νλ λΉλμ€ λ°μ΄ν°(μ¦, μκ°, μ€λμ€ λ° ν μ€νΈ)μ μΈ κ°μ§ λ€λ₯Έ λ°μ΄ν° λͺ¨λ¬λ¦¬ν°λ€μ μλ―Έμ κ΄κ³(semantic relation)λ₯Ό κ°λ¨νκ² λ΄μ μ κ³μ° ν¨μΌλ‘μ μμλΌμ μλβμ¦, λ€λ₯Έ λͺ¨λ¬λ¦¬ν°κ°μ μ μ¬μ±μ λ΄μ μΌλ‘ κ²μ¬ν μ μλβ곡ν΅μ μλ―Έ λ²‘ν° κ³΅κ°(jointly-shared vector space)μΈ μ embedding νλ κ²μ΄λ€. λͺ©νλ₯Ό λ¬μ±νκΈ° μν΄, μ΄ λ Όλ¬Έμμλ MMV λ€νΈμν¬μ λν μΈ κ°μ§ μν€ν μ²λ₯Ό κ³ λ €νλ€.
"(a) Shared" 곡κ°μμλ μΈ κ°μ§ λͺ¨λ¬λ¦¬ν°κ° 곡λμΌλ‘ 곡μ λ λ¨μΌ λ²‘ν° κ³΅κ° μ embeddingλλ©° λ€λ₯Έ λͺ¨λ¬λ¦¬ν°μμ μ§μ λΉκ΅κ° κ°λ₯νλ€. κ·Έλ¬λ λ¨μ μ λͺ¨λ λͺ¨λ¬λ¦¬ν°κ° λμΌν λ°μ΄ν° μ λ°λ(granularity)λ₯Ό κ°μ§κ³ μλ€κ³ κ°μ νλ©°, λͺ¨λ¬λ¦¬ν° λ³ νΉμ±μ κ³ λ €νμ§ μλλ€λ κ²μ΄λ€.
"(b) Disjoint" 곡κ°μμλ λκ°μ λͺ¨λ¬λ¦¬ν°λ₯Ό 곡μ νλ μκ°-μ€λμ€ κ·Έλ¦¬κ³ μκ°-ν μ€νΈ 곡κ°μΈ μ λ₯Ό κ°κ° νμ΅νλ€. μ΄ μ΅μ μ μλ‘ λ€λ₯Έ λͺ¨λ¬λ¦¬ν°μ νΉμμ±, νΉν κ°κΈ° λ€λ₯Έ μ λ°λλ₯Ό κ³ λ €νμ¬ λκ°μ λ€λ₯Έ 곡μ 곡κ°μ νμ΅νμ§λ§, λ¨μ μ μ€λμ€μ ν μ€νΈ μμμ λ μ΄μ μ§μ λΉκ΅ν μ μλ€λ κ²μ΄λ€.
"(c) FAC"(fine- and coarse-grained, μ¦ κ³ μ λ°κ³Ό μ μ λ°) 곡κ°μμλ λ κ°μ μλ² λ© κ³΅κ°μ λν νμ΅μ μ μνλ€. κ³ μ λ° κ³΅μ κ³΅κ° μμ κ³ μ λ° λͺ¨λ¬λ¦¬ν° μμΈ μκ°κ³Ό μ€λμ€λ₯Ό μλ² λ© νκ³ , μ μ λ° κ³΅μ 곡κ°μΈ μμλ μ μ λ° λͺ¨λ¬λ¦¬ν°μΈ ν μ€νΈλ₯Ό ν¬ν¨νλ€. μκ°κ³Ό μ€λμ€λ μμ μ§μ λΉκ΅ν μ μκ³ , ν μ€νΈλ μμ μκ°κ³Ό μ€λμ€μ λ΄μ μ κ³μ°νμ¬ μ§μ λΉκ΅κ° κ°λ₯νλ€. μ¬κΈ°μ, μμ (νΉμ λ°λ)λ‘ κ°λ μ ν λ§€νμ΄ νμνλ―λ‘ νμ΅μ ν΅ν΄ μμλ΄μΌ νκΈ° λλ¬Έμ FAC μ΅μ μ μΈ μ’ λ₯μ μ¬μΈ΅ μ κ²½λ§μ΄ νμ΅μ΄ νμν λμ "Shared"μ "Disjoint" μ΅μ μ λ¨μ μ μ κ±°νμλ€.
FACλ MMV λ€νΈμν¬μ λͺ©νλ₯Ό λ¬μ±νκΈ° μν μ΅μ μ μν€ν μ³μ΄λ©°, μ΄ λ Όλ¬Έμ Self-supervised λ°©μμΌλ‘ FACλ₯Ό νμ΅νλ λ°©λ²μ λν΄ μ€λͺ νλ€. μ μνλ λ€νΈμν¬λ μΈν°λ·μμ νν μ°Ύμ μμλ λ§μ μμ λΉλμ€ λ°μ΄ν°λ₯Ό νμ©νμ¬ νμ΅ν μ μκΈ° λλ¬Έμ λ μ΄λΈλ§λ λ°μ΄ν°κ° μ ν νμνμ§ μλ€. μ μλ€μ μ΄ λΉλμ€λ₯Ό κ°μ§κ³ λ©ν°λͺ¨λ¬μ© μκΈ°μ§λ νμ΅μ μν Pretext Taskλ₯Ό μ μ νλ λ°©λ²μ μλ €μ€λ€.
μ μλ Self-supervised νμ΅μ νμν λ©ν°λͺ¨λ¬ Contrastive Lossμ μμμ λ€μκ³Ό κ°λ€.
μ¬κΈ°μ μ λ Regularization νλΌλ―Έν°μ΄λ©°, NCE Lossμ MIL-NCE Lossμ λΉμ€μ κ²°μ νλ€. NCEλ noise contrastive estimationμΌλ‘ Contrastive Lossλ₯Ό νμ©νλ€. FACλ negative samplingμ μ¬μ©νλ€. NCEμ MIL-NCE Loss Functionμ λ€μκ³Ό κ°μ΄ μμμΌλ‘ ννλλ€. (MILμ Positive μνκ³Ό Negative μν κ°―μλ₯Ό λ§€μΉμμΌ Lossλ₯Ό κ³μ°νλ Multiple Instance Learningμ λ§νλ€.)
λ§μ§λ§μΌλ‘ MMV λ€νΈμν¬μλ λνλ μ΄μ (Deflation)μ΄λΌλ κΈ°λ₯μ΄ μλλ°, μ΄λ λΉλμ€ λ€νΈμν¬λ₯Ό λ¨μΌ μ΄λ―Έμ§λ₯Ό μΈνμΌλ‘λ λ릴μ μλ λ€νΈμν¬λ‘ λ³ννλ κ²μ΄λ€. Deflatedλ λ€νΈμν¬λ λΉλμ€ λ°μ΄ν°μ νλ ¨λ μ€λ¦¬μ§λ λ€νΈμν¬λ₯Ό μ¬μ©νμ¬, λΉλμ€ μΈνμ΄ μλ μ΄λ―Έμ§ μΈνμ λ€μ΄μ€νΈλ¦Ό νμ€ν¬μ λ°λ‘ μ μ©μ΄ κ°λ₯νλ€.
μ΄ λ Όλ¬Έμμλ λ κ°μ§ μ νμ λΉλμ€ λ€νΈμν¬ λνλ μ΄μ μ κ³ λ €νλ€. 첫λ²μ§Έλ 3D μκ³΅κ° νν°λ₯Ό μκ° μ°¨μμ λν΄ ν©μ°νμ¬ 2D νν°λ₯Ό ꡬλνλ λ°©μμ΄λ©°, λλ²μ§Έλ TSM (Temporal Shift Module) λ€νΈμν¬λΌλ Channel Shiftingμ μμ μ΄λ―Έμ§λ₯Ό μΈνμΌλ‘ νλ Residual μν€ν μ³ λ°©μμ΄λ€.
4. Experiment & Result
μ€νμ μΈ κ°μ§λ‘ ꡬμ±λλ€. λ¨Όμ λ©ν°λͺ¨λ¬ λ€νΈμν¬μ λν λ€μν μν€ν μ³λ₯Ό μ€ννλ€. λ λ²μ§Έλ μν€ν μ² λΉκ΅ κ²°κ³Ό κ°μ₯ μ±λ₯μ΄ λ°μ΄λ κ²μ μ ννμ¬ λͺ¨λΈμ Scale Upνμ¬ SOTA κ²°κ³Όμ λΉκ΅νλ€. λ§μ§λ§μΌλ‘ λΉλμ€ κΈ°λ°μΌλ‘ νμ΅λ λ€νΈμν¬λ₯Ό μ μ§λ μ΄λ―Έμ§μ μ μ©νμ¬ deflation μ κ·Ό λ°©λ²μ ν¨κ³Όλ₯Ό 보μ¬μ€λ€.
Experimental setup, datasets and downstream tasks
Network architectures
Video
Backbone: S3D-G, TSM with a ResNet50, TSM with a ResNet50x2
λ²‘ν° λ₯Ό μ»κΈ° μν΄ Backboneμ λ§μ§λ§ κ³μΈ΅μμ μ/κ³΅κ° Average Pooling
32κ°(2λ²μ§Έ μ€νμ κ²½μ° 16κ°) νλ μμ 10fpsλ‘ μνλ§νκ³ 200 Γ 200 ν¬λ‘
νμ€ Augmentation: 무μμ μλ₯΄κΈ°, μν λ€μ§κΈ°, μκ° μνλ§, ν¬κΈ° λ³κ²½, μμ λ³κ²½
Audio
80κ°μ binμ΄ μλ log MEL μ€ννΈλ‘κ·Έλ¨μΌλ‘ νν
ResNet50μΌλ‘ μ²λ¦¬
νλ μκ³Ό μ±ν¬νμ¬ μνλ§
= 2048 μ°¨μμ 벑ν°λ₯Ό μ»κΈ° μν΄ κ³΅κ° Pooling
Text
λΆμ©μ΄λ₯Ό μ κ±°νκ³ μ λ ₯κ°μ 16λ¨μ΄λ‘ μ νν ν, word2vecμ μ΄μ©νμ¬ 300μ°¨μμΌλ‘ μΆμΆν ν linear layerλ₯Ό μ μ©νμ¬ 2048 μ°¨μμΌλ‘ λ§΅νν¨
곡μ λλ subspaceμ μ°¨μμ 512μ. μμΈμ μΌλ‘ FAC(Fine And Coarse) λμμΈμ κ²½μ° (fine)μ 512μ°¨μ, (coarse)λ 256μ°¨μ.
Hyperparameters & Optimization
NCEμ MIL-NCE lossμμ λ΄μ μ κ³μ°νκΈ° μ μ 벑ν°λ₯Ό μ κ·ν
softmaxμμ temperature Ο = 0.07
HowTo100Mμ 10:1, HotTo100M+AudioSetμ 1:1λ‘ loss weightμ κ°μ€μΉ
Initial learning rate = 0.002, Adam optimizer, warm up step 5K, helf-period cosine schedule
Datasets (μκΈ°μ§λ μ¬μ νμ΅μ μ¬μ©)
HowTo100M: ASRμ μ΄μ©νμ¬ μ€λμ€λ₯Ό ν μ€νΈλ‘ λ³νν 1μ΅κ°μ λλ μ΄μ λ λΉλμ€ ν΄λ¦½
AudioSetμ νμ΅λ°μ΄ν°: 2λ°±λ§ κ°μ λ€λ₯Έ μΈν°λ· λΉλμ€μμ κ°μ Έμ¨ 10μ΄ ν΄λ¦½μΌλ‘ ꡬμ±(ν μ€νΈ λ°μ΄ν° μμ)
Downstream tasks
μκ°, μ€λμ€, ν μ€νΈ Representationμ νκ°νκΈ° μν΄ λ€μν λ€μ΄μ€νΈλ¦Ό νμ€ν¬λ₯Ό μ¬μ©νμλ€. μμΈν λ΄μ©μ μλ νμ μ 리νμλ€.
Action Classification
Visual Representation
UCF101 (top-1 accuracy), HMDB51 (top-1 accuracy), Kinetics600 (top-1 accuracy)
Audio Classification
Audio Representation
ESC-50 (top-1 accuracy), AudioSet (mAP)
Zero-shot text-to-video retrieval
Text-Video Representation
MSRVTT (recall at 10), YouCook2 (recall at 10)
Image Classification
Transfer from video representations to image tasks
PASCAL VOC 2007 (mAP), ImageNet (top-1 and top-5 accuracies)
Results
Design explorations
첫 λ²μ§Έ μ€νμ λ©ν°λͺ¨λ¬ λ€νΈμν¬ μ€κ³ λ³λ‘ μ€ννμ¬ νκ°νμ¬ κ°μ₯ λ°μ΄λ λμμΈμ μ λ³νλ€. μ£Όμ ν¬μΈνΈλ μΈ κ°μ§ λͺ¨λ¬μ λͺ¨λ ν¨κ» νμ΅νλ κ²μ΄ λ κ°μ§ λͺ¨λ¬λ‘ νλ ¨λ λͺ¨λΈλ³΄λ€ μ±λ₯μ΄ μ°μνλ€λ κ²μ΄λ€. μ μλ λμμΈ μ€ FAC(fine-and-coarse) λ°©λ²μ΄ κ°μ₯ λ°μ΄λλ€.
Large-scale experiments and comparison to the state-of-the-art
SOTA λͺ¨λΈκ³Ό λΉκ΅νκΈ° μν΄μ μμ Design explorations μ€νμμ μ°Ύμ κ°μ₯ μ°μν μν€ν μ²λ₯Ό μ ννμ¬ λͺ¨λΈμ μ¬μ΄μ¦λ₯Ό ν€μ΄λ€. κ²°κ³Όλ₯Ό 보면 μ μλ FAC μ΄νλ‘μΉκ° UCF101, HMDB51, Kinetics600, AudioSet, ESC-50 benchmarksλ₯Ό ν¬ν¨ν λͺ¨λ λ€μ΄μ€νΈλ¦Ό νμ€ν¬μμ SOTAλ₯Ό λ₯κ°νλ€.
Transfer to image tasks via network deflation
Deflationμ ν¨κ³Όλ₯Ό νμΈνκΈ° μν΄ μμμ νλ ¨λ MMV λ€νΈμν¬λ₯Ό μ μ μ΄λ―Έμ§ νμ€ν¬μ μ μ©νλ€. κ²°κ³Όμ μΌλ‘ deflation λͺ¨λΈμ inflated μ λ ₯(μ¦, μ μ§ μ΄λ―Έμ§ λμ μ 체 λΉλμ€)μμ λΉλμ€ λͺ¨λΈκ³Ό κ±°μ μ μ¬ν μ±λ₯μ 보μΈλ€. μ μλ deflation λ°©λ²μ naive deflation보λ€λ μ±λ₯μ΄ μ°μνμ§λ§ μ΄λ―Έμ§μ λν΄ μκΈ° μ§λ νμ΅μΌλ‘ νλ ¨λ SOTAλͺ¨λΈλ€μ΄ μ΄λ―Έμ§ νμ€ν¬μμ MMV λ€νΈμν¬λ³΄λ€ μ±λ₯μ΄ μ¬μ ν λ°μ΄λλ€.
5. Conclusion
μ΄ λ Όλ¬Έμ λΉλμ€ λ°μ΄ν°μ μ‘΄μ¬νλ μκ°, μ€λμ€, ν μ€νΈ λͺ¨λ¬λ¦¬ν°λ₯Ό ν¨κ» μ²λ¦¬ν μ μλ MMV λ€νΈμν¬λ₯Ό μ μνλ€. MMV λ€νΈμν¬λ λͺ¨λ¬λ¦¬ν°λ₯Ό κ²°ν©νμ¬ joint representationν¨μΌλ‘μ¨ Downstream Taskμμ μ±λ₯μ ν₯μμν¬ μ μλ€. μ μλ FAC μ κ·Ό λ°©μμ μ¬μ©νλ©΄ μκ° λ° μ€λμ€ λͺ¨λ¬λ¦¬ν°μ κ³ μ λ°ν(fine-grained) ννμ μ μ§νλ©΄μ λΉκ΅μ μ μ λ°μ(coarse-grained) ν μ€νΈ λͺ¨λ¬λ¦¬ν°λ₯Ό ν¨κ» μλ² λ©ν μ μλ€. λν μ΄ λ Όλ¬Έμ λμ λΉλμ€μ μ μ μ΄λ―Έμ§ ννμ μκ° λ°μ΄ν° λͺ¨λλ₯Ό μ²λ¦¬ν μ μλ MMV λ€νΈμν¬μ λν μλ‘μ΄ λνλ μ΄μ νλ‘μΈμ€λ μ μνμλ€. MMV λ€νΈμν¬λ μ¨λΌμΈμμ μ½κ² μ°Ύμ μ μλ λ μ΄λΈλ§λμ§ μμ λ€λμ λΉλμ€ λ°μ΄ν°λ₯Ό ν΅ν΄ contrastive lossλ₯Ό μ΄μ©νμ¬ μκΈ° μ§λ νμ΅ λ°©λ²μΌλ‘ νλ ¨ν μ μλ€. μ΄λ κ² νμ΅λ MMV λ€νΈμν¬λ UCF101, HMDB51, Kinetics600, AudioSet, ESC-50 λ²€μΉλ§ν¬μμ SOTAλ₯Ό λ¬μ±νμλ€.
μ£Όμ κΈ°μ μ 컨νΈλ¦¬λ·°μ μ λ€μκ³Ό κ°λ€. 1) μκΈ° μ§λ νμ΅ λ°©λ²μ κΈ°λ°μΌλ‘ λ€λ₯Έ λͺ¨λ¬λ¦¬ν°κ°μ μλ² λ© λ°©λ²(shared, disjoint, FAC)μ λν μ€ν μ°κ΅¬, 2) λΉλμ€ λλ μ μ μ΄λ―Έμ§λ₯Ό ν¨μ¨μ μΌλ‘ μ²λ¦¬ν μ μλ deflation μ κ·Ό λ°©λ², 3) λ€μ΄μ€νΈλ¦Ό νμ€ν¬μμμ μ°μν μ±λ₯.
Take home message (μ€λμ κ΅ν)
λ°μ΄ν°μ μ¬λ¬ λͺ¨λ¬λ¦¬ν°κ° μλ κ²½μ° νλλ§ μ ννμ¬ single-modality learningμλ§ μ§μ€νμ§ λ§κ³ λͺ¨λ λͺ¨λ¬λ¦¬ν°λ₯Ό νμ©νμ¬ λͺ¨λ¬λ¦¬ν° κ°μ κ΄κ³λ₯Ό μ°Ύκ³ νμ©νλ κ²μ΄ μ΄λμ΄λ€!
Author / Reviewer information
Author
μ΅νμ§ (Hyunjin Choi)
KAIST Software Graduate Program
Email: anneshj@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
β¦
Reference & Additional materials
Other useful materials
Original Paper
Last updated
Was this helpful?