BlockDrop [Kor]
Wu et al. / BlockDrop - Dynamic Inference Paths in Residual Networks / CVPR 2018
1. Problem definition
μ΅κ·Ό λ₯λ¬λ λͺ¨λΈλ€μ μ νλκ° ν¬κ² ν₯μλλ©° λ€μν datasetμμ ν° μ±κ³Όλ₯Ό μ΄λ£¨μμ΅λλ€. κ·Έλ¬λ μ΄λ¬ν λͺ¨λΈλ€μ μμ¨ μ£Όν, λͺ¨λ°μΌ μ€μκ° μνΈμμ©κ³Ό κ°μ μ€μ νκ²½μμ μ μ©λκΈ°κ° νλ€λ€λ λ¬Έμ μ μ κ°μ§κ³ μμμ΅λλ€. κ·Έ μ΄μ λ λμ μ νλλ₯Ό μν΄μλ λ κΉκ³ 볡μ‘ν λ€νΈμν¬ κ΅¬μ‘°λ₯Ό μ μ§ν΄μΌ νλλ°, λ€νΈμν¬λ₯Ό 볡μ‘νκ² μ μ§νλ©΄μ μ€μκ° μ λμ λΉ λ₯Έ μλλ₯Ό μ μ§νλ κ²μ΄ μ½μ§ μκΈ° λλ¬Έμ λλ€. μ΄μ λ°λΌ μ¬λ¬ λͺ¨λΈ κ²½λν κΈ°λ²λ€μ΄ μ μλμμΌλ, ν΄λΉ λ Όλ¬Έμμλ μ΄λ¬ν λ€νΈμν¬μ κ΅¬μ‘°κ° one-size-fits-all λ€νΈμν¬ κ΅¬μ‘°λΌλ μ μ λ¬Έμ μ μΌλ‘ μ§μ νμμ΅λλ€. (One size fits all)
2. Motivation
μΈκ°μ μΈμ μμ€ν μ μ¬λ¬Ό μΈμμ νλμ κΈ°μ€λλ‘ νλ κ²μ΄ μλλΌ, μ¬λ¬Όμ μ’ λ₯λ μ£Όλ³μ λ°°κ²½μ λ°λΌ μκ°κ³Ό μ€μλλ₯Ό λ€λ₯΄κ² λ°°μ ν©λλ€. μλ₯Ό λ€μ΄, 볡μ‘ν μν©κ³Ό 물체λ₯Ό μΈμν΄μΌ ν κ²½μ°μλ νμλ³΄λ€ λ§μ μκ°κ³Ό κ΄μ¬μ 무μμμ€μ λ ν¬κ² ν μ νκ³ , κ°λ¨ν μ€μΊμΌλ‘ ν΄κ²°ν μ μλ κ²½μ°μλ ν° μκ°κ³Ό κ΄μ¬μ λμ§ μμ΅λλ€. μ΄λ¬ν λ§₯λ½μμ, λ³Έ λ Όλ¬Έμ μΈν μ΄λ―Έμ§μ λΆλ₯ λμ΄λμ λ°λΌ λ€νΈμν¬μ λ μ΄μ΄λ₯Ό μ νμ μΌλ‘ μ κ±°νλ BlockDrop [1] κΈ°λ²μ μ μν©λλ€.
ResNetμ λ κ° μ΄μμ 컨볼루μ λ μ΄μ΄λ‘ ꡬμ±λ 리μ¬μ΄μ₯¬μΌ λΈλ‘κ³Ό, λ λΈλ‘ μ¬μ΄μ μ§μ κ²½λ‘λ₯Ό κ°λ₯νκ² νλ Skip-connectionμΌλ‘ ꡬμ±λμ΄ μμ΅λλ€. μ΄λ¬ν Skip-connectionμ, ResNetμ΄ λμν λ μλμ μΌλ‘ μμ λ€νΈμν¬μ μμλΈμ²λΌ μλνλλ‘ νμ¬ ResNetμ νΉμ 리μ¬μ΄μ₯¬μΌ λΈλ‘μ΄ μ κ±°λλ κ²½μ°μλ μΌλ°μ μΌλ‘ μ 체 μ±λ₯μ μ½κ°μ λΆμ μ μΈ μν₯λ§ κ°μ Έμ¬ μ μλλ‘ ν©λλ€.
ννΈ, Residual Networkμ λ μ΄μ΄λ₯Ό μ κ±° (drop) νλ κ²μ μΌλ°μ μΌλ‘ Dropout [2] κ³Ό DropConnect [3] μ κ°μ΄ λͺ¨λΈμ νμ΅νλ κ³Όμ μμ μ΄λ£¨μ΄μ§λλ€. μ΄λ¬ν λ°©λ²λ€μ λͺ¨λ μΈνΌλ°μ€ κ³Όμ μμλ λ μ΄μ΄λ₯Ό dropνμ§ μκ³ κ³ μ μν¨ μ±λ‘ μ€νμ μ§νν©λλ€. λ§μ½ μΈνΌλ°μ€ κ³Όμ μμ λ μ΄μ΄λ₯Ό ν¨μ¨μ μΌλ‘ dropνλ€λ©΄ μ±λ₯μ κ±°μ μ μ§ν μ±λ‘ μΈνΌλ°μ€ κ³Όμ μμ Speed upμ κΈ°λν μ μμ΅λλ€. λ³Έ λ Όλ¬Έμμλ μλ κ°μ μ λͺ©νλ‘ λ μ΄μ΄λ₯Ό μΈν μ΄λ―Έμ§μ λ°λΌ ν¨μ¨μ μΌλ‘ λλνλ μ°κ΅¬λ₯Ό μ§νν©λλ€.
Related work
Residual Networks Behave Like Ensembles of Relatively Shallow Networks [4]
μ λ Όλ¬Έμμλ ResNetμ΄ ν μ€νΈ κ³Όμ μμ layer droppingμ resilientνλ€λ κ²μ 보μμ΅λλ€. κ·Έλ¬λ μ±λ₯ μ νλ μ΅μννλ©΄μ λ μ΄μ΄λ₯Ό μ κ±°ν μ μλ dynamicν λ°©λ²μ λ Όλ¬Έμμ ꡬ체μ μΌλ‘ μ μλμ§ μμμ΅λλ€. λ°λ©΄, Data-Driven Sparse Structure Selection for Deep Neural Networks [5] λ Όλ¬Έμμλ Sparsity constraintλ₯Ό νμ©νμ¬ μ΄λ€ 리μ¬μ΄μ₯¬μΌ λΈλ‘μ μ κ±°ν κ²μΈμ§ κ²°μ νλ λ°©λ²μ μ μνμμ΅λλ€. κ·Έλ¬λ μ£Όμ΄μ§ μΈν μ΄λ―Έμ§μ dependentνκ², μ¦ instance-specificνκ² μ΄λ€ λΈλ‘μ μ κ±°ν κ²μΈμ§ κ²°μ νλ λ°©λ²μ μ μνμ§λ λͺ»νμμ΅λλ€.
Idea
μ΅μ μ block dropping ꡬ쑰λ₯Ό μ°ΎκΈ° μν΄ ν΄λΉ λ Όλ¬Έμ reinforcement learningμ νμ©ν©λλ€. κ°ννμ΅μ ν΅ν΄ μ£Όμ΄μ§ μ΄λ―Έμ§μ μ μ ν λΈλ‘ ꡬμ±μ μ°Ύμλ΄μ£Όλ binary vectorλ₯Ό μμ±νκ³ , μ΄λ₯Ό ν΅ν΄ ν΄λΉ λ Όλ¬Έμ μΈνΌλ°μ€ κ³Όμ μμ μ±λ₯ μ νκ° κ±°μ μλ μνλ‘ speed upμ μ΄λ€λ λλ€.
3. Method
μ λ ₯ μ΄λ―Έμ§κ° μ£Όμ΄μ‘μ λ μ΅μ μ block dropping μ λ΅μ μ°ΎκΈ° μν΄μ ν΄λΉ λ Όλ¬Έμ binary policy vectorλ₯Ό μΆλ ₯νλ policy networkλ₯Ό ꡬμ±ν©λλ€. νμ΅ κ³Όμ μμ 리μλλ block usageμ μμΈ‘ μ νλλ₯Ό λͺ¨λ κ³ λ €νμ¬ κ²°μ λ©λλ€.
μΌλ°μ μΈ κ°ννμ΅κ³Όλ λ€λ₯΄κ², ν΄λΉ λ Όλ¬Έμ all actions at once λ°©μμΌλ‘ μ μ± μ νμ΅ν©λλ€. μ λ ₯ μ΄λ―Έμ§ xμ Kκ°μ λΈλ‘μ κ°μ§λ ResNetμ΄ μμ λ, block dropping μ μ± μ λ€μκ³Ό κ°μ΄ Kμ°¨μμ λ² λ₯΄λμ΄ λΆν¬λ‘ μ μλ©λλ€.
μ μμμ fλ policy networkμ ν΄λΉνκ³ , μ΄μ λ°λ₯Έ sλ νΉμ λΈλ‘μ΄ dropλ likelihoodλ₯Ό μλ―Έν©λλ€. μ΄ κ²½μ°μ uλ 0 λλ 1μ κ°μ κ°μ§λ drop μ¬λΆλ₯Ό λ°μ§λ actionμ μλ―Έν©λλ€. ν¨μ¨μ μΈ block usageμ λμμ μ νλλ₯Ό λμ΄κΈ° μν΄μ μλμ κ°μ reward functionμ μ€μ ν©λλ€.
리μλ μμμ 첫째μ€μ μ 체 λΈλ‘ μ€μμ λλλ λΈλ‘μ λΉμ¨μ μλ―Έν©λλ€. μ΄λ, μμ κ°μ ννλ‘ μ μ μμ λΈλ‘μ μ¬μ©νλ μ μ± μ ν° λ¦¬μλλ₯Ό μ£Όμ΄μ block droppingμ κΆμ₯νλ λ°©ν₯μΌλ‘ νμ΅μ΄ μ§νλ©λλ€. λν, 리μλ μμμ λμ§Έμ€μ νλ¦° μμΈ‘μ ν΄λΉνλ κ²½μ°λ₯Ό μλ―Ένλλ°, μ΄λ νλ¦° μμΈ‘μ λν΄ κ°λ§μ νλν°λ₯Ό μ£Όμ΄μ μ νλλ₯Ό λμ΄λ λ°©ν₯μΌλ‘ νμ΅μ΄ μ§νλκ² ν©λλ€.
4. Experiment & Result
Experimental Setup
CIFAR-10, CIFAR-100μ κ²½μ° pretrained resnetμ resnet-32μ resnet-110μΌλ‘ μ€νμ΄ μ§νλμμΌλ©°, ImageNetμ κ²½μ° pretrained resnetμ resnet-101μΌλ‘ μ€νμ΄ μ§νλμμ΅λλ€. Policy Networkμ κ²½μ° CIFARμ λν΄μλ resnet-8μ μ¬μ©νμκ³ ImageNetμ λν΄μλ resnet-10μ μ¬μ©νμλλ°, ImageNetμμλ input imageλ₯Ό 112x112λ‘ downsamplingνμ¬ policy networkμ μ λ¬νμμ΅λλ€.
Result
ν΄λΉ λ Όλ¬Έμ μμλ‘ residual blockμ dropμν¨ random λ°©λ²κ³Ό μμμ μμ μλ residual blockμ drop μν¨ first λ°©λ² λ±μ baselineμΌλ‘ νκ³ λ³Έ λ Όλ¬Έμμ μ μνλ BlockDrop λ°©λ²κ³Όμ μ±λ₯μ λΉκ΅νμμ΅λλ€. CIFAR-10μμ ResNet-32λ₯Ό pretrained backboneμΌλ‘ νλ κ²½μ° Full ResNetμ μ±λ₯(accuracy)μ΄ 92.3μ΄μλ€λ©΄ FirstKλ 16.6μ μ±λ₯μ 보μκ³ RandomKλ 20.5μ μ±λ₯μ 보μμΌλ©° BlockDropμ 88.6μ μ±λ₯μ 보μμ΅λλ€.
μΈνΌλ°μ€ κ³Όμ μμμ μλ κ°μ μ λν μ€ν κ²°κ³Όλ λ€μκ³Ό κ°μ΅λλ€. λͺ¨λΈ κ²½λν κΈ°λ² μ€μμ ACT, SACT, PFEC, LCCLμ baseline λͺ¨λΈλ‘ νμ¬ FLOPs-accuracy 컀λΈλ₯Ό λΉκ΅νμμΌλ©°, SACTμ λμΌ μμ€μ μ νλλ₯Ό μ μ§νκΈ° μν΄μ 50%μ FLOPsλ§μ νμλ‘ νλ κ²μ νμΈνμμ΅λλ€.
5. Conclusion
λ³Έ λ Όλ¬Έμ ResNetμ νμ©ν λ λ λΉ λ₯Έ μλλ‘ inferenceν μ μλλ‘ Residual Blockμ instance specificνκ² dropνλ BlockDropμ μ μνμκ³ CIFAR λ° ImageNetμ λν κ΄λ²μν μ€νμ μννμ¬ efficiency-accuracy trade-offμμ μλΉν μ΄μ μ΄ μμμ κ΄μ°°νμμ΅λλ€. λν μλμ κ²°κ³Όλ₯Ό ν΅ν΄ BlockDropμ policyκ° μ΄λ―Έμ§μ semanticν informationμ μ±κ³΅μ μΌλ‘ μΈμ½λ©νλ€λ κ²μ νμΈνμμ΅λλ€.
Take home message (μ€λμ κ΅ν)
μ΄ λ Όλ¬Έμ inference μλ ν₯μμ μν΄ instance specificνκ² residual blockμ dropνλ λ°©λ²μ RL κΈ°λ°μΌλ‘ νμ©νμμ΅λλ€.
Author / Reviewer information
Author
μ΄νμ (Hyunsu Rhee)
KAIST AI
ryanrhee@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
β¦
Reference & Additional materials
Last updated
Was this helpful?