BlockDrop [Kor]
Wu et al. / BlockDrop - Dynamic Inference Paths in Residual Networks / CVPR 2018
1. Problem definition
์ต๊ทผ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ์ ํ๋๊ฐ ํฌ๊ฒ ํฅ์๋๋ฉฐ ๋ค์ํ dataset์์ ํฐ ์ฑ๊ณผ๋ฅผ ์ด๋ฃจ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์์จ ์ฃผํ, ๋ชจ๋ฐ์ผ ์ค์๊ฐ ์ํธ์์ฉ๊ณผ ๊ฐ์ ์ค์ ํ๊ฒฝ์์ ์ ์ฉ๋๊ธฐ๊ฐ ํ๋ค๋ค๋ ๋ฌธ์ ์ ์ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ๊ทธ ์ด์ ๋ ๋์ ์ ํ๋๋ฅผ ์ํด์๋ ๋ ๊น๊ณ ๋ณต์กํ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ ์งํด์ผ ํ๋๋ฐ, ๋คํธ์ํฌ๋ฅผ ๋ณต์กํ๊ฒ ์ ์งํ๋ฉด์ ์ค์๊ฐ ์ ๋์ ๋น ๋ฅธ ์๋๋ฅผ ์ ์งํ๋ ๊ฒ์ด ์ฝ์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด์ ๋ฐ๋ผ ์ฌ๋ฌ ๋ชจ๋ธ ๊ฒฝ๋ํ ๊ธฐ๋ฒ๋ค์ด ์ ์๋์์ผ๋, ํด๋น ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋คํธ์ํฌ์ ๊ตฌ์กฐ๊ฐ one-size-fits-all ๋คํธ์ํฌ ๊ตฌ์กฐ๋ผ๋ ์ ์ ๋ฌธ์ ์ ์ผ๋ก ์ง์ ํ์์ต๋๋ค. (One size fits all)
2. Motivation
์ธ๊ฐ์ ์ธ์ ์์คํ ์ ์ฌ๋ฌผ ์ธ์์ ํ๋์ ๊ธฐ์ค๋๋ก ํ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌผ์ ์ข ๋ฅ๋ ์ฃผ๋ณ์ ๋ฐฐ๊ฒฝ์ ๋ฐ๋ผ ์๊ฐ๊ณผ ์ค์๋๋ฅผ ๋ค๋ฅด๊ฒ ๋ฐฐ์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ณต์กํ ์ํฉ๊ณผ ๋ฌผ์ฒด๋ฅผ ์ธ์ํด์ผ ํ ๊ฒฝ์ฐ์๋ ํ์๋ณด๋ค ๋ง์ ์๊ฐ๊ณผ ๊ด์ฌ์ ๋ฌด์์์ค์ ๋ ํฌ๊ฒ ํ ์ ํ๊ณ , ๊ฐ๋จํ ์ค์บ์ผ๋ก ํด๊ฒฐํ ์ ์๋ ๊ฒฝ์ฐ์๋ ํฐ ์๊ฐ๊ณผ ๊ด์ฌ์ ๋์ง ์์ต๋๋ค. ์ด๋ฌํ ๋งฅ๋ฝ์์, ๋ณธ ๋ ผ๋ฌธ์ ์ธํ ์ด๋ฏธ์ง์ ๋ถ๋ฅ ๋์ด๋์ ๋ฐ๋ผ ๋คํธ์ํฌ์ ๋ ์ด์ด๋ฅผ ์ ํ์ ์ผ๋ก ์ ๊ฑฐํ๋ BlockDrop [1] ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค.
ResNet์ ๋ ๊ฐ ์ด์์ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋ ๋ฆฌ์ฌ์ด์ฅฌ์ผ ๋ธ๋ก๊ณผ, ๋ ๋ธ๋ก ์ฌ์ด์ ์ง์ ๊ฒฝ๋ก๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ Skip-connection์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ด๋ฌํ Skip-connection์, ResNet์ด ๋์ํ ๋ ์๋์ ์ผ๋ก ์์ ๋คํธ์ํฌ์ ์์๋ธ์ฒ๋ผ ์๋ํ๋๋ก ํ์ฌ ResNet์ ํน์ ๋ฆฌ์ฌ์ด์ฅฌ์ผ ๋ธ๋ก์ด ์ ๊ฑฐ๋๋ ๊ฒฝ์ฐ์๋ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฒด ์ฑ๋ฅ์ ์ฝ๊ฐ์ ๋ถ์ ์ ์ธ ์ํฅ๋ง ๊ฐ์ ธ์ฌ ์ ์๋๋ก ํฉ๋๋ค.
ํํธ, Residual Network์ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐ (drop) ํ๋ ๊ฒ์ ์ผ๋ฐ์ ์ผ๋ก Dropout [2] ๊ณผ DropConnect [3] ์ ๊ฐ์ด ๋ชจ๋ธ์ ํ์ตํ๋ ๊ณผ์ ์์ ์ด๋ฃจ์ด์ง๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ ์ธํผ๋ฐ์ค ๊ณผ์ ์์๋ ๋ ์ด์ด๋ฅผ dropํ์ง ์๊ณ ๊ณ ์ ์ํจ ์ฑ๋ก ์คํ์ ์งํํฉ๋๋ค. ๋ง์ฝ ์ธํผ๋ฐ์ค ๊ณผ์ ์์ ๋ ์ด์ด๋ฅผ ํจ์จ์ ์ผ๋ก dropํ๋ค๋ฉด ์ฑ๋ฅ์ ๊ฑฐ์ ์ ์งํ ์ฑ๋ก ์ธํผ๋ฐ์ค ๊ณผ์ ์์ Speed up์ ๊ธฐ๋ํ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์๋ ๊ฐ์ ์ ๋ชฉํ๋ก ๋ ์ด์ด๋ฅผ ์ธํ ์ด๋ฏธ์ง์ ๋ฐ๋ผ ํจ์จ์ ์ผ๋ก ๋๋ํ๋ ์ฐ๊ตฌ๋ฅผ ์งํํฉ๋๋ค.
Related work
Residual Networks Behave Like Ensembles of Relatively Shallow Networks [4]
์ ๋ ผ๋ฌธ์์๋ ResNet์ด ํ ์คํธ ๊ณผ์ ์์ layer dropping์ resilientํ๋ค๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฑ๋ฅ ์ ํ๋ ์ต์ํํ๋ฉด์ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ ์ ์๋ dynamicํ ๋ฐฉ๋ฒ์ ๋ ผ๋ฌธ์์ ๊ตฌ์ฒด์ ์ผ๋ก ์ ์๋์ง ์์์ต๋๋ค. ๋ฐ๋ฉด, Data-Driven Sparse Structure Selection for Deep Neural Networks [5] ๋ ผ๋ฌธ์์๋ Sparsity constraint๋ฅผ ํ์ฉํ์ฌ ์ด๋ค ๋ฆฌ์ฌ์ด์ฅฌ์ผ ๋ธ๋ก์ ์ ๊ฑฐํ ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฃผ์ด์ง ์ธํ ์ด๋ฏธ์ง์ dependentํ๊ฒ, ์ฆ instance-specificํ๊ฒ ์ด๋ค ๋ธ๋ก์ ์ ๊ฑฐํ ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ง๋ ๋ชปํ์์ต๋๋ค.
Idea
์ต์ ์ block dropping ๊ตฌ์กฐ๋ฅผ ์ฐพ๊ธฐ ์ํด ํด๋น ๋ ผ๋ฌธ์ reinforcement learning์ ํ์ฉํฉ๋๋ค. ๊ฐํํ์ต์ ํตํด ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ์ ์ ํ ๋ธ๋ก ๊ตฌ์ฑ์ ์ฐพ์๋ด์ฃผ๋ binary vector๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ํตํด ํด๋น ๋ ผ๋ฌธ์ ์ธํผ๋ฐ์ค ๊ณผ์ ์์ ์ฑ๋ฅ ์ ํ๊ฐ ๊ฑฐ์ ์๋ ์ํ๋ก speed up์ ์ด๋ค๋ ๋๋ค.
3. Method
์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ ์ต์ ์ block dropping ์ ๋ต์ ์ฐพ๊ธฐ ์ํด์ ํด๋น ๋ ผ๋ฌธ์ binary policy vector๋ฅผ ์ถ๋ ฅํ๋ policy network๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ํ์ต ๊ณผ์ ์์ ๋ฆฌ์๋๋ block usage์ ์์ธก ์ ํ๋๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ๊ฒฐ์ ๋ฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๊ฐํํ์ต๊ณผ๋ ๋ค๋ฅด๊ฒ, ํด๋น ๋ ผ๋ฌธ์ all actions at once ๋ฐฉ์์ผ๋ก ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง x์ K๊ฐ์ ๋ธ๋ก์ ๊ฐ์ง๋ ResNet์ด ์์ ๋, block dropping ์ ์ฑ ์ ๋ค์๊ณผ ๊ฐ์ด K์ฐจ์์ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ก ์ ์๋ฉ๋๋ค.
์ ์์์ f๋ policy network์ ํด๋นํ๊ณ , ์ด์ ๋ฐ๋ฅธ s๋ ํน์ ๋ธ๋ก์ด drop๋ likelihood๋ฅผ ์๋ฏธํฉ๋๋ค. ์ด ๊ฒฝ์ฐ์ u๋ 0 ๋๋ 1์ ๊ฐ์ ๊ฐ์ง๋ drop ์ฌ๋ถ๋ฅผ ๋ฐ์ง๋ action์ ์๋ฏธํฉ๋๋ค. ํจ์จ์ ์ธ block usage์ ๋์์ ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด์ ์๋์ ๊ฐ์ reward function์ ์ค์ ํฉ๋๋ค.
๋ฆฌ์๋ ์์์ ์ฒซ์งธ์ค์ ์ ์ฒด ๋ธ๋ก ์ค์์ ๋๋๋ ๋ธ๋ก์ ๋น์จ์ ์๋ฏธํฉ๋๋ค. ์ด๋, ์์ ๊ฐ์ ํํ๋ก ์ ์ ์์ ๋ธ๋ก์ ์ฌ์ฉํ๋ ์ ์ฑ ์ ํฐ ๋ฆฌ์๋๋ฅผ ์ฃผ์ด์ block dropping์ ๊ถ์ฅํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค. ๋ํ, ๋ฆฌ์๋ ์์์ ๋์งธ์ค์ ํ๋ฆฐ ์์ธก์ ํด๋นํ๋ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธํ๋๋ฐ, ์ด๋ ํ๋ฆฐ ์์ธก์ ๋ํด ๊ฐ๋ง์ ํ๋ํฐ๋ฅผ ์ฃผ์ด์ ์ ํ๋๋ฅผ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ์งํ๋๊ฒ ํฉ๋๋ค.
4. Experiment & Result
Experimental Setup
CIFAR-10, CIFAR-100์ ๊ฒฝ์ฐ pretrained resnet์ resnet-32์ resnet-110์ผ๋ก ์คํ์ด ์งํ๋์์ผ๋ฉฐ, ImageNet์ ๊ฒฝ์ฐ pretrained resnet์ resnet-101์ผ๋ก ์คํ์ด ์งํ๋์์ต๋๋ค. Policy Network์ ๊ฒฝ์ฐ CIFAR์ ๋ํด์๋ resnet-8์ ์ฌ์ฉํ์๊ณ ImageNet์ ๋ํด์๋ resnet-10์ ์ฌ์ฉํ์๋๋ฐ, ImageNet์์๋ input image๋ฅผ 112x112๋ก downsamplingํ์ฌ policy network์ ์ ๋ฌํ์์ต๋๋ค.
Result
ํด๋น ๋ ผ๋ฌธ์ ์์๋ก residual block์ drop์ํจ random ๋ฐฉ๋ฒ๊ณผ ์์์ ์์ ์๋ residual block์ drop ์ํจ first ๋ฐฉ๋ฒ ๋ฑ์ baseline์ผ๋ก ํ๊ณ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ BlockDrop ๋ฐฉ๋ฒ๊ณผ์ ์ฑ๋ฅ์ ๋น๊ตํ์์ต๋๋ค. CIFAR-10์์ ResNet-32๋ฅผ pretrained backbone์ผ๋ก ํ๋ ๊ฒฝ์ฐ Full ResNet์ ์ฑ๋ฅ(accuracy)์ด 92.3์ด์๋ค๋ฉด FirstK๋ 16.6์ ์ฑ๋ฅ์ ๋ณด์๊ณ RandomK๋ 20.5์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ BlockDrop์ 88.6์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ธํผ๋ฐ์ค ๊ณผ์ ์์์ ์๋ ๊ฐ์ ์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๋ชจ๋ธ ๊ฒฝ๋ํ ๊ธฐ๋ฒ ์ค์์ ACT, SACT, PFEC, LCCL์ baseline ๋ชจ๋ธ๋ก ํ์ฌ FLOPs-accuracy ์ปค๋ธ๋ฅผ ๋น๊ตํ์์ผ๋ฉฐ, SACT์ ๋์ผ ์์ค์ ์ ํ๋๋ฅผ ์ ์งํ๊ธฐ ์ํด์ 50%์ FLOPs๋ง์ ํ์๋ก ํ๋ ๊ฒ์ ํ์ธํ์์ต๋๋ค.
5. Conclusion
๋ณธ ๋ ผ๋ฌธ์ ResNet์ ํ์ฉํ ๋ ๋ ๋น ๋ฅธ ์๋๋ก inferenceํ ์ ์๋๋ก Residual Block์ instance specificํ๊ฒ dropํ๋ BlockDrop์ ์ ์ํ์๊ณ CIFAR ๋ฐ ImageNet์ ๋ํ ๊ด๋ฒ์ํ ์คํ์ ์ํํ์ฌ efficiency-accuracy trade-off์์ ์๋นํ ์ด์ ์ด ์์์ ๊ด์ฐฐํ์์ต๋๋ค. ๋ํ ์๋์ ๊ฒฐ๊ณผ๋ฅผ ํตํด BlockDrop์ policy๊ฐ ์ด๋ฏธ์ง์ semanticํ information์ ์ฑ๊ณต์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ค๋ ๊ฒ์ ํ์ธํ์์ต๋๋ค.
Take home message (์ค๋์ ๊ตํ)
์ด ๋ ผ๋ฌธ์ inference ์๋ ํฅ์์ ์ํด instance specificํ๊ฒ residual block์ dropํ๋ ๋ฐฉ๋ฒ์ RL ๊ธฐ๋ฐ์ผ๋ก ํ์ฉํ์์ต๋๋ค.
Author / Reviewer information
Author
์ดํ์ (Hyunsu Rhee)
KAIST AI
ryanrhee@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
โฆ
Reference & Additional materials
Last updated
Was this helpful?