GraSP [Kor]
Chaoqi Wang / Picking Winning Tickets Before Training by Preserving Gradient Flow / ICLR 2020
1. Problem definition
์ด๋ฏธ์ง ๋ชจ๋ธ์ ๋น ๋ฅธ ํ์ต๊ณผ ๋ณ๊ฐ๋ก, ๋ง์ ์ฐ์ฐ๋๊ณผ ์ฆ๊ฐํ๋ ๋ชจ๋ธ ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ์ฆ๊ฐํ๋ ๋ฐ์ดํฐ์
์ ํฌ๊ธฐ๋ ๋ชจ๋ธ ํ์ต(Training)๊ณผ ์ถ๋ก (inference)์ ๋ง์ ์ ํ์ ์ ์ค๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ธ์ ์ฌ์ฉ๋๋ parameter๋ฅผ ์ต์ํํ๋ ๊ฒฝ๋ํ ๊ธฐ๋ฒ์ด ๋ค์ํ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๋์ด ์์ต๋๋ค.
(Han et al.)์ ์ค์ ๋ก ํ์ต๋ ๋ชจ๋ธ์ weight์ด ๊ต์ฅํ ํฌ์ํ๋ค(sparse)ํ๋ค๋ ์ ์ ์ด์ฉํด์ ๋นํ์ฑํ๋ ๋ด๋ฐ๊ณผ ์ด๋ค์ ์ฐ๊ฒฐ์ ์ ์ ๊ฑฐํ๋ ๊ฐ์ง์น๊ธฐ(Model Pruning) ๊ธฐ๋ฐ์ ์ฐ๊ตฌ๋ฅผ ์งํํ์์ต๋๋ค.
(Hinton et al.)์ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ์ด ์ค์ ํ์ต๋ ๋ชจ๋ธ๊ณผ ํฉ์๋ฅผ ํ๋๋ก ํ์ฌ, ํฐ ๋ชจ๋ธ์ ์ง์์ ์์ ๋ชจ๋ธ๋ก ์ฎ๊ธฐ๋ ์ง์ ์ฆ๋ฅ(Knowledge Distillation) ๊ธฐ๋ฐ์ ์ฐ๊ตฌ๋ฅผ ์งํํ์์ต๋๋ค.
(Polino et al.)์ ๋ชจ๋ธ parameter๋ฅผ ๋ ์ ์ ๋นํธ์ ํํ๋ก ๋ฐ๊พธ๋ ๋ชจ๋ธ ์์ํ(Quantization)๊ธฐ๋ฐ์ ์ฐ๊ตฌ๋ฅผ ์งํํ์์ต๋๋ค. ์ด๋ฐ ๋ชจ๋ธ ๊ฒฝ๋ํ ๊ธฐ๋ฒ์ ํตํ์ฌ ์ถ๋ก ์ ์์ ํ์ฉ๋(test-time resource requirement)๋ฅผ ์ต์ํํ๋ ๋ฐฉ๋ฒ์ด ๊พธ์คํ ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค.
2. Motivation
Related work
Lottery ticket hypothesis ํ์ง๋ง ์ ๋ฐฉ๋ฒ๋ก ๋ค์ ํ์ต๋ ๋ชจ๋ธ์ parameter๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ชจ๋ธ์ ์ฌ์ด์ฆ๋ฅผ ์ค์ฌ๋๊ฐ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ฌ์ ํ ํ์ต ์ ์์ ํ์ฉ๋(training-time resource requirement)์ ํฐ ์ํ๋ก ์ ์ง๋ฉ๋๋ค. ์ด์ ์ฐ๊ตฌ์๋ค์ ์์์ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ง์ ํ์ฉํ์ฌ ๋ค์ ํ์ตํด๋ณธ๋ค๋ฉด training-time resource๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์์๊ฒ์ด๋ผ ์ถ์ธกํ์์ต๋๋ค. ํ์ง๋ง ๊ฒฝ๋ํ๋ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ก ํ์ตํ ๊ฒฝ์ฐ ์ฌ๊ฐํ ์ฑ๋ฅ ์ ํ๊ฐ ๋ค๋ฐ๋์ต๋๋ค. ์ด๋ฐ ์ํฉ์์, ICLR 2019๋ ์ ๋ฐํ๋ The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks๋ผ๋ ์ฐ๊ตฌ์์ Iterative Manitude Pruning์ด๋ผ๋ ๋ฐฉ๋ฒ๊ณผ Re-Init์ด๋ผ๋ ๋ฐฉ๋ฒ ๋๊ฐ์ง๋ฅผ ์ฌ์ฉํด์, ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ก ์๋ณธ์ ์ฑ๋ฅ์ ๊ฑฐ์ ๋ฐ๋ผ์ก๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค. ํ์ง๋ง ํฐ ๋ชจ๋ธ์์๋ถํฐ ์์ํ์ฌ ์ ์ง์ ์ผ๋ก ์ค์ฌ๋๊ฐ๋ ๋ฐฉ๋ฒ์ด๊ธฐ์, ์กฐ๊ธ ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ด ํ์ํ์์ต๋๋ค.
(Morcos et al.)์ ์ ์ํ ๋ฐฉ๋ฒ์ด ๋จ์ํ CIFAR-10๊ณผ MNIST์์๋ง ์๋ํ๋ ๊ฒ์ด ์๋, ๋ค์ํ ๋ฐ์ดํฐ์ ๊ณผ ๋ชจ๋ธ, ์ตํฐ๋ง์ด์ ์์๋ ์๋ํจ์ ์คํ์ ์ผ๋ก reportํ์์ต๋๋ค.
(Haoran et al.)์ ํฐ learning rate๋ก ๋น ๋ฅด๊ฒ ํ์ตํ๊ณ ๊ฒฝ๋ํํ ๊ตฌ์กฐ(Mask)๋ฅผ ๊ฐ์ ธ์์ ๋ ๋น ๋ฅธ ํ์ต์ ์์ถ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค.
Idea
๋ณธ ๋
ผ๋ฌธ์, ๋จ์ํ ๋ชจ๋ธ parameter์ ํฌ๊ธฐ(magnitude)๋ ํ์ฑ๋(activation) ๊ธฐ๋ฐ์ผ๋ก ์ฐ๊ฒฐ์ ์ ๋์ด๋ด๋ ๊ฒ์ด ์๋, gradient๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. ๋ด๋ฐ์ output์ ํฌ๊ธฐ๊ฐ ์์๋, ํด๋น ๋ด๋ฐ์ ์ฐ๊ฒฐ๋ ํ์ ๋ด๋ฐ๋ค์๊ฒ ์ ๋ณด ์ ๋ฌ(information flow)์ ํด์ฃผ๋ ์ค์ํ node์ผ์ ์๋ค๋ ์์ด๋์ด๊ฐ ๊ทธ ๊ธฐ๋ฐ์
๋๋ค. ๋ฐ๋ผ์ ์ด ๋
ผ๋ฌธ์์ ์ ์ํ ์๊ณ ๋ฆฌ์ฆ์ธ GraSP๋, gradient์ norm์ ๊ณ์ฐํ๊ณ , ๊ทธ norm์ ๊ฐ์ฅ ๋ณํ๋ฅผ ๋ ์ฃผ๋ connection์ ์ ๊ฑฐํ๋ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
3. Method
๋จผ์ , gradient norm์ ์์ํ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ์ฌ๊ธฐ์, (LeCun et al.)๋ฑ์ด ๋ฐํ๋ธ, parameter์ ๋ณํ(perturbation)์ด ์์๋ gradient norm ๋ณํ๋์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๋งํผ์ ๋ณํ๋ฅผ ์ฃผ์์๋ gradient norm์ ๋ณํ๋ ๋ ๋ผ๋ ๊ฒ์ด์ฃ . H๋ parameter์ hessian matrix์ด๊ณ , g๋ gradient๊ฐ์
๋๋ค. ํด๋น ์์์ pruning task์ ๋ง๊ฒ ๋ณํ์ํจ๋ค๋ฉด ๋ณํ๋ ์์ฒด๋ ์๋ parameter ํฌ๊ธฐ์ ์์๋ก ๊ณ ์ ์ด๊ธฐ ๋๋ฌธ์, ๋ค์ชฝ term์ ์ฌ๋ผ์ง๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ์ด ๋
ผ๋ฌธ์์๋, ๊ฐ parameter์ ์ค์๋๋ฅผ ๋ค์ ์์๊ณผ ๊ฐ์ด ๊ณ์ฐํ๊ณ , ๊ฐ์ฅ ํฐ ์ค์๋๋ฅผ ๊ฐ์ง parameter๋ฅผ ์ ์ธํ ๋๋จธ์ง parameter๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
์ฆ, ํ๋ฒ์ forward pass์ gradient ๊ณ์ฐ์ ํตํด ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฒฌํด๋ผ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์
๋๋ค.
4. Experiment & Result
๋ณธ ๋ ผ๋ฌธ์ ๋น์ทํ ์๊ธฐ์ ๋์จ SNIP์ด๋ผ๋ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ์์ต๋๋ค. ๋ ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ ํ๋ฒ์ ํ์ต์ ํตํด์ ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ๋ฅผ ์ฐพ์๋ด๋ ๋ฐฉ๋ฒ์ด๊ณ , ๊ทธ๋ ๊ธฐ์ ์ต์ ์ ์ฑ๋ฅ๋ณด๋ค๋, ์ผ๋ง๋ ๊ธฐ์กด ์๊ณ ๋ฆฌ์ฆ(Lottery ticket, Deep Compression)๋ค์ ์ฑ๋ฅ์ ์ ์งํ๋์ง๊ฐ ์ค์ํ ์งํ์ ๋๋ค. ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Result
๋ค์ํ ๋ฐ์ดํฐ์ ๊ณผ, ๋ชจ๋ธ์์ ๊ฒฝ๋ํ ์ฑ๋ฅ์ด stableํ๊ฒ ์ข๊ฒ ๋์ด์ ํ์ธํ ์ ์์ต๋๋ค. ๋ํ, Lottery Ticket Hypothesis๋(LT), OBD, MLPrune์ ๊ฐ์ด iterativeํ๊ณ , training-time resource๊ฐ ๋ง์ด ํ์ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ๊ณผ ํฐ ์ฐจ์ด๊ฐ ์์์ ํ์ธํ ์ ์์ต๋๋ค.
๋จ์ํ ์คํ ๊ฒฐ๊ณผ ๋ฟ๋ง ์๋๋ผ, ํ์ต ์ปค๋ธ์, ๋
ผ๋ฌธ์์ ๊ฐ์กฐํ์๋ gradient norm์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ๋ํ ์ ์๋ ์คํ ๊ฒฐ๊ณผ๋ก ์ ๊ณตํ์์ต๋๋ค. ์๋ figure์ ์ฐ์ธก ๊ทธ๋ํ๋ฅผ ๋ณด์๋ฉด, GraSP ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ ๊ฒฝ๋ํ๋ฅผ ์งํํ์์๋ gradient norm์ด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ๋นํด ํฌ๊ฒ ์ ์ง๊ฐ ๋จ์ ์ ์๋ ์คํ์ ์ผ๋ก ์
์ฆํ์์ต๋๋ค. ๋ํ ๊ฐ layer๋ง๋ค ์ผ๋ง๋ ๋ง์ parameter๊ฐ ๊ฐ์ง์น๊ธฐ ๋นํ๋์ง ํ์ธํ์์ต๋๋ค. ๋ณดํต ๊ฐ์ง์น๊ธฐ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์, convolution ์ฐ์ฐ์ ์์ ๋จ๊ณ (Layer 10~)์ ๋ด๋ฐ์ ๋ง์ด ๊ฐ์ง์น๊ธฐ ํ๋ค๊ณ ์๋ ค์ ธ ์์ต๋๋ค. ์์ ๋จ๊ณ๋ก ์ฌ๋ผ๊ฐ์๋ก ๋ด๋ฐ ์์ํ์ด sparseํด์ง๊ธฐ ๋๋ฌธ์
๋๋ค. ํ์ง๋ง GraSP ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฝ์ ์๊ณ ๋ฆฌ์ฆ์ธ SNIP ๋๋น ๋ง์ ์ฑ๋์ ๋จ๊ธด๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ์๋ figure์์ ๋ณผ ์ ์์ต๋๋ค.
5. Conclusion
ํ๋ฒ์ ํ์ต๋ง์ผ๋ก ํจ์จ์ ์ธ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฒฌํ ์ ์๋ค๋ GraSP ์๊ณ ๋ฆฌ์ฆ์, ๋จ์ํ ๋ด๋ฐ์ด ํ์ฑํ ๋๊ฒ๋ง ์ค์ํ ๊ฒ์ด ์๋๋ผ, ๋ด๋ฐ๊ณผ ๋ด๋ฐ ์ฌ์ด์ ์ผ๋ง๋ ๋ง์ ์ ๋ณด๋ฅผ ์ ์งํ๋๋๊ฐ ์ค์ํ๋ค๋ gradient flow ๊ธฐ๋ฐ ๊ฒฝ๋ํ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค. ๋ํ ์ด ์ฐ๊ตฌ๋ ํ์ ์ฐ๊ตฌ์ ์ํฅ์ ์ฃผ์ด, ํ๋ฒ๋ ํ์ตํ์ง ์๊ณ ๋ ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฒฌํ๋ ๋ฐฉ๋ฒ ๋ํ ์ ์ํ์์ต๋๋ค.
Take home message (์ค๋์ ๊ตํ)
ํ์ฑํ๋์ง ์์ ๋ด๋ฐ์ด๋ผ๋ ํ์ ๋ด๋ฐ์๊ฒ ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ค ์ ์์ผ๋ฉฐ, ํนํ ๋จ ํ๋ฒ์ผ๋ก ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ๋ฅผ ์ฐพ์์ผ ํ๋ ์ํฉ์์๋ ๋ด๋ฐ ํ์ฑ๋๋ง์ด ๋ต์ด ์๋๋ค.
Author / Reviewer information
You don't need to provide the reviewer information at the draft submission stage.
Author
์ด์น์ฐ(Seungwoo Lee)
Affiliation (KAIST EE)
Research interest in Graph Neural Network
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Chaoqi Wang, Guodong Zhang, Roger Grosse, Picking Winning Tickets Before Training by Preserving Gradient Flow, In ICLR 2020
Jonathan Frankle, Michael Carbin, The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks, In ICLR 2019
Namhoon Lee, Thalaiyasingam Ajanthan, Philip H. S. Torr, SNIP: Single-shot Network Pruning based on Connection Sensitivity, In ICLR 2019
Hidenori Tanaka, Daniel Kunin, Daniel L. K. Yamins, Surya Ganguli, Pruning neural networks without any data by iteratively conserving synaptic flow, In NeurIPS 2021
Last updated
Was this helpful?