HyperGAN [Kor]
Ratzlaff et al. / HyperGAN - A Generative Model for Diverse, Performant Neural Networks / ICML 2019
English version of this article is available.
1. Problem definition
HyperGAN์ ์ ๊ฒฝ๋ง ๋งค๊ฐ ๋ณ์์ ๋ถํฌ๋ฅผ ํ์ตํ๊ธฐ ์ํ ์์ฑ ๋ชจ๋ธ์ด๋ค. ํนํ, ์ปจ๋ณผ๋ฃจ์ ํํฐ์ ๋ณ์๊ฐ๋ค์ latent ์ธต๊ณผ ํผํฉ(Mixer) ์ธต์ผ๋ก ์์ฑ๋๋ค.

2. Motivation & Related work
์๋ก ๋ค๋ฅธ ๋ฌด์์ ์ด๊ธฐํ๋ก๋ถํฐ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ํ๋ จ์ํฌ ์ ์๋ค๋ ๊ฒ์ ์ ์๋ ค์ ธ ์๋ค. ๋ํ, ์ฌ์ธต ๋คํธ์ํฌ์ ์์๋ธ์ ๋ ๋์ ์ฑ๋ฅ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ๊ฐ์ง๊ณ ์๋ค๋ ๊ฒ์ด ์ถ๊ฐ๋ก ์ฐ๊ตฌ๋์๋ค. ๋ฒ ์ด์ง์ ๋ฅ ๋ฌ๋์์๋ ๋คํธ์ํฌ ๋งค๊ฐ ๋ณ์์ ๋ํ ์ฌํ(posterior) ๋ถํฌ๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์ค์ํ ๊ด์ฌ์ฌ์ด๋ฉฐ, ๋๋กญ์์์(dropout) ๋ฒ ์ด์ง์ ๊ทผ์ฌ๋ฅผ ์ํด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ค. ํ ์์๋ก์, ๋ชจ๋ธ ๋ถํ์ค์ฑ์ ์ถ์ ํ๊ธฐ ์ํ MC dropout์ด ์ ์๋์๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ ๊ณ์ธต์ ๋๋กญ์์์ ์ ์ฉํ๋ฉด ๋ฐ์ดํฐ์ ์ ํฉ๋๊ฐ ๋ฎ์์ง ์ ์์ผ๋ฉฐ ๋จ์ผ ์ด๊ธฐํ์์๋ง ๋๋ฌํ ์ ์๋ ๋ชจ๋ธ ๊ณต๊ฐ์ ๊ฐํ๊ฒ ๋๋ค.
๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ผ๋ก, ๋์(target) ์ ๊ฒฝ๋ง์ ๋ํ ๋งค๊ฐ ๋ณ์๋ฅผ ์ถ๋ ฅํ๋ ํ์ดํผ ๋คํธ์ํฌ๋ผ๋ ๋ถ์ผ๊ฐ ์ฐ๊ตฌ๋๊ณ ์๋ค. ํ์ดํผ๋คํธ์ํฌ์ ๋์ ๋คํธ์ํฌ๋ ๊ณต๋์ผ๋ก ํ๋ จ๋๋ ๋จ์ผ ๋ชจ๋ธ์ ํ์ฑํ๋ค. ๊ทธ๋ฌ๋ ์ด์ ์ ํ์ดํผ๋คํธ์ํฌ๋ ์ฌํ๋ถํฌ๋ฅผ ๋ง๋ค๊ธฐ ์ํด normalizing flow์ ์์กดํ๊ณ , ์ด๋ ๋ชจ๋ธ ๋ณ์์ ํ์ฅ์ฑ์ ์ ํํ๋ค.
๋ณธ ์ฐ๊ตฌ๋ ๊ณ ์ ๋ ๋ ธ์ด์ฆ ๋ชจ๋ธ์ด๋ ์์ฑ ํจ์์ ๊ธฐ๋ฅ์ ํํ๋ฅผ ๊ฐ์ ํ์ง ์๊ณ ์ ๊ฒฝ๋ง์ ๋ชจ๋ ๋งค๊ฐ ๋ณ์๋ฅผ ํ ๋ฒ์ ์์ฑํ๋ ์ ๊ทผ๋ฒ์ ํ๊ตฌํ๋ค. ์ ์๋ normalizing flow ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋์ GAN์ ํ์ฉํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ๊ฐ์ ๋ฌด์์ ์ด๊ธฐํ(์์๋ธ) ๋๋ ๊ณผ๊ฑฐ์ ๋ณํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ํ๋ จ๋ณด๋ค ๋ ๋ค์ํ ๋ชจ๋ธ์ ์ ๊ณตํ๋ค.
Idea
HyperGAN์ ๋ณ์๋ฅผ ์ง์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด GAN์์ ๊ทผ๋ฒ์ ํ์ฉํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ฅผ ์ํด์๋ ํ๋ จ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ๋ง์ ๋ชจ๋ธ ๋งค๊ฐ ๋ณ์ ์ธํธ๊ฐ ํ์ํ๋ค. (image๋ฅผ ์์ฑํด๋ด๋ GAN์ ์ํด์ real image๊ฐ ํ์ํ ๊ฒ ์ฒ๋ผ). ๊ทธ๋์ ์ ์๋ค์ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํด์, ์ง์ ๋์ ๋ชจ๋ธ์ supervised ํ์ต ๋ชฉํ๋ฅผ ์ต์ ํ๋ค. ์ด ๋ฐฉ๋ฒ์ normalzing flow๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์ ์ฐํ ์ ์์ผ๋ฉฐ ๊ฐ ๊ณ์ธต์ ๋งค๊ฐ ๋ณ์๊ฐ ๋ณ๋ ฌ๋ก ์์ฑ๋๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์ ์ด๋ค. ๋ํ ๋ง์ ๋ชจ๋ธ์ ํ๋ จ์์ผ์ผ ํ๋ ์์๋ธ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ ๊ณ์ฐ์ ์ด๊ณ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ด๋ค.
3. Method
Introduction ์น์ ์ ์ ๊ทธ๋ฆผ์ HyperGAN์ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋ค. ํ์ค GAN๊ณผ๋ ๋ฌ๋ฆฌ, ์ ์๋ค์ s ~ S๋ฅผ ํผํฉ ์ ์ฌ ๊ณต๊ฐ Z์ ๋งคํํ๋ fully connected ๋คํธ์ํฌ์ธ Mixer Q๋ฅผ ์ ์ํ๋ค. ๋ฏน์๋ ํ ๊ณ์ธต์ ์ถ๋ ฅ์ด ๋ค์ ๊ณ์ธต์ ๋ํ ์ ๋ ฅ์ด ํ์ํ๋ฏ๋ก ๋คํธ์ํฌ ๊ณ์ธต ๊ฐ์ ๊ฐ์ค์น ๋งค๊ฐ๋ณ์๊ฐ ๊ฐํ๊ฒ ์๊ด๋์ด์ผ ํ๋ค๋ ๊ด์ฐฐ์ ์ํด ์ ์๋์๋ค. ํผํฉ ์ ์ฌ ๊ณต๊ฐ Q(z|s)์์ Nd์ฐจ์ ํผํฉ ์ ์ฌ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ฉฐ, ์ด๋ ๋ชจ๋ ์๊ด๊ด๊ณ๊ฐ ์๋ค(correlated). ์ ์ฌ ๋ฒกํฐ๋ ๊ฐ๊ฐ d์ฐจ์ ๋ฒกํฐ๊ฐ ๋๋ N ๋ ์ด์ด ์๋ฒ ๋ฉ์ผ๋ก ๋ถํ ๋๋ค. ๋ง์ง๋ง์ผ๋ก N ๋ณ๋ ฌ ์์ฑ๊ธฐ๋ ๊ฐ N ๊ณ์ธต์ ๋ํ ๋งค๊ฐ ๋ณ์๋ฅผ ์์ฑํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋งค๊ฐ๋ณ์์ ๊ทน๋๋ก ๋์ ์ฐจ์ ๊ณต๊ฐ์ด ํ์ฌ ์ฌ๋ฌ ์ ์ฌ ๋ฒกํฐ์ ์์ ํ ์ฐ๊ฒฐ๋์ด ์๋ ๋์ ๋ณ๋๋ก ์ฐ๊ฒฐ๋์ด ์๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ด๋ค.
์ด์ ์ ๋ชจ๋ธ์ด ํ์ต ์ธํธ์์ ํ๊ฐ๋๊ณ ์์ฑ๋ ํ๋ผ๋ฏธํฐ๊ฐ ์์ค L์ ๋ํด ์ต์ ํ๋๋ค.

๊ทธ๋ฌ๋ Q(z|s)์์ ์ถ์ถํ ์ฝ๋๊ฐ MLE์ ๋ฐ๋ผ ์ถ์๋ ์๋ ์๋ค(mode collapse). ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ ์๋ ํผํฉ ์ ์ฌ ๊ณต๊ฐ์ ์ ๋์ ์ ์ฝ(adversarial constraint)์ ์ถ๊ฐํ๊ณ P ์ด์ ์ ๋์ ์ํธ๋กํผ์์ ๋๋ฌด ๋ง์ด ๋ฒ์ด๋์ง ์๋๋ก ํ๋ค. ์ด๋ฅผ ์ํ HyperGAN objective๋ ๋ค์๊ณผ ๊ฐ๋ค:

D๋ ๋ชจ๋ ๋ ๋ถํฌ ์ฌ์ด์ ๊ฑฐ๋ฆฌ ํจ์์ผ ์ ์๋ค. ์ฌ๊ธฐ์, ํ๋ณ๊ธฐ ๋คํธ์ํฌ๋(discriminator network) ์ ๋์ ์์ค๊ณผ ํจ๊ป ๊ฑฐ๋ฆฌ ํจ์๋ฅผ ๊ทผ์ฌํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.

๊ณ ์ฐจ์ ๊ณต๊ฐ์์๋ ํ๋ณ๊ธฐ๋ฅผ ๋ฐฐ์ฐ๊ธฐ ์ด๋ ต๊ณ ๊ทธ๋ฌํ ๋งค๊ฐ ๋ณ์์๋ (์ด๋ฏธ์ง์ ๋ฌ๋ฆฌ) ๊ตฌ์กฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ ์ฌ ๊ณต๊ฐ์์๋ ์ ๊ทํ๋ฅผ ํตํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. (์์ธํ ๋ฐฉ์์ ๋ ผ๋ฌธ์ ์ธ๊ธ๋์ง ์์ต๋๋ค.)
4. Experiment & Result
Experimental setup
MNIST ์ CIFAR-10์์์ ๋ถ๋ฅ๊ธฐ ํ์ต ๋ฐ ์ฑ๋ฅํ๊ฐ
๋จ์ 1D ๋ฐ์ดํฐ ์ธํธ์ ๋ถ์ฐ(variance) ํ์ต
๋ถํฌ ์ธ ์์ ์ ์ด์ ํ์ง(Anomaly detection of out-of-distribution examples)
MNIST์ ๋ํด ํ์ตํ ๋ชจ๋ธ/notMNIST๋ก ํ ์คํธํ ๋ชจ๋ธ
CIFAR-10 5๊ฐ ํด๋์ค์ ๋ํด ํ์ตํ ๋ชจ๋ธ / ๋๋จธ์ง ํด๋์ค์์ ํ ์คํธ๋ ๋ชจ๋ธ
baselines
APD(Wang et al., 2018), MNF(Louizos & Welling, 2016), MC Dropout(Gal & Ghahramani, 2016)
Result
Classification ๊ฒฐ๊ณผ

Anomaly detection ๊ฒฐ๊ณผ

Ablation Study
์ฒซ์งธ, ๋ชฉ์ ์์ ์ ๊ทํ ๋ถ๋ถ์ธ D(Q), P๋ฅผ ์ ๊ฑฐํ๋ฉด ๋คํธ์ํฌ์ ๋ค์์ฑ์ด ๊ฐ์ํ๋ค. ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด ์ ์๋ค์ 100๊ฐ์ weight ์ํ์ L2 norm์ ์ธก์ ํ๊ณ ํ์ค ํธ์ฐจ๋ฅผ ํ๊ท ์ผ๋ก ๋๋๋ค. ๋ํ, ์ ์๋ค์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ค์์ฑ์ด ๊ฐ์ํ๋ค๋ ๊ฒ์ ํ์ธํ๊ณ ํ์ต์ ์กฐ๊ธฐ ์ค๋จ์ ์ ์ํ๋ค(early stopping). ๋ค์์ผ๋ก ์ ์๋ค์ ๋ฏน์ Q๋ฅผ ์ ๊ฑฐํ๋ค. ์ ํ์ฑ์ ์ ์ง๋์ง๋ง ๋ค์์ฑ์ ํฌ๊ฒ ์ ํ๋๋ค. ๋ฏน์๊ฐ ์์ผ๋ฉด ์ ํจํ ์ต์ ํ๋ฅผ ์ฐพ๊ธฐ ์ด๋ ต๋ค๋ ๊ฐ์ค๋ ์ธ์ ๋๋ฐ, ๋ฏน์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ค๋ฅธ ๊ณ์ธต์ ๋งค๊ฐ ๋ณ์๋ค ์ฌ์ด์ ๋ด์ฌ๋ ์๊ด๊ด๊ณ๊ฐ ์ต์ ํ๋ฅผ ๋ ์ฝ๊ฒ ๋ง๋ค ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค.
5. Conclusion
๊ฒฐ๋ก ์ ์ผ๋ก HyperGAN์ ๋งค์ฐ ๊ฐ๋ ฅํ๊ณ ์ ๋ขฐํ ์ ์๋ ์์๋ธ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ธฐ ์ํ ํ๋ฅญํ ๋ฐฉ์์ด๋ค. ๋ฏน์ ๋คํธ์ํฌ ๋ฐ ์ ๊ทํ ์ฉ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ ๋ถ๊ดด(mode collapse) ์์ด GAN ๋ฐฉ์์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์์ฑํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค. ๊ทธ๋ฌ๋ ์ด ์์ ์ MNIST ๋ฐ CIFAR10๊ณผ ๊ฐ์ ์์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ฐ์ง ์๊ท๋ชจ ๋์ ๋คํธ์ํฌ๋ก ๊ตฌ์ถ๋์ด ๊ฐ๋จํ ๋ถ๋ฅ ์์ ๋ง์ ์ํํ๋ค๋ ๋จ์ ์ด ์๋ค. ResNets์ ๊ฐ์ ๋๊ท๋ชจ ๋คํธ์ํฌ์์ ๋ ํฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ์ ์ํํ ์ ์๋ค๋ฉด ๋ ํฅ๋ฏธ๋ก์ธ ๊ฒ์ด๋ค.
Take home message (์ค๋์ ๊ตํ)
ํ์ดํผ๋คํธ์ํฌ(Hypernetworks)๋ฅผ GAN๋ฐฉ์์ผ๋ก ํ์ต์์ผ์ ํจ๊ณผ์ ์ธ ๋ฒ ์ด์ง์ ๋ด๋ด ๋คํธ์ํฌ(bayesian neural networks) ๋ง๋ค ์ ์๋ค.
Author / Reviewer information
Author
ํ์คํ (Junha Hyung)
KAIST AI๋ํ์ M.S.
Research Area: Computer Vision
sharpeeee@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
[1]Ha, D., Dai, A. M., and Le, Q. V. Hypernetworks. CoRR
[2]Henning, C., von Oswald, J., Sacramento, J., Surace, S. C., Pfister, J.P., and Grewe, B. F. Approximating the predic- tive distribution via adversarially-trained hypernetworks
[3]Krueger, D., Huang, C.W., Islam, R., Turner, R., Lacoste, A., and Courville, A. Bayesian Hypernetworks
[4]Lorraine, J. and Duvenaud, D. Stochastic hyperparameter optimization through hypernetworks. CoRR
[5]Pawlowski, N., Brock, A., Lee, M. C., Rajchl, M., and Glocker, B. Implicit weight uncertainty in neural networks
Last updated
Was this helpful?