Feature Disruptive Attack [Kor]
Ganeshan et al. / Feature Disruptive Attack / ICCV 2019
1. Problem definition
Deep neural network (DNN)๋ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๋ฌผ์ฒด ๊ฒ์ถ ๋ฑ ๋ค์ํ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ํ์ง๋ง DNN์ ์ด๋ฏธ์ง์ ์ธ๊ฐ์ ๋์ ์ ์ธ์๋์ง ์๋ ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ง๋ ์ ๋์ ์์ ์ ์ทจ์ฝํฉ๋๋ค. ์ด๋ฐ ์ ๋์ ์์ ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ ์ ๋์ ๊ณต๊ฒฉ์ด๋ผ ํฉ๋๋ค. ์ ๋์ ๊ณต๊ฒฉ๊ณผ ์ด๋ฅผ ๋ง๊ธฐ ์ํ ๋ฐฉ์ด ๊ธฐ๋ฒ๋ค์ด ์ ์๋๋ ๊ณผ์ ์์ ๋คํธ์ํฌ์ ์ทจ์ฝ์ฑ์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์ด๋ ๋คํธ์ํฌ์ ์ฑ๋ฅ๊ณผ robustness๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค. ๋ฐ๋ผ์, ์ ๋์ ์์ ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ๋ ๊ฒ์ ๋คํธ์ํฌ์ ๋ํ ์ดํด์ ์ฑ๋ฅ ํฅ์์ ๋์์ ์ค๋๋ค. ์ด๋ฏธ์ง ๋ถ๋ฅ์์์ ์ ๋์ ๊ณต๊ฒฉ์ ๋คํธ์ํฌ๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ class๋ก ์ธ์ํ์ง ๋ชปํ๋๋ก ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ์ ๋์ ์์ ๋ฅผ ๋ง๋๋ ๊ฒ์ ๋งํฉ๋๋ค. ๊ธฐ์กด์ ์ ๋์ ๊ณต๊ฒฉ๋ค์ DNN์ ๋ง์ง๋ง ๋ถ๋ถ์ ํด๋นํ๋ softmax ํน์ pre-softmax๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ์์ฑํ ์ ๋์ ์์ ๋ ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ด ์๋ค๊ณ ๋งํ๊ณ ์์ต๋๋ค. ์ฒซ ๋ฒ์งธ๋ ์ ๋์ ์์ ์ deep feature๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ์ฌ์ ํ ํฌํจํ๊ณ ์๋ค๋ ์ ์ด๊ณ ๋ ๋ฒ์งธ๋ network๊ฐ ์ ๋์ ์์ ๋ฅผ ์๋ณธ ์ด๋ฏธ์ง์ ์ ์ฌํ class๋ก ์ธ์ํ๊ฑฐ๋ ์๋ณธ ์ด๋ฏธ์ง๋ก ์์ธกํ๋ ํ๋ฅ ์ด ์ฌ์ ํ ๋๋ค๋ ์ ์ ๋๋ค.
2. Motivation
Related work
FGSM
์๋ณธ ์ด๋ฏธ์ง๋ฅผ , ์๋ณธ ์ด๋ฏธ์ง์ class๋ฅผ , ๋คํธ์ํฌ์ cross entropy loss function J๋ผ๊ณ ํ์ ๋ ์ด๋ฏธ์ง ์ ๋ํ loss function์ gradient ๋ถํธ๋ฅผ ์ด์ฉํ์ฌ ์ ๋ํ loss function์ด ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ๋คํธ์ํฌ๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ class๋ก ์ธ์ํ์ง ๋ชปํ๋๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด FGSM (Fast Gradient Sign Method)์ด๋ผ๊ณ ํฉ๋๋ค.
PGD FGSM ๊ณผ์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ PGD ๋๋ I-FGSM (Iterative-FGSM)์ด๋ผ๊ณ ํฉ๋๋ค. ์ด๋ ๋์ ๊ฐ์ฅ ๋์ ํ๋ฅ ๋ก ์์๋๋ class์ธ ์ ์ฌ์ฉํ๋ฉด most-likely attack, PGD-ML์ด๋ผ๊ณ ํฉ๋๋ค. ๋์ ๊ฐ์ฅ ๋ฎ์ ํ๋ฅ ๋ก ์์๋๋ class์ธ ์ ์ฌ์ฉํ๊ณ loss๊ฐ ๊ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๊ฒ์ least likely attack, PGD-LL์ด๋ผ๊ณ ํฉ๋๋ค.
CW attack
์ฌ๊ธฐ์ ๋ logit (pre-softmax ๊ฐ)์ ์๋ฏธํ๋ฉฐ ๋ ๋ฒ์งธ๋ก ๋์ ๊ฐ์ ๊ฐ์ง๋ logit์์ ์ ์ผ ๋์ ๊ฐ์ ๊ฐ์ง๋ logit ๊ฐ์ ๋บ ๊ฐ์ loss๋ก ์ฌ์ฉํ๊ณ ์ด์ ๋๋ถ์ด ์๋ณธ ์ด๋ฏธ์ง์ ์ ๋์ ์์ ์ ๊ฑฐ๋ฆฌ๋ loss๋ก ํจ๊ป ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋์ loss๊ฐ ๊ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ ์กฐ์ ํ๋ ์ฒซ ๋ฒ์งธ loss์ ์๋ณธ ์ด๋ฏธ์ง์์ ์ฐจ์ด๋ฅผ ์กฐ์ ํ๋ ๋ ๋ฒ์งธ loss์ ๊ฐ์ค์น๋ฅผ ์ ๋นํ๊ฒ ์กฐ์ ํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์ด๋ฌํ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ CW attack (Carlini Wargner attack)๋ผ๊ณ ํ๋ฉฐ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ฉฐ ์ ๋์ ์์ ๋ฅผ ์ ๋ฐ์ดํธํ๊ธฐ ๋๋ฌธ์ PGD-CW์ด๋ผ๊ณ ๋ ํฉ๋๋ค.
MI-FGSM FGSM์ ์ต์ ํ ๊ณผ์ ์์ ๋ชจ๋ฉํ ์ ์ฌ์ฉํ์ฌ local optima๋ก ์๋ ดํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ณ ์ต์ ํ๋ฅผ ๋ ์์ ์ ์ผ๋ก ์งํํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ MI-FGSM (Momentum Iterative FGSM)์ด๋ผ๊ณ ํฉ๋๋ค.
Idea
์์ ๋ฐฉ๋ฒ๋ค์ฒ๋ผ ๊ธฐ์กด ์ ๋์ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ softmax ํน์ pre-softmax๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ค. ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ผ๋ก ์์ฑํ ์ ๋์ ์์ ๋ ๋คํธ์ํฌ๊ฐ ์๋ณธ class๋ก ์ ๋๋ก ๋ถ๋ฅํ์ง ๋ชปํ๋ ๊ฑด ๋ง์ง๋ง ์๋ณธ class์ ๋น์ทํ class๋ก ๋ถ๋ฅํ๊ฑฐ๋ ๊ฐ layer์ feature์ ์๋ณธ ์ด๋ฏธ์ง์ ๊ณ ์ ํ ์ ๋ณด๊ฐ ๋จ์์๋ค๋ ๋ฌธ์ ์ ์ด ์์ด์ ๋ณธ ๋ ผ๋ฌธ์์๋ feature๋ฅผ ์ด์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ ๋์ ์์ ์ ๋ํ ์๋ก์ด ํ๊ฐ ์งํ์ธ NLOR๊ณผ OLNR์ ์ ์ํ์ต๋๋ค.
3. Method
Proposed evaluation metrics PGD-ML์ ๊ณต๊ฒฉ ์ ์ ๊ฐ์ฅ ๋์ ํ๋ฅ ๋ก ์์ธก๋์๋ class๋ก ์ธ์๋์ง ์์์ผ ํ๋ฏ๋ก ์๋ณธ ์ด๋ฏธ์ง์ ๋น์ทํ class๋ก ์ธ์๋๋๋ก ์ ๋์ ์์ ๊ฐ ์์ฑ๋ ์ ์์ต๋๋ค. ๋ฐ๋ฉด PGD-LL์ ๊ณต๊ฒฉ ์ ์ ๊ฐ์ฅ ๋ฎ์ ํ๋ฅ ๋ก ์์ธก๋์๋ class๋ก ์ธ์๋์ด์ผ ํ๋ฏ๋ก ์๋ณธ ์ด๋ฏธ์ง์ ์์ ํ ๋ค๋ฅธ class๋ก ์ธ์๋๋๋ก ์์ฑ๋๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋คํธ์ํฌ๊ฐ ์ ๋์ ์์ ๋ฅผ ์๋ณธ class๋ก ์์ธกํ์ง ์์๋์ง ๋ํ๋ด๋ Fooling rate๋ง์ผ๋ก ์ด๋ฐ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ ์ ์ฒด์ ์ธ ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ New Label Old Rank (NLOR)๊ณผ Old Label New Rank (OLNR)๋ฅผ ์ ์ํ์ต๋๋ค. NLOR์ ๊ณต๊ฒฉ ํ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class (new label)๊ฐ ๊ณต๊ฒฉ ์ ์ ๋ช ๋ฒ์งธ๋ก ๋์ ํ๋ฅ ๋ก ์์ธก๋์๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฒ์ด๊ณ OLNR์ ๊ณต๊ฒฉ ์ ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class(old label)๊ฐ ๊ณต๊ฒฉ ํ์ ๋ช ๋ฒ์งธ๋ก ๋์ ํ๋ฅ ๋ก ์์ธก๋๋์ง๋ฅผ ๋ํ๋ ๊ฒ์ ๋๋ค.
Proposed attack
๋ณธ ๋
ผ๋ฌธ์์๋ Cross entropy loss๋ฅผ ์ฌ์ฉํ์ฌ ๋จ์ํ ๋คํธ์ํฌ๊ฐ ์์ธกํ๋ label๋ง ๋ฐ๊พธ๋ ๋ฐฉ์์ ๊ณต๊ฒฉ์ด ์๋ feature๋ฅผ ๋ณ๊ฒฝํ์ฌ ๊ณต๊ฒฉํ๋ Feature Disruptive Attack (FDA)๋ฅผ ์ ์ํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ํ๊ท ๋ณด๋ค ๋์ ๊ฐ์ ๊ฐ์ง๋ feature๋ ํ์ฌ์ ์์ธก์ ์ง์งํ๋ feature๋ผ๊ณ ํ๋จํ์ฌ ํด๋น feature์ ๊ฑฐ๋ฆฌ๋ ๊ฐ์์ํค๊ณ ํ๊ท ๋ณด๋ค ๋ฎ์ ๊ฐ์ ๊ฐ์ง๋ feature๋ ํ์ฌ์ ์์ธก์ ์ง์งํ์ง ์๋ feature๋ผ๊ณ ํ๋จํ์ฌ ํด๋น feature์ ๊ฑฐ๋ฆฌ๋ ์ฆ๊ฐ์ํค๋ ๋ฐฉํฅ์ผ๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํฉ๋๋ค. ์ฌ๊ธฐ์ ๊ฑฐ๋ฆฌ ํจ์๋ L2-norm์ ์ฌ์ฉํ์๊ณ ํ๊ท ์ ํน์ layer์์ ๋ฝ์ feature์ ํฌ๊ธฐ๊ฐ h x w x c๋ผ๋ฉด channel์ ๋ํด ํ๊ท ์ ๊ณ์ฐํ ๊ฒ์ผ๋ก h x w์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ฉฐ ์ด๋ฅผ ๋ก ํ์ํฉ๋๋ค.
์ต์ ํ ๊ณผ์ ์ ์์ฝํ๋ฉด ์๋์ ๊ฐ์ผ๋ฉฐ ์ฌ๊ธฐ์ ฮต๋ ์๋ณธ ์ด๋ฏธ์ง์ ์์ฑํ๋ ์ ๋์ ์์ ์ ์ฐจ์ด๋ฅผ ์ ํํ๋ parameter์
๋๋ค.
4. Experiment & Result
Experimental setup
Dataset : NIPS 2017 adversarial competition์์ ์ฌ์ฉ๋์๋ ImageNet-compatible dataset 1000์ฅ ์ฌ์ฉ
Baselines : PGD-ML, PGD-CW, PGD-LL
Evaluation metric : Fooling Rate, NLOR, ONLR
Result
Table 2๋ ๋ค์ํ ๋คํธ์ํฌ์ ๋ํ ์ฌ๋ฌ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ ์ฑ๋ฅ์ ๋น๊ตํ ํ์
๋๋ค. ์ ๋์ ์ด๋ฏธ์ง๋ฅผ ์
๋ ฅํ์ ๋ ๋คํธ์ํฌ๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ class๋ก ์ธ์ํ์ง ๋ชปํ ๋น์จ์ธ Fooling rate๋ ๋
ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ด ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ ์ผ ๋์ ๊ฐ์ ๊ฐ์ง๋๋ค. ๋ํ ๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ ์๋ก์ด ํ๊ฐ ์งํ์ธ NLOR์ ๋ํด์๋ ๋๋ถ๋ถ ๋์ ๊ฐ์ ๊ฐ์ง๋ฉฐ OLNR์ ์ ๋ถ ์ ์ผ ๋์ ๊ฐ์ ๊ฐ์ง๋๋ค. ์ด๋ฅผ ํตํด ๋
ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๊ณต๊ฒฉ ์ ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class๊ฐ ๊ณต๊ฒฉ ํ์๋ ํ๋ฅ ๊ฐ์ด ๋ง์ด ๋ฎ์์ง๊ณ ๊ทธ์ ๋์์ ๊ณต๊ฒฉ ํ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class๊ฐ ๊ณต๊ฒฉ ์ ์๋ ๋ง์ด ๋ฎ์ ํ๋ฅ ๋ก ์์ธก๋๋ class์์์ ์ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ ๋ฌธ์ ์ ์ผ๋ก ์ ๊ธฐ๋์๋ ์ ๋์ ์์ ๊ฐ ๋น์ทํ class๋ก ์์ธก๋๊ฑฐ๋ ๊ธฐ์กด class๋ก ์์ธกํ๋ ํ๋ฅ ๊ฐ์ด ์ฌ์ ํ ๋๋ค๋ ์ ์ ํด๊ฒฐํ์์ ํ์ธํ ์ ์์ต๋๋ค.
์ผ์ชฝ๋ถํฐ ์๋ณธ ์ด๋ฏธ์ง, PGD๋ก ์์ฑํ ์ ๋์ ์์ , FDA๋ก ์์ฑํ ์ ๋์ ์์ ๋ฅผ ํ๋ ๊ทธ๋ฆผ์ผ๋ก style transfer ํ ๊ฒฐ๊ณผ์
๋๋ค. PGD๋ก ์์ฑํ ์ ๋์ ์์ ์ style transfer ๊ฒฐ๊ณผ๋ ์๋ณธ ์ด๋ฏธ์ง์ ํํ๋ฅผ ์์๋ณผ ์ ์์ง๋ง FDA๋ก ์์ฑํ ์ ๋์ ์์ ์ style transfer ๊ฒฐ๊ณผ๋ ์๋ณธ ์ด๋ฏธ์ง์ ํํ๋ฅผ ์์๋ณด๊ธฐ ์ด๋ ต์ต๋๋ค. cross entropy loss๋ฅผ ์ฌ์ฉํ์ฌ ๋คํธ์ํฌ๊ฐ ์์ธกํ๋ label๋ง ๋ฌ๋ผ์ง๊ฒ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ ์๋ณธ ์ด๋ฏธ์ง์ ๊ณ ์ ํ ์ ๋ณด๊ฐ ๋จ์์๋ PGD์ ๋ฌ๋ฆฌ FDA๋ feature ๊ฐ์ ๋ณ๊ฒฝํ์ฌ ์๋ณธ ์ด๋ฏธ์ง์ ๊ณ ์ ํ ์ ๋ณด๋ฅผ ์ ๊ฑฐ๋์๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
5. Conclusion
์ ๋์ ์์ ์ ๋ํ ์๋ก์ด ํ๊ฐ ์งํ์ธ OLNR, NLOR์ ํตํด ๊ธฐ์กด ์ ๋์ ๊ณต๊ฒฉ์ ํ๊ณ๋ฅผ ํ์ธํ์์ต๋๋ค.
๋คํธ์ํฌ์ softamx ๋๋ pre-softmax๋ฅผ ์ฌ์ฉํ๋ ๊ธฐ์กด ์ ๋์ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ feature๋ฅผ ์ด์ฉํ๋ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ธ FDA์ ๊ณต๊ฒฉ ์ฑ๋ฅ์ด ์ฐ์ํ๋ค๋ ๊ฒ์ ์คํ์ ํตํด ์ ์ฆํ์์ต๋๋ค.
Take home message (์ค๋์ ๊ตํ)
์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๊ณผ์ ์ fature๋ฅผ ์ด์ฉํ์ฌ ์ ๋์ ๊ณต๊ฒฉ์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
Author / Reviewer information
Author
๊น์ค์ง (Kim Yoonji)
KAIST EE
yoonjikim@kaist.ac.kr
https://github.com/yoonjii
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
Last updated
Was this helpful?