Feature Disruptive Attack [Kor]
Ganeshan et al. / Feature Disruptive Attack / ICCV 2019
Last updated
Was this helpful?
Ganeshan et al. / Feature Disruptive Attack / ICCV 2019
Last updated
Was this helpful?
Deep neural network (DNN)๋ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๋ฌผ์ฒด ๊ฒ์ถ ๋ฑ ๋ค์ํ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ํ์ง๋ง DNN์ ์ด๋ฏธ์ง์ ์ธ๊ฐ์ ๋์ ์ ์ธ์๋์ง ์๋ ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ง๋ ์ ๋์ ์์ ์ ์ทจ์ฝํฉ๋๋ค. ์ด๋ฐ ์ ๋์ ์์ ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ ์ ๋์ ๊ณต๊ฒฉ์ด๋ผ ํฉ๋๋ค. ์ ๋์ ๊ณต๊ฒฉ๊ณผ ์ด๋ฅผ ๋ง๊ธฐ ์ํ ๋ฐฉ์ด ๊ธฐ๋ฒ๋ค์ด ์ ์๋๋ ๊ณผ์ ์์ ๋คํธ์ํฌ์ ์ทจ์ฝ์ฑ์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์ด๋ ๋คํธ์ํฌ์ ์ฑ๋ฅ๊ณผ robustness๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค. ๋ฐ๋ผ์, ์ ๋์ ์์ ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ๋ ๊ฒ์ ๋คํธ์ํฌ์ ๋ํ ์ดํด์ ์ฑ๋ฅ ํฅ์์ ๋์์ ์ค๋๋ค. ์ด๋ฏธ์ง ๋ถ๋ฅ์์์ ์ ๋์ ๊ณต๊ฒฉ์ ๋คํธ์ํฌ๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ class๋ก ์ธ์ํ์ง ๋ชปํ๋๋ก ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ์ ๋์ ์์ ๋ฅผ ๋ง๋๋ ๊ฒ์ ๋งํฉ๋๋ค. ๊ธฐ์กด์ ์ ๋์ ๊ณต๊ฒฉ๋ค์ DNN์ ๋ง์ง๋ง ๋ถ๋ถ์ ํด๋นํ๋ softmax ํน์ pre-softmax๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ์์ฑํ ์ ๋์ ์์ ๋ ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ด ์๋ค๊ณ ๋งํ๊ณ ์์ต๋๋ค. ์ฒซ ๋ฒ์งธ๋ ์ ๋์ ์์ ์ deep feature๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ์ฌ์ ํ ํฌํจํ๊ณ ์๋ค๋ ์ ์ด๊ณ ๋ ๋ฒ์งธ๋ network๊ฐ ์ ๋์ ์์ ๋ฅผ ์๋ณธ ์ด๋ฏธ์ง์ ์ ์ฌํ class๋ก ์ธ์ํ๊ฑฐ๋ ์๋ณธ ์ด๋ฏธ์ง๋ก ์์ธกํ๋ ํ๋ฅ ์ด ์ฌ์ ํ ๋๋ค๋ ์ ์ ๋๋ค.
FGSM ์๋ณธ ์ด๋ฏธ์ง๋ฅผ , ์๋ณธ ์ด๋ฏธ์ง์ class๋ฅผ , ๋คํธ์ํฌ์ cross entropy loss function J๋ผ๊ณ ํ์ ๋ ์ด๋ฏธ์ง ์ ๋ํ loss function์ gradient ๋ถํธ๋ฅผ ์ด์ฉํ์ฌ ์ ๋ํ loss function์ด ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ๋คํธ์ํฌ๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ class๋ก ์ธ์ํ์ง ๋ชปํ๋๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด FGSM (Fast Gradient Sign Method)์ด๋ผ๊ณ ํฉ๋๋ค.
PGD FGSM ๊ณผ์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ PGD ๋๋ I-FGSM (Iterative-FGSM)์ด๋ผ๊ณ ํฉ๋๋ค. ์ด๋ ๋์ ๊ฐ์ฅ ๋์ ํ๋ฅ ๋ก ์์๋๋ class์ธ ์ ์ฌ์ฉํ๋ฉด most-likely attack, PGD-ML์ด๋ผ๊ณ ํฉ๋๋ค. ๋์ ๊ฐ์ฅ ๋ฎ์ ํ๋ฅ ๋ก ์์๋๋ class์ธ ์ ์ฌ์ฉํ๊ณ loss๊ฐ ๊ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๊ฒ์ least likely attack, PGD-LL์ด๋ผ๊ณ ํฉ๋๋ค.
CW attack ์ฌ๊ธฐ์ ๋ logit (pre-softmax ๊ฐ)์ ์๋ฏธํ๋ฉฐ ๋ ๋ฒ์งธ๋ก ๋์ ๊ฐ์ ๊ฐ์ง๋ logit์์ ์ ์ผ ๋์ ๊ฐ์ ๊ฐ์ง๋ logit ๊ฐ์ ๋บ ๊ฐ์ loss๋ก ์ฌ์ฉํ๊ณ ์ด์ ๋๋ถ์ด ์๋ณธ ์ด๋ฏธ์ง์ ์ ๋์ ์์ ์ ๊ฑฐ๋ฆฌ๋ loss๋ก ํจ๊ป ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋์ loss๊ฐ ๊ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ ์กฐ์ ํ๋ ์ฒซ ๋ฒ์งธ loss์ ์๋ณธ ์ด๋ฏธ์ง์์ ์ฐจ์ด๋ฅผ ์กฐ์ ํ๋ ๋ ๋ฒ์งธ loss์ ๊ฐ์ค์น๋ฅผ ์ ๋นํ๊ฒ ์กฐ์ ํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์ด๋ฌํ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ CW attack (Carlini Wargner attack)๋ผ๊ณ ํ๋ฉฐ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ฉฐ ์ ๋์ ์์ ๋ฅผ ์ ๋ฐ์ดํธํ๊ธฐ ๋๋ฌธ์ PGD-CW์ด๋ผ๊ณ ๋ ํฉ๋๋ค.
MI-FGSM FGSM์ ์ต์ ํ ๊ณผ์ ์์ ๋ชจ๋ฉํ ์ ์ฌ์ฉํ์ฌ local optima๋ก ์๋ ดํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ณ ์ต์ ํ๋ฅผ ๋ ์์ ์ ์ผ๋ก ์งํํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ MI-FGSM (Momentum Iterative FGSM)์ด๋ผ๊ณ ํฉ๋๋ค.
์์ ๋ฐฉ๋ฒ๋ค์ฒ๋ผ ๊ธฐ์กด ์ ๋์ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ softmax ํน์ pre-softmax๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ค. ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ผ๋ก ์์ฑํ ์ ๋์ ์์ ๋ ๋คํธ์ํฌ๊ฐ ์๋ณธ class๋ก ์ ๋๋ก ๋ถ๋ฅํ์ง ๋ชปํ๋ ๊ฑด ๋ง์ง๋ง ์๋ณธ class์ ๋น์ทํ class๋ก ๋ถ๋ฅํ๊ฑฐ๋ ๊ฐ layer์ feature์ ์๋ณธ ์ด๋ฏธ์ง์ ๊ณ ์ ํ ์ ๋ณด๊ฐ ๋จ์์๋ค๋ ๋ฌธ์ ์ ์ด ์์ด์ ๋ณธ ๋ ผ๋ฌธ์์๋ feature๋ฅผ ์ด์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ ๋์ ์์ ์ ๋ํ ์๋ก์ด ํ๊ฐ ์งํ์ธ NLOR๊ณผ OLNR์ ์ ์ํ์ต๋๋ค.
Proposed evaluation metrics PGD-ML์ ๊ณต๊ฒฉ ์ ์ ๊ฐ์ฅ ๋์ ํ๋ฅ ๋ก ์์ธก๋์๋ class๋ก ์ธ์๋์ง ์์์ผ ํ๋ฏ๋ก ์๋ณธ ์ด๋ฏธ์ง์ ๋น์ทํ class๋ก ์ธ์๋๋๋ก ์ ๋์ ์์ ๊ฐ ์์ฑ๋ ์ ์์ต๋๋ค. ๋ฐ๋ฉด PGD-LL์ ๊ณต๊ฒฉ ์ ์ ๊ฐ์ฅ ๋ฎ์ ํ๋ฅ ๋ก ์์ธก๋์๋ class๋ก ์ธ์๋์ด์ผ ํ๋ฏ๋ก ์๋ณธ ์ด๋ฏธ์ง์ ์์ ํ ๋ค๋ฅธ class๋ก ์ธ์๋๋๋ก ์์ฑ๋๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋คํธ์ํฌ๊ฐ ์ ๋์ ์์ ๋ฅผ ์๋ณธ class๋ก ์์ธกํ์ง ์์๋์ง ๋ํ๋ด๋ Fooling rate๋ง์ผ๋ก ์ด๋ฐ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ ์ ์ฒด์ ์ธ ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ New Label Old Rank (NLOR)๊ณผ Old Label New Rank (OLNR)๋ฅผ ์ ์ํ์ต๋๋ค. NLOR์ ๊ณต๊ฒฉ ํ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class (new label)๊ฐ ๊ณต๊ฒฉ ์ ์ ๋ช ๋ฒ์งธ๋ก ๋์ ํ๋ฅ ๋ก ์์ธก๋์๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฒ์ด๊ณ OLNR์ ๊ณต๊ฒฉ ์ ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class(old label)๊ฐ ๊ณต๊ฒฉ ํ์ ๋ช ๋ฒ์งธ๋ก ๋์ ํ๋ฅ ๋ก ์์ธก๋๋์ง๋ฅผ ๋ํ๋ ๊ฒ์ ๋๋ค.
Proposed attack
Dataset : NIPS 2017 adversarial competition์์ ์ฌ์ฉ๋์๋ ImageNet-compatible dataset 1000์ฅ ์ฌ์ฉ
Baselines : PGD-ML, PGD-CW, PGD-LL
Evaluation metric : Fooling Rate, NLOR, ONLR
์ ๋์ ์์ ์ ๋ํ ์๋ก์ด ํ๊ฐ ์งํ์ธ OLNR, NLOR์ ํตํด ๊ธฐ์กด ์ ๋์ ๊ณต๊ฒฉ์ ํ๊ณ๋ฅผ ํ์ธํ์์ต๋๋ค.
๋คํธ์ํฌ์ softamx ๋๋ pre-softmax๋ฅผ ์ฌ์ฉํ๋ ๊ธฐ์กด ์ ๋์ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ feature๋ฅผ ์ด์ฉํ๋ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ธ FDA์ ๊ณต๊ฒฉ ์ฑ๋ฅ์ด ์ฐ์ํ๋ค๋ ๊ฒ์ ์คํ์ ํตํด ์ ์ฆํ์์ต๋๋ค.
์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๊ณผ์ ์ fature๋ฅผ ์ด์ฉํ์ฌ ์ ๋์ ๊ณต๊ฒฉ์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
๊น์ค์ง (Kim Yoonji)
KAIST EE
yoonjikim@kaist.ac.kr
https://github.com/yoonjii
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
๋ณธ ๋ ผ๋ฌธ์์๋ Cross entropy loss๋ฅผ ์ฌ์ฉํ์ฌ ๋จ์ํ ๋คํธ์ํฌ๊ฐ ์์ธกํ๋ label๋ง ๋ฐ๊พธ๋ ๋ฐฉ์์ ๊ณต๊ฒฉ์ด ์๋ feature๋ฅผ ๋ณ๊ฒฝํ์ฌ ๊ณต๊ฒฉํ๋ Feature Disruptive Attack (FDA)๋ฅผ ์ ์ํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ํ๊ท ๋ณด๋ค ๋์ ๊ฐ์ ๊ฐ์ง๋ feature๋ ํ์ฌ์ ์์ธก์ ์ง์งํ๋ feature๋ผ๊ณ ํ๋จํ์ฌ ํด๋น feature์ ๊ฑฐ๋ฆฌ๋ ๊ฐ์์ํค๊ณ ํ๊ท ๋ณด๋ค ๋ฎ์ ๊ฐ์ ๊ฐ์ง๋ feature๋ ํ์ฌ์ ์์ธก์ ์ง์งํ์ง ์๋ feature๋ผ๊ณ ํ๋จํ์ฌ ํด๋น feature์ ๊ฑฐ๋ฆฌ๋ ์ฆ๊ฐ์ํค๋ ๋ฐฉํฅ์ผ๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํฉ๋๋ค. ์ฌ๊ธฐ์ ๊ฑฐ๋ฆฌ ํจ์๋ L2-norm์ ์ฌ์ฉํ์๊ณ ํ๊ท ์ ํน์ layer์์ ๋ฝ์ feature์ ํฌ๊ธฐ๊ฐ h x w x c๋ผ๋ฉด channel์ ๋ํด ํ๊ท ์ ๊ณ์ฐํ ๊ฒ์ผ๋ก h x w์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ฉฐ ์ด๋ฅผ ๋ก ํ์ํฉ๋๋ค. ์ต์ ํ ๊ณผ์ ์ ์์ฝํ๋ฉด ์๋์ ๊ฐ์ผ๋ฉฐ ์ฌ๊ธฐ์ ฮต๋ ์๋ณธ ์ด๋ฏธ์ง์ ์์ฑํ๋ ์ ๋์ ์์ ์ ์ฐจ์ด๋ฅผ ์ ํํ๋ parameter์ ๋๋ค.
Table 2๋ ๋ค์ํ ๋คํธ์ํฌ์ ๋ํ ์ฌ๋ฌ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ ์ฑ๋ฅ์ ๋น๊ตํ ํ์ ๋๋ค. ์ ๋์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅํ์ ๋ ๋คํธ์ํฌ๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ class๋ก ์ธ์ํ์ง ๋ชปํ ๋น์จ์ธ Fooling rate๋ ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ด ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ ์ผ ๋์ ๊ฐ์ ๊ฐ์ง๋๋ค. ๋ํ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ ์๋ก์ด ํ๊ฐ ์งํ์ธ NLOR์ ๋ํด์๋ ๋๋ถ๋ถ ๋์ ๊ฐ์ ๊ฐ์ง๋ฉฐ OLNR์ ์ ๋ถ ์ ์ผ ๋์ ๊ฐ์ ๊ฐ์ง๋๋ค. ์ด๋ฅผ ํตํด ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๊ณต๊ฒฉ ์ ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class๊ฐ ๊ณต๊ฒฉ ํ์๋ ํ๋ฅ ๊ฐ์ด ๋ง์ด ๋ฎ์์ง๊ณ ๊ทธ์ ๋์์ ๊ณต๊ฒฉ ํ์ ์ ์ผ ๋์ ํ๋ฅ ๋ก ์์ธก๋๋ class๊ฐ ๊ณต๊ฒฉ ์ ์๋ ๋ง์ด ๋ฎ์ ํ๋ฅ ๋ก ์์ธก๋๋ class์์์ ์ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ค์ ๋ฌธ์ ์ ์ผ๋ก ์ ๊ธฐ๋์๋ ์ ๋์ ์์ ๊ฐ ๋น์ทํ class๋ก ์์ธก๋๊ฑฐ๋ ๊ธฐ์กด class๋ก ์์ธกํ๋ ํ๋ฅ ๊ฐ์ด ์ฌ์ ํ ๋๋ค๋ ์ ์ ํด๊ฒฐํ์์ ํ์ธํ ์ ์์ต๋๋ค.
์ผ์ชฝ๋ถํฐ ์๋ณธ ์ด๋ฏธ์ง, PGD๋ก ์์ฑํ ์ ๋์ ์์ , FDA๋ก ์์ฑํ ์ ๋์ ์์ ๋ฅผ ํ๋ ๊ทธ๋ฆผ์ผ๋ก style transfer ํ ๊ฒฐ๊ณผ์ ๋๋ค. PGD๋ก ์์ฑํ ์ ๋์ ์์ ์ style transfer ๊ฒฐ๊ณผ๋ ์๋ณธ ์ด๋ฏธ์ง์ ํํ๋ฅผ ์์๋ณผ ์ ์์ง๋ง FDA๋ก ์์ฑํ ์ ๋์ ์์ ์ style transfer ๊ฒฐ๊ณผ๋ ์๋ณธ ์ด๋ฏธ์ง์ ํํ๋ฅผ ์์๋ณด๊ธฐ ์ด๋ ต์ต๋๋ค. cross entropy loss๋ฅผ ์ฌ์ฉํ์ฌ ๋คํธ์ํฌ๊ฐ ์์ธกํ๋ label๋ง ๋ฌ๋ผ์ง๊ฒ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ ์๋ณธ ์ด๋ฏธ์ง์ ๊ณ ์ ํ ์ ๋ณด๊ฐ ๋จ์์๋ PGD์ ๋ฌ๋ฆฌ FDA๋ feature ๊ฐ์ ๋ณ๊ฒฝํ์ฌ ์๋ณธ ์ด๋ฏธ์ง์ ๊ณ ์ ํ ์ ๋ณด๋ฅผ ์ ๊ฑฐ๋์๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.