Improving the Transferability of Adversarial Samples With Adversarial Transformations [Kor]
Wu, Weibin, et al. / Improving the Transferability of Adversarial Samples with Adversarial Transformations / CVPR2021
1. Problem definition
์ ๋์ ์์ (Adversarial Samples)
์ ๋์ ์์ ๋ ์ฌ๋์ ๋์ผ๋ก๋ ์ธ์ํ ์ ์๋ ๋ฏธ์ธํ ์ก์(perturbation)์ ์๋์ ์ผ๋ก ์๋์ ์ ๋ ฅ์ ๋ํด ์์ฑํ ์์ ์ด๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ์์ ๋ ์ ๊ฒฝ๋ง์ ๋์ ํ๋ฅ ๋ก ์ค๋ถ๋ฅํ๋๋ก ํ๋ค.
๊ตฌ์ฒด์ ์ผ๋ก ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์๋ณธ ์ด๋ฏธ์ง $ x $์ ๋ฏธ์ธํ ์ก์ $ \delta $๋ฅผ ๋ํด ์ ๋์ ์์ $ x_{adv} $๋ฅผ ์์ฑํ ์ ์๋ค.

์ ๋์ ๊ณต๊ฒฉ (Adversarial Attacks)
์ ๋์ ๊ณต๊ฒฉ์ ์๋์ ์ผ๋ก ์์ฑ๋ ์ ๋์ ์์ ๋ฅผ ์ด์ฉํ์ฌ ๋คํธ์ํฌ๊ฐ ์ค์๋ํ๋๋ก ํ๋ ๊ณต๊ฒฉ์ด๋ค. ์ ๋์ ๊ณต๊ฒฉ์ ๊ณต๊ฒฉ์๊ฐ ๊ฐ์ง๊ณ ์๋ ๋คํธ์ํฌ์ ์ ๋ณด์ ๋ฐ๋ผ ํฌ๊ฒ ๋๊ฐ์ง๋ก ๋๋ ์ ์๋ค.
white box ๊ณต๊ฒฉ: ๊ณต๊ฒฉ์๊ฐ ํ๊ฒ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์๋ ํ๊ฒฝ์์ ํ๋ ์ ๋์ ๊ณต๊ฒฉ.
black box ๊ณต๊ฒฉ: ๊ณต๊ฒฉ์๊ฐ ํ๊ฒ ๋ชจ๋ธ์ ๋ด๋ถ ์ ๋ณด๋ฅผ ์ ์ ์๋ ํ๊ฒฝ์์ ํ๋ ์ ๋์ ๊ณต๊ฒฉ.
์ ๋์ ์์ ์์ฑ
์๋ณธ ์ด๋ฏธ์ง $ x $, ์๋ณธ ํด๋์ค $ y $, ์ ๋์ ์์ $ x_{adv} $, ์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ (image classifier) $ f(x) $ ๋ผ๊ณ ํ์. ์ ๋์ ์์ ๋ ๋ค์ ๋ ์กฐ๊ฑด์ ๋ง์กฑํด์ผ ํ๋ค.
์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ $ f $์ ์์ค ํจ์ (loss function)์ $ J(f(x),y) $ ๋ผ๊ณ ํ ๋, ์ ๋์ ์์ ์ ์์ฑ ๊ณผ์ (๊ณต๊ฒฉ ๊ณผ์ ) ์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
์ด์ ๊ฐ์ด, ์์ค ํจ์๋ฅผ ์ฆ๊ฐ์์ผ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ค.
2. Motivation
Related work
์ ์ด์ฑ ๊ธฐ๋ฐ ์ ๋์ ๊ณต๊ฒฉ (Transfer-based Attack)
์์ค ๋ชจ๋ธ์ ์ด์ฉํด ์์ฑํ ์ ๋์ ์์ ๋ก ํ๊ฒ ๋ชจ๋ฐ์ ๊ต๋ํ๋ ๊ณต๊ฒฉ์ด๋ค. black box ๊ณต๊ฒฉ์์ ํ์ต ๋ฐ์ดํฐ์ ์ ๊ทผํ ์ ์์ง๋ง ํ๊ฒ ๋ชจ๋ธ์๋ ์ ๊ทผ ํ ์ ์๋ ๊ฒฝ์ฐ, ์ ์ด์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณต๊ฒฉํ ์ ์๋ค. ์ ์ด์ฑ์ด ๋์ ์ ๋์ ์์ ๋ ์ ์ด์ฑ ๊ธฐ๋ฐ ์ ๋์ ๊ณต๊ฒฉ์ ์ฑ๊ณต๋ฅ ์ ์ฆ๊ฐ์ํจ๋ค. ๊ทธ๋ฌ๋ ์ ๋์ ์์ ๊ฐ ์์ค ๋ชจ๋ธ์ ๊ณผ์ ํฉ(overfitting)๋ ๊ฒฝ์ฐ, ๋ฎ์ ์ ์ด์ฑ์ ๊ฐ์ง๊ฒ ๋๋ค.
** ์ ์ด์ฑ ** : ์ด๋ค ๋ชจ๋ธ A (์์ค๋ชจ๋ธ)๋ฅผ ์ด์ฉํ ์์ฑํ ์ ๋์ ์์ ๊ฐ ๊ตฌ์กฐ๊ฐ ๋ค๋ฅธ ์ฌ๋ฌ ๋ชจ๋ธ _ B, C, D, E, ... _(ํ๊ฒ ๋ชจ๋ธ)์ ๋ํด์๋ ์ ๋์ ์ผ๋ก ์์ฉํ๋ ํน์ฑ.
์
๋ ฅ์ ๋ค๋ณํ (Input Transformation)
์ ๋์ ์์ ์ ์ ์ด์ฑ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ก, ์ ๋์ ์์ ์ ์์ฑ๊ณผ์ ์์ ์์ค ๋ชจ๋ธ์ ์ ๋ ฅ์ ๋ณํํ์ฌ ์์ค ๋ชจ๋ธ์ ๊ณผ์ ํฉ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Translate-Invariant Method (TIM) ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ $ x $์ถ, $ y $์ถ์ผ๋ก ๋ช ํฝ์ ์ฉ ํํ ์ด๋ ์ํจ ์ฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ํ, ๊ทธ ์ด๋ฏธ์ง๋ค์ ์ด์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Scale-Invariant Method (SIM) ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ์ ํฝ์ ๊ฐ์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ์ฌ ์์ฑํ ์ฌ๋ฌ ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ํ, ๊ทธ ์ด๋ฏธ์ง ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Diversity Input Method (DIM) ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ฌด์์ ๋ฆฌ์ฌ์ด์ง (resizing) ํ ํ, 0 ๊ฐ์ผ๋ก ํจ๋ฉ (padding) ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ฌ ๊ทธ ์ด๋ฏธ์ง๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Idea
์๊ฐํ๋ ๋ ผ๋ฌธ์์๋ ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ ์์ค ๋ชจ๋ธ์ ๊ณผ์ ํฉ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํ ์ ๋์ ๋ณํ ๋คํธ์ํฌ (Adversarial Transformation Network)๋ฅผ ์ ์ํ๋ค. ๋ชจ๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๊ฐ์ ๋ณํ์ ์ ์ฉํ๊ฑฐ๋, ๋ณํ์ ์ ๋๋ง ๋ฐ๊ฟ์ ์ ์ฉํ๋ ๊ฒ์ ๊ทธ ๋ณํ ์์ฒด์ ๊ณผ์ ํฉ๋์ด, ์ ์ด์ฑ์ ํฅ์์ํค๋ ๋ฐ ํ๊ณ๊ฐ ์์ ์ ์๋ค. ๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํด ์ ํฉํ ๋ณํ์ ์ ์ฉํ์ฌ ํจ๊ณผ์ ์ผ๋ก ์์ค ๋ชจ๋ธ์ ๋ํ ๊ณผ์ ํฉ์ ํผํ๊ณ ์ ๋์ ์์ ์ ์ ์ด์ฑ์ ๋์ด๊ณ ์ ํ๋ค.

3. Method
์ ๋์ ๋ณํ ๋คํธ์ํฌ (Adversarial Transformation Network)
์ ๋์ ๋ณํ ๋คํธ์ํฌ๋ 2๊ฐ ์ธต์ CNN์ผ๋ก ์ด๋ฃจ์ด์ ธ blur, sharpening ๋ฑ์ ๋ณํ ํจ๊ณผ๋ฅผ ๋ํ๋ผ ์ ์๋ค.
์ ๋์ ๋ณํ ๋คํธ์ํฌ๋ ์ ๋์ ์์ ๊ฐ ์๊ฐํ๋ ๋ ผ๋ฌธ์์๋ ์ ๋์ ์์ ์ ์์ฑ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ธ๋ค. H๋ ์ ๋์ ๋ณํ ๋คํธ์ํฌ๋ฅผ ๋ํ๋ธ๋ค.
์์ค ๋ชจ๋ธ์ ์์ค ํจ์๋ฅผ ์ฆ๊ฐ์์ผ ์ ๋์ ์์ ๋ฅผ ์ ๋ฐ์ดํธํ ํ, ๋ฐ๋๋ก ์์ค ํจ์๋ฅผ ๊ฐ์์์ผ ์ ๋์ ๋ณํ ๋คํธ์ํฌ์ ํ๋ฆฌ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค. ์ด๋ ๊ฒ ํ์ต๋ ์ ๋์ ๋ณํ ๋คํธ์ํฌ๋ ์ ๋์ ์ธ ์์ ๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ๋ ์ ์๋๋ก ํ๋ ๋ณํ์ ํํํ๋ค.
๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํด ํ์ต๋ ๋ณํ ๋คํธ์ํฌ๋ ์ ๋์ ์์ ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๊ณผ์ ์์ ์ ๋์ ์์ ๊ฐ ์ ๋์ ์ด์ง ์๋๋ก ํ๋ ๋ณํ์ ์ ์ฉํ๋ค. ์ด๋ ์ ๋์ ์์ ์์ฑ๊ณผ์ ์์ ๋์์ด ๋์ง ์๋ (harmful)ํ ๋ณํ์ ์ ์ฉ์์ผ, ์์ฑ๋ ์ ๋์ ์์ ๊ฐ ์ด๋ ํ ์ด๋ฏธ์ง ์๊ณก์๋ ๊ฐํ๋๋ก (robust) ํ๊ธฐ ์ํจ์ด๋ค.
Since only adopting a fixed transformation may lead to poor generalization to unknown ones, we endeavor to address the issue of explicitly modeling the applied image transformations by figuring out the most harmful image transformations to each adversarial image. We expect that if the generated adversarial samples can resist the toughest image deformations, they can also survive under other weaker distortions.
์์ ์(1)์์ ์ ๋์ ์์ ๋ฅผ ์ ๋ฐ์ดํธํ๋ inner loop ์์ ์ฌ์ฉ๋๋ loss๋ ๋ค์๊ณผ ๊ฐ๋ค.
$ T $๋ ๋ณํ์ ๋ํ๋ด๋ฉฐ, ์ ๋์ ์์ ๊ณผ ๋ณํ์ ์ ์ฉํ ์ ๋์ ์์ ์ ๋ํ ์์ค ํจ์๋ฅผ ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋์ ์์ $ x_{adv} $๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
์ (1)์ outer loop ์์ ์ฌ์ฉ๋๋ loss๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ์ ์งํ๋ฉด์ ์ ๋์ ์์ $ x_{adv} $์ ์ ๋์ ์ธ ํจ๊ณผ๋ฅผ ์์ ๋๋ก ํ๋ $ T $๋ฅผ ์ฐพ๋๋ค. ์ด๋ฌํ ๋ณํ์ ์ ๋ ฅ ์ด๋ฏธ์ง ํ๋ ํ๋์ ์ ์ฉ๋์ด adaptiveํ ๋ณํ์ ๋ง๋ค ์ ์๋ค.
์ ๋์ ๋ณํ ๋คํธ์ํฌ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ ๋์ ์์ ์์ฑ ( Syntehsizing Adversarial Samples)
์ ๋์ ์์ ์ ์์ฑ๊ณผ์ ์ ๋ค๋ฅธ ์ ๋ ฅ ๋ค๋ณํ ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ๋ค. ์ฐจ์ด์ ์ผ๋ก, ์์ฑ๊ณผ์ ์์ ์ฌ์ฉ๋๋ loss์ ๋๋ฒ์งธ term์ ์ถ๊ฐํ๋ค.
์ ๋์ ์์ ๋ฅผ ์์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
4. Experiment & Result
This section should cover experimental setup and results. Please focus on how the authors of paper demonstrated the superiority / effectiveness of the proposed method.
Note that you can attach tables and images, but you don't need to deliver all materials included in the original paper.
Experimental setup
Dataset : ImageNet dataset
์ ๋์ ๋ณํ ๋คํธ์ํฌ ํ์ต์๋ ILSVRC 2012 training set์ ์ฌ์ฉ.
์ ๋์ ์์ ์์ฑ์๋ ILSVRC 2012 validation set ์ค ๊ฐ ๋ค๋ฅธ ์นดํ ๊ณ ๋ฆฌ์์ ๋๋คํ๊ฒ ๊ณ ๋ฅธ 1000์ฅ์ ์ด๋ฏธ์ง ์ฌ์ฉ. ์ด๋ [2]{}์์ ์ฌ์ฉ๋ ์ด๋ฏธ์ง์ ๊ฐ์.
Baselines : FGSM, I-FGSM, MI-FGSM, NI-FGSM, TIM, SIM, DIM
Source Model
ResNet v2 (Res-v2)
Inception v3 (Incv3)
Inception v4 (Inc-v4)
Inception-ResNetv2 (IncRes-v2)
Training setup
์ ๋์ ๋ณํ ๋คํธ์ํฌ ๊ตฌ์กฐ : $ Conv_{3\times 3} \bullet LeakyReLu \bullet Conv_{3\times 3} $
์ ๋์ ๋ณํ ๋คํธ์ํฌ ํ์ต iteration: $ K_{inner} = 10 $, $ K_{outer} =10 $
$ \epsilon = 16 $
์ ๋์ ์์ ์์ฑ iteration : $ K = 10 $
$ \alpha_1 =1.0, \alpha_2 =10.0, \beta = 1.0, \gamma = 1.0 $
Evaluation metric ** ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ (Attack Success Rate) ** ๋ ํ๊ฒ ๋ชจ๋ธ์ด ์ ๋์ ์์ ๋ฅผ ์ค๋ถ๋ฅํ ๋น์จ์ ๋ํ๋ธ๋ค. ์ ๋์ ์์ ์ ๋ํ ํ๊ฒ ๋ชจ๋ธ์ ์ ํ๋๊ฐ ๋ฎ์ ์๋ก ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ด ๋๋ค. ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ด ๋์ ์๋ก, ์ ๋์ ์์ ์ ์ ์ด์ฑ์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
Result


์์ ๊ฒฐ๊ณผ์์ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์ ** ATTA(Ours) ** ์ ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ด ๋๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๋๋ฒ์งธ ํ ์ด๋ธ์์ ๋ฐฉ์ด(defense) method์ ๋ํด์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค.
5. Conclusion
์คํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ ๋์ ๋ณํ ๋คํธ์ํฌ๊ฐ ๋ํ๋ด๋ ๋ณํ์ผ๋ก ์ ๋์ ์์ ๋ฅผ ์์ฑํ์ ๋, ์ ์ด์ฑ์ ๋ํ ์ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ฒ์์ผ๋ก ๊ฐ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํด adaptive ํ ๋ณํ์ ๋ํ๋ด๊ธฐ ์ํด CNN์ ์ฌ์ฉํ๋ค. ๊ทธ๋ฌ๋ CNN์ด ๋ํ๋ผ ์ ์๋ ๋ณํ์ ํ๊ณ๊ฐ ์๋ค๋ ์ ์ด ์์ฝ๋ค.
Take home message (์ค๋์ ๊ตํ)
Adaptive method๋ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ก ํจ๊ณผ์ ์ด๋ค.
Author / Reviewer information
You don't need to provide the reviewer information at the draft submission stage.
Author
** ์๋ฏผ์ง (Son Minji) **
KAIST Electrical Engineering
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Wu, Weibin, et al. "Improving the transferability of adversarial samples with adversarial transformations." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
Dong, Yinpeng, et al. "Evading defenses to transferable adversarial examples by translation-invariant attacks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
Lin, Jiadong, et al. "Nesterov accelerated gradient and scale invariance for adversarial attacks." arXiv preprint arXiv:1908.06281 (2019).
Xie, Cihang, et al. "Improving transferability of adversarial examples with input diversity." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
Last updated
Was this helpful?