Feature Disruptive Attack [Kor]

Ganeshan et al. / Feature Disruptive Attack / ICCV 2019

1. Problem definition

Deep neural network (DNN)ėŠ” ģ“ėÆøģ§€ ė¶„ė„˜, ė¬¼ģ²“ ź²€ģ¶œ ė“± ė‹¤ģ–‘ķ•œ ģ»“ķ“Øķ„° ė¹„ģ „ ė¶„ģ•¼ģ—ģ„œ ķ›Œė„­ķ•œ ģ„±ėŠ„ģ„ ė³“ģž…ė‹ˆė‹¤. ķ•˜ģ§€ė§Œ DNNģ€ ģ“ėÆøģ§€ģ— ģøź°„ģ˜ ėˆˆģ— ģž˜ ģøģ‹ė˜ģ§€ ģ•ŠėŠ” ģž‘ģ€ ė…øģ“ģ¦ˆė„¼ ģ¶”ź°€ķ•˜ģ—¬ ė§Œė“  ģ ėŒ€ģ  ģ˜ˆģ œģ— ģ·Øģ•½ķ•©ė‹ˆė‹¤. ģ“ėŸ° ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ė§Œė“œėŠ” ė°©ė²•ģ„ ģ ėŒ€ģ  ź³µź²©ģ“ė¼ ķ•©ė‹ˆė‹¤. ģ ėŒ€ģ  ź³µź²©ź³¼ ģ“ė„¼ ė§‰źø° ģœ„ķ•œ ė°©ģ–“ źø°ė²•ė“¤ģ“ ģ œģ•ˆė˜ėŠ” ź³¼ģ •ģ—ģ„œ ė„¤ķŠøģ›Œķ¬ģ˜ ģ·Øģ•½ģ„±ģ— ėŒ€ķ•œ ģ—°źµ¬ź°€ ģ“ė£Øģ–“ģ§€ź³  ģ“ėŠ” ė„¤ķŠøģ›Œķ¬ģ˜ ģ„±ėŠ„ź³¼ robustnessė„¼ ķ–„ģƒģ‹œķ‚¬ ģˆ˜ ģžˆģŠµė‹ˆė‹¤. ė”°ė¼ģ„œ, ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ė§Œė“œėŠ” ė°©ė²•ģ„ ģ—°źµ¬ķ•˜ėŠ” ź²ƒģ€ ė„¤ķŠøģ›Œķ¬ģ— ėŒ€ķ•œ ģ“ķ•“ģ™€ ģ„±ėŠ„ ķ–„ģƒģ— ė„ģ›€ģ„ ģ¤ė‹ˆė‹¤. ģ“ėÆøģ§€ ė¶„ė„˜ģ—ģ„œģ˜ ģ ėŒ€ģ  ź³µź²©ģ€ ė„¤ķŠøģ›Œķ¬ź°€ ģ›ė³ø ģ“ėÆøģ§€ģ˜ classė”œ ģøģ‹ķ•˜ģ§€ ėŖ»ķ•˜ė„ė” ģ“ėÆøģ§€ģ— ė…øģ“ģ¦ˆė„¼ ģ¶”ź°€ķ•œ ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ė§Œė“œėŠ” ź²ƒģ„ ė§ķ•©ė‹ˆė‹¤. źø°ģ”“ģ˜ ģ ėŒ€ģ  ź³µź²©ė“¤ģ€ DNNģ˜ ė§ˆģ§€ė§‰ ė¶€ė¶„ģ— ķ•“ė‹¹ķ•˜ėŠ” softmax ķ˜¹ģ€ pre-softmaxė„¼ ģ‚¬ģš©ķ•˜ģ—¬ ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ģƒģ„±ķ•©ė‹ˆė‹¤. ė³ø ė…¼ė¬øģ—ģ„œėŠ” ģ“ė ‡ź²Œ ģƒģ„±ķ•œ ģ ėŒ€ģ  ģ˜ˆģ œėŠ” ė‘ ź°€ģ§€ ė¬øģ œģ ģ“ ģžˆė‹¤ź³  ė§ķ•˜ź³  ģžˆģŠµė‹ˆė‹¤. ģ²« ė²ˆģ§øėŠ” ģ ėŒ€ģ  ģ˜ˆģ œģ˜ deep featureź°€ ģ›ė³ø ģ“ėÆøģ§€ģ˜ ģ •ė³“ė„¼ ģ—¬ģ „ķžˆ ķ¬ķ•Øķ•˜ź³  ģžˆė‹¤ėŠ” ģ ģ“ź³  ė‘ ė²ˆģ§øėŠ” networkź°€ ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ģ›ė³ø ģ“ėÆøģ§€ģ™€ ģœ ģ‚¬ķ•œ classė”œ ģøģ‹ķ•˜ź±°ė‚˜ ģ›ė³ø ģ“ėÆøģ§€ė”œ ģ˜ˆģø”ķ•˜ėŠ” ķ™•ė„ ģ“ ģ—¬ģ „ķžˆ ė†’ė‹¤ėŠ” ģ ģž…ė‹ˆė‹¤.

2. Motivation

  1. PGD FGSM ź³¼ģ •ģ„ ģ—¬ėŸ¬ ė²ˆ ė°˜ė³µķ•œ ź³µź²© ė°©ė²•ģ„ PGD ė˜ėŠ” I-FGSM (Iterative-FGSM)ģ“ė¼ź³  ķ•©ė‹ˆė‹¤. ģ“ė•Œ yGTy_{GT} ėŒ€ģ‹  ź°€ģž„ ė†’ģ€ ķ™•ė„ ė”œ ģ˜ˆģƒė˜ėŠ” classģø yMLy_{ML}ģ„ ģ‚¬ģš©ķ•˜ė©“ most-likely attack, PGD-MLģ“ė¼ź³  ķ•©ė‹ˆė‹¤. yGTy_{GT} ėŒ€ģ‹  ź°€ģž„ ė‚®ģ€ ķ™•ė„ ė”œ ģ˜ˆģƒė˜ėŠ” classģø yLLy_{LL}ģ„ ģ‚¬ģš©ķ•˜ź³  lossź°€ ź°ģ†Œķ•˜ėŠ” ė°©ķ–„ģœ¼ė”œ ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ģƒģ„±ķ•˜ėŠ” ź²ƒģ€ least likely attack, PGD-LLģ“ė¼ź³  ķ•©ė‹ˆė‹¤.

  2. MI-FGSM FGSMģ˜ ģµœģ ķ™” ź³¼ģ •ģ—ģ„œ ėŖØė©˜ķ…€ģ„ ģ‚¬ģš©ķ•˜ģ—¬ local optimaė”œ ģˆ˜ė “ķ•˜ėŠ” ź²ƒģ„ ė°©ģ§€ķ•˜ź³  ģµœģ ķ™”ė„¼ ė” ģ•ˆģ •ģ ģœ¼ė”œ ģ§„ķ–‰ķ•  ģˆ˜ ģžˆė„ė” ķ•˜ėŠ” ė°©ė²•ģ„ MI-FGSM (Momentum Iterative FGSM)ģ“ė¼ź³  ķ•©ė‹ˆė‹¤.

Idea

ģœ„ģ˜ ė°©ė²•ė“¤ģ²˜ėŸ¼ źø°ģ”“ ģ ėŒ€ģ  ź³µź²© ė°©ė²•ė“¤ģ€ softmax ķ˜¹ģ€ pre-softmaxė„¼ ģ‚¬ģš©ķ•˜ģ—¬ ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ģƒģ„±ķ–ˆė‹¤. ķ•˜ģ§€ė§Œ ģ“ ė°©ė²•ģœ¼ė”œ ģƒģ„±ķ•œ ģ ėŒ€ģ  ģ˜ˆģ œėŠ” ė„¤ķŠøģ›Œķ¬ź°€ ģ›ė³ø classė”œ ģ œėŒ€ė”œ ė¶„ė„˜ķ•˜ģ§€ ėŖ»ķ•˜ėŠ” ź±“ ė§žģ§€ė§Œ ģ›ė³ø classģ™€ ė¹„ģŠ·ķ•œ classė”œ ė¶„ė„˜ķ•˜ź±°ė‚˜ ź° layerģ˜ featureģ— ģ›ė³ø ģ“ėÆøģ§€ģ˜ ź³ ģœ ķ•œ ģ •ė³“ź°€ ė‚Øģ•„ģžˆė‹¤ėŠ” ė¬øģ œģ ģ“ ģžˆģ–“ģ„œ ė³ø ė…¼ė¬øģ—ģ„œėŠ” featureė„¼ ģ“ģš©ķ•˜ģ—¬ ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ģƒģ„±ķ•˜ėŠ” ė°©ė²•ģ„ ģ œģ‹œķ–ˆģŠµė‹ˆė‹¤. ź·øė¦¬ź³  ģ ėŒ€ģ  ģ˜ˆģ œģ— ėŒ€ķ•œ ģƒˆė”œģš“ ķ‰ź°€ ģ§€ķ‘œģø NLORź³¼ OLNRģ„ ģ œģ‹œķ–ˆģŠµė‹ˆė‹¤.

3. Method

  1. Proposed evaluation metrics PGD-MLģ€ ź³µź²© ģ „ģ— ź°€ģž„ ė†’ģ€ ķ™•ė„ ė”œ ģ˜ˆģø”ė˜ģ—ˆė˜ classė”œ ģøģ‹ė˜ģ§€ ģ•Šģ•„ģ•¼ ķ•˜ėƀė”œ ģ›ė³ø ģ“ėÆøģ§€ģ™€ ė¹„ģŠ·ķ•œ classė”œ ģøģ‹ė˜ė„ė” ģ ėŒ€ģ  ģ˜ˆģ œź°€ ģƒģ„±ė  ģˆ˜ ģžˆģŠµė‹ˆė‹¤. ė°˜ė©“ PGD-LLģ€ ź³µź²© ģ „ģ— ź°€ģž„ ė‚®ģ€ ķ™•ė„ ė”œ ģ˜ˆģø”ė˜ģ—ˆė˜ classė”œ ģøģ‹ė˜ģ–“ģ•¼ ķ•˜ėƀė”œ ģ›ė³ø ģ“ėÆøģ§€ģ™€ ģ™„ģ „ķžˆ ė‹¤ė„ø classė”œ ģøģ‹ė˜ė„ė” ģƒģ„±ėœė‹¤ź³  ė³¼ ģˆ˜ ģžˆģŠµė‹ˆė‹¤. ė„¤ķŠøģ›Œķ¬ź°€ ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ģ›ė³ø classė”œ ģ˜ˆģø”ķ•˜ģ§€ ģ•Šģ•˜ėŠ”ģ§€ ė‚˜ķƒ€ė‚“ėŠ” Fooling rateė§Œģœ¼ė”œ ģ“ėŸ° ź³µź²© ė°©ė²•ė“¤ģ˜ ģ „ģ²“ģ ģø ģ„±ėŠ„ģ„ ė¹„źµķ•˜źø° ģ–“ė µģŠµė‹ˆė‹¤. ė”°ė¼ģ„œ ė³ø ė…¼ė¬øģ—ģ„œėŠ” New Label Old Rank (NLOR)ź³¼ Old Label New Rank (OLNR)ė„¼ ģ œģ•ˆķ–ˆģŠµė‹ˆė‹¤. NLORģ€ ź³µź²© ķ›„ģ— ģ œģ¼ ė†’ģ€ ķ™•ė„ ė”œ ģ˜ˆģø”ė˜ėŠ” class (new label)ź°€ ź³µź²© ģ „ģ— ėŖ‡ ė²ˆģ§øė”œ ė†’ģ€ ķ™•ė„ ė”œ ģ˜ˆģø”ė˜ģ—ˆėŠ”ģ§€ė„¼ ė‚˜ķƒ€ė‚“ėŠ” ź²ƒģ“ź³  OLNRģ€ ź³µź²© ģ „ģ— ģ œģ¼ ė†’ģ€ ķ™•ė„ ė”œ ģ˜ˆģø”ė˜ė˜ class(old label)ź°€ ź³µź²© ķ›„ģ— ėŖ‡ ė²ˆģ§øė”œ ė†’ģ€ ķ™•ė„ ė”œ ģ˜ˆģø”ė˜ėŠ”ģ§€ė„¼ ė‚˜ķƒœėŠ” ź²ƒģž…ė‹ˆė‹¤.

  2. Proposed attack

4. Experiment & Result

Experimental setup

  • Dataset : NIPS 2017 adversarial competitionģ—ģ„œ ģ‚¬ģš©ė˜ģ—ˆė˜ ImageNet-compatible dataset 1000ģž„ ģ‚¬ģš©

  • Baselines : PGD-ML, PGD-CW, PGD-LL

  • Evaluation metric : Fooling Rate, NLOR, ONLR

Result

5. Conclusion

  1. ģ ėŒ€ģ  ģ˜ˆģ œģ— ėŒ€ķ•œ ģƒˆė”œģš“ ķ‰ź°€ ģ§€ķ‘œģø OLNR, NLORģ„ ķ†µķ•“ źø°ģ”“ ģ ėŒ€ģ  ź³µź²©ģ˜ ķ•œź³„ė„¼ ķ™•ģøķ•˜ģ˜€ģŠµė‹ˆė‹¤.

  2. ė„¤ķŠøģ›Œķ¬ģ˜ softamx ė˜ėŠ” pre-softmaxė„¼ ģ‚¬ģš©ķ•˜ėŠ” źø°ģ”“ ģ ėŒ€ģ  ź³µź²© ė°©ė²•ė“¤ė³“ė‹¤ ė³ø ė…¼ė¬øģ—ģ„œ ģ œģ•ˆķ•œ featureė„¼ ģ“ģš©ķ•˜ėŠ” ź³µź²© ė°©ė²•ģø FDAģ˜ ź³µź²© ģ„±ėŠ„ģ“ ģš°ģˆ˜ķ•˜ė‹¤ėŠ” ź²ƒģ„ ģ‹¤ķ—˜ģ„ ķ†µķ•“ ģž…ģ¦ķ•˜ģ˜€ģŠµė‹ˆė‹¤.

Take home message (ģ˜¤ėŠ˜ģ˜ źµķ›ˆ)

ģ ėŒ€ģ  ģ˜ˆģ œė„¼ ģƒģ„±ķ•˜ėŠ” ź³¼ģ •ģ— fatureė„¼ ģ“ģš©ķ•˜ģ—¬ ģ ėŒ€ģ  ź³µź²©ģ˜ ģ„±ėŠ„ģ„ ķ–„ģƒģ‹œķ‚µė‹ˆė‹¤.

Author / Reviewer information

Author

ź¹€ģœ¤ģ§€ (Kim Yoonji)

  • KAIST EE

  • yoonjikim@kaist.ac.kr

  • https://github.com/yoonjii

Reviewer

  1. Korean name (English name): Affiliation / Contact information

  2. Korean name (English name): Affiliation / Contact information

Last updated