SANforSISR [Kor]
Dai et al. / Second-Order Attention Network for Single Image Super-Resolution / CVPR 2019
1. Introduction
Single Image Super-Resolution(SISR) ๋ถ์ผ์ Convolutional Neural Network(CNN)๊ฐ ๋์ ๋๋ฉฐ ํฐ ์ฑ๋ฅ์ ํฅ์์ด ์ด๋ฃจ์ด์ก๋ค. ์ฌ๊ธฐ์ ๊ธฐ์กด CNN based SISR methods ๋ wider/deeper architecture design์ ์ง์คํ๋๋ฐ, ์ด๋ intermediate layers ๊ฐ feature correlation์ ๋ฌด์ํ์ฌ CNN์ representational power์ ๋ฐฉํดํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด ๋ ผ๋ฌธ์์๋ Second-order Attention Network(SAN)๋ฅผ ์ ์ํ๋ค.
Second-Order Channel Attention(SOCA) module์ first-order๋ณด๋ค ๋ ๋์ feature correlation ํ์ต์ ์ํ ๋ฉ์ปค๋์ฆ์ด๋ค. ์ด๋ discriminative representation ํฅ์์ ์ํด second-order feature statics๋ฅผ ์ฌ์ฉํ์๋ค. channel-wise features๋ฅผ adaptively rescaleํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฅผ ํ์ฉํ์๋๋ฐ, ์ด๋ ๋คํธ์ํฌ๊ฐ '๋ ์ค์ํ ์ ๋ณด๋ฅผ ๊ฐ๋ feature'์ ์ง์คํ๊ฒ ๋ง๋ค์ด ํ์ต ๋ฅ๋ ฅ์ ํฅ์์์ผฐ๋ค๋ ๊ฒ์ด๋ค.
Non-locally Enhanced Residual Group(NLRG) structure์ Local-Source Residual Attention Group(LSRAG)๋ฅผ ํฌํจํ๋ ์ฐ์ฐ์ผ๋ก, long-distance spatial contextual information์ ์์งํ๋ non-local ์ฐ์ฐ์ด๋ค. ์ถ์์ ์ธ feature representation ํ์ต์ ์ํ LSRAG๋ก, Low-Resolution(LR) image์์ ๋ง์ ์ ๋ณด๋ฅผ ์์งํ๊ณ low frequency ์ ๋ณด๋ฅผ ํต๊ณผ์ํค๋ ๋ฐฉ๋ฒ์ ํ์ฉํ์๋ค.
2. Related Work
CNN-based SR models
์ต๊ทผ CNN-based methods๋ nonlinear ํํ์ ๊ฐ์ ๋๋ฌธ์ SR์ ๋ง์ด ์ด์ฉ๋์๋ค. ์ด๋ SR์ ์ด๋ฏธ์ง-์ด๋ฏธ์ง ๊ฐ ๋ฌธ์ ๋ก ์๊ฐํ์ฌ LR-HR ๊ฐ ๋งคํ์ผ๋ก ์ง์ ๋ฌ๋์ ์คํํ๋ค. ์ด๋ฌํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ฃผ๋ก deeper/wider ๋คํธ์ํฌ ์ค๊ณ๋ฅผ ์ค์ ์ผ๋ก ํ์๋ค.
Attention mechanism
์ธ๊ฐ์ ์๊ฐ ์ ๋ณด๋ฅผ adaptiveํ๊ฒ ์ฒ๋ฆฌํ๋ฉฐ, ์ค์ํ ์์ญ์ ์๊ฐ์ ์ง์คํ๋ ๊ฒฝํฅ์ ๊ฐ๊ณ ์๋ค. ์ด๋ฌํ ์๋ฆฌ๋ฅผ CNN์ ์ ์ฉํ ๊ฒ์ด Attention์ ์์์ด๋ค.
SENet์ channel-wise relationship ํ์ฉ์ ํตํด ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์งํํ๋ค. SR ์ฑ๋ฅ ํฅ์์ ์ํด deep-CNN์ ๋์ ํ์ผ๋, SENet์ first-order statistics๋ง ํ์ฉํ๋ค. ์ฆ, higher order statistics๋ฅผ ๋ฌด์ํ๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ์ discriminative ability๊ฐ ์ ํ๋๋ค๋ ๋จ์ ์ ๊ฐ๊ณ ์๋ค.
3. Method
Second-order Attention Network (SAN)
Network Framework

- Shallow feature extraction
๋จ์ผ convolution layer๋ง ์ฌ์ฉํ์ฌ shallow feature์ ์ถ์ถํ๋ ๋จ๊ณ์ด๋ค.

- Non-locally enhanced residual group (NLRG) based deep feature extraction
2๊ฐ์ Region-level Non-local module(RL-NL) ์ฌ์ด์ Share-source Residual Group(SSRG)์ผ๋ก ๊ตฌ์ฑ๋ ๋จ๊ณ์ด๋ค. ์ฌ๊ธฐ์ SSRG๋ ์ฌ๋ฌ(G)๊ฐ์ Local-Source Residual Attention Groups(LSRAG)๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. LSRAG๋ 2๊ฐ์ Residual block ์ฌ์ด์ ์ฌ๋ฌ Conv. layers + 1 ReLU layer ์ ๊ตฌ์ฑ์ SOCA module์ด ๋ค์ด์๋ ํํ์ด๋ค.
NLRG ๋ด๋ถ์ module ๋ฐ layers๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.

SSRG: Share Source Skip Connection(SSC)์ ํ์ฉํ๋ G * LSRAG modules๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
LSRAG: SSC๋ฅผ ํ์ฉํ๋ M * residual blocks๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
SOCA: inter-dependencies๋ฅผ ํ์ฉํ๋ค.
์ ์ฒด์ ๊ตฌ์ฑ์์ ๋ณด์ด๋ฏ์ด, residual blocks๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ด๋ ๋ ๊น์ CNN์ ํ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋, bottle-neck์ด ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌํ๋ค. ๊ทธ๋ ๊ธฐ์ LSRAG์ ํ์ฉ์ ์ ์๋์์ผ๋, LSRAG ๋ง์ผ๋ก๋ ์ฑ๋ฅ์ด ๋ถ์กฑํ๊ธฐ์ SSC๋ฅผ ์ถ๊ฐ๋ก ํ์ฉํ์ฌ ํ์ต ์ด์ง๋ฐ low-frequency ์ ๋ณด๋ฅผ ํต๊ณผ์ํค๋๋ก ํ์๋ค.
g-th LSRAG(H_g): ![]()
g-th LSRAG, m-th residual block: ![]()
Local source skip connection: ![]()
RL-NL: non-local NN์ high-level task์์ ์ ์ฒด image์ long-range dependency๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ ์ ์ํ๋ค. ๊ทธ๋ฌ๋ global-level non-local operation์ ๊ณผ๋ํ ์ฐ์ฐ๋ ๋ฑ์ ๋ฌธ์ ์ ์ด ์์ผ๋ฏ๋ก, ์ด๋ฅผ global-level์ด ์๋ region-level๋ก ์งํํ๋ ๊ฒ์ด RL-NL์ด๋ค.
์์ ๊ฐ์ด ๊ตฌ์ฑ๋ NLRG๋ ๋งค์ฐ ๊น์ depth ์ receptive field๋ฅผ ๊ฐ์ง๊ณ ์๋๋ฐ, ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ์์ฝํ ์ ์๋ค.

- Up-scale module
์์ ๊ณผ์ ์ผ๋ก๋ถํฐ ์ป์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก Up-scale์ ์งํํ๋ ๋จ๊ณ์ด๋ค. ์ฌ๋ฌ๊ฐ์ง ์ ํ์ง๊ฐ ์กด์ฌํ๋ฏ๋ก, complexity์ performance ๊ฐ์ trade-off๋ฅผ ๊ณ ๋ คํ์ฌ ์ ํํด์ผํ๋ค.

๋ณธ ๋ ผ๋ฌธ์์๋ ์ต๊ทผ CNN-based SR์์ ์์ฃผ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ธ pixel shuffle method๋ฅผ ์ฌ์ฉํ์๋ค.
- Reconstruction
๋จ์ผ convolution layer์ ์ด์ฉํด feature์ SR image๋ก mappingํ๋ ๋จ๊ณ์ด๋ค.

์ด ๋, Loss function(L1 loss)๋ ๋ค์๊ณผ ๊ฐ๋ค.

4. Experiment & Result
Experiment
Setup
SSRG ๋ด๋ถ LSRAG ๊ฐ์ G = 20
LSRAG ๋ด๋ถ residual block ๊ฐ์ M = 10 : SOCA module (reduction ratio 16์ธ 1x1 convolution filter) + convolution filters (3x3 64 channel filter)
Up-scale module: pixel shuffle method
Training set: DIV2K
Result
- Zoom visual from Urban 100

๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ธ (h)๊ฐ ์ด ์ค (a) HR ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์ ์ฌํ๋ค๋ ๊ฒ์์, ๋ค๋ฅธ SR ๋ชจ๋ธ (b)~(g)์ ๋น๊ตํ์ฌ visual quality ๋ฐ image detail์ด ์ข๋ค๋ ๊ฒ์ด ํ์ธ ๊ฐ๋ฅํ๋ค.
- Urban 100

์ figure์ Visual comparision for 4x SR with BI model on Urban100 dataset ์ด๋ค. ๊ฐ ๊ฒฝ์ฐ์ ์ฒซ๋ฒ์งธ ์ฌ์ง์ด HR(original)์ด๊ณ , 10๋ฒ์งธ ์ฌ์ง์ด ๋ณธ ๋ ผ๋ฌธ์ SAN์ ์ ์ฉํ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ 9๋ฒ์งธ ์ฌ์ง์ด ๊ธฐ์กด ์ฐ๊ตฌ ์ค ๊ฐ์ฅ SAN๊ณผ ์ ์ฌํ ์๋ฆฌ๋ฅผ ๊ฐ๋ RCAN method ์ด๋ค.
์ figure์ ๋ ์ผ์ด์ค๋ฅผ ํตํด, SAN์ ๊ธฐ์กด ์ฐ๊ตฌ์ ๋น๊ตํ์ฌ ์ ์๋ฏธํ visual quality์ ์์น์ ๊ฐ์ ธ์์์ด ํ์ธ ๊ฐ๋ฅํ๋ค.
5. Conclusion
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ณด๋ค ์ ํํ SR์ ์ํด SAN์ ์ ์ํ์๋ค. ์ฌ๊ธฐ์ NLRG structure์ ํ์ฉํ SAN์ ๋คํธ์ํฌ์ long-distance dependencies & structural information๋ฅผ ์บก์ฒํ์๋๋ฐ, ์ด NLRG์ ์ถ๊ฐ๋ก SSC๋ฅผ ํ์ฉํ์ฌ low-frequency ์ ๋ณด๋ฅผ ํต๊ณผ์์ผ ๋ฌ๋ ํจ๊ณผ๋ฅผ ์์น์์ผฐ๋ค.
์ถ๊ฐ๋ก, ๋ ผ๋ฌธ์์๋ ๋ณด๋ค discriminative representations๋ฅผ ์ํด global covariance pooling์ ํตํด feature interdependencies๋ฅผ ํ์ตํ๊ธฐ ์ํด SOCA module์ ์ ์ํ๋ค.
์ด๋ฅผ BI & BD degradation models์ ์คํํด๋ณธ ๊ฒฐ๊ณผ, SAN์ SR์ ๋ํด quantative/visual ์ ์ผ๋ก ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋์์ ํ์ธ ๊ฐ๋ฅํ๋ค.
Take home message (์ค๋์ ๊ตํ)
Attention mechanism ์ ๋ํ ์ดํด ๋ฐ ๋ฐฐ๊ฒฝ ์ง์์ ๋๋ฆด ์ ์๋ ์ข์ ๊ธฐํ์๋ค. SR ์ชฝ์ ๋ํ ์ฐ๊ตฌ๋ฅผ ์งํํ๊ณ ์์๊ธฐ์ ์ ์ฉํ ์ ์๋ mechanism์ด ๋ค์ํด์ง ๊ฒ ๊ฐ๋ค. ์ฐ๊ด ๋ถ์ผ์ ๋ํ ๊ณต๋ถ๊ฐ ํ์ฌ ์ฐ๊ตฌ์ ํฌ๊ฒ ๋์์ด ๋ ์ ์๋ค๋ ์ฌ์ค์ ๋๊ผ๋ค.
Author / Reviewer information
Author
์์นํ (Seunghoon Yang)
KAIST Mechanical Engineering
https://github.com/SeunghoonYang
shyang9512@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
T. Dai, J. Cai, Y. Zhang, S. Xia and L. Zhang, "Second-Order Attention Network for Single Image Super-Resolution," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 11057-11066, doi: 10.1109/CVPR.2019.01132.
https://github.com/daitao/SAN.git
Ding Liu, Bihan Wen, Yuchen Fan, Chen Change Loy, and Thomas S Huang. Non-local recurrent network for image restoration. In NIPS, 2018.
Yulun Zhang, Yapeng Tian, Yu Kong, Bineng Zhong, and Yun Fu. Residual dense network for image super-resolution. In CVPR, 2018.
Zhang, Yulun, Kunpeng Li, Kai Li, Lichen Wang, Bineng Zhong and Yun Raymond Fu. โImage Super-Resolution Using Very Deep Residual Channel Attention Networks.โ ECCV (2018).
Last updated