Squeeze-and-Attention Networks for Semantic segmentation [Kor]
Zhong et al. / Squeeze-and-Attention Networks for Semantic segmentation/ CVPR 2020
1. Problem Definition
RGB ์ด๋ฏธ์ง์์ ๊ฐ ํฝ์ ์ ํน์ ๋ผ๋ฒจ๋ก ๋ถ๋ฅํ๋ ์์ (Semantic Segmentation)์ ํ๋ ๋คํธ์ํฌ๋ฅผ ๊ฐ๋ฐํ๋ ๋ฌธ์ ๋ฅผ ํ๋๋ค. Semantic Segmentation์ ์ด๋ฏธ์ง ๋ด์ ๋ฌผ์ฒด๋ค์ ์๋ฏธ ์๋ ๋จ์๋ก ๋ถ๋ฅํ๋ ์์ ์ด๋ฉฐ, ์ด๋ ์์จ ์ฃผํ์ด๋ ๋ค์ํ ๋น์ ์ํํธ์จ์ด์์ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค. ์ด๋ฒ ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ PASCAL Context dataset ( 59 classes, 4998 training images, and 5105 test images)์ PASCAL VOC dataset( 20 classes, 10582 training images, and 1449 validation images, 1456 test images) ๋ ๊ฐ์ง๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ, Semantic segmentation ๋ถ์ผ์์ ๋คํธ์ํฌ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ benchmark ๊ธฐ์ค์ผ๋ก ๋๋ฆฌ ์ฌ์ฉ๋๋ dataset์ ๋๋ค.
์ด๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด, RGB color image( height X width X 3 )๋ฅผ ๋คํธ์ํฌ ์ธํ์ผ๋ก ์ ๋ ฅ ๋ฐ์์ Semantic labels result( height X width X 1 )๋ฅผ ์ถ๋ ฅํ๋ ๋ฌธ์ ์ ๋๋ค.
2. Motivation
Related work
Multi-scale context :
Laplacian pyramid structure์์ multi scale feature๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์๊ณผ multi-path RefineNet์์ multi-scale input์์ feature๋ฅผ ์ถ์ถํด ๊ฒฐํฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์๋๋ฐ, ์ด๋ฅผ ์ฐธ๊ณ ํ์ฌ ์ด ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ residual network stage์์ multi-scale์ dense prediction๊ฒฐ๊ณผ๋ฅผ ๋ณํฉํ์ฌ ์ฌ์ฉํจ์ผ๋ก์ multi-scale context์ ๋ณด๋ฅผ ํ์ฉํ์์.
Laplacian pyramid structure๋ ์ด๋ฏธ์ง ์ค์ผ์ผ์ ์ ์ ์ค์ฌ๋๊ฐ๋ฉด์ ๊ฐ ์ค์ผ์ผ์์ ์ป์ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฉํ์ฌ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์ด๋ด๋ ๊ตฌ์กฐ๋ฅผ ๋งํฉ๋๋ค.
Multi-path RefineNet์์๋ ์ฌ๋ฌ ์ค์ผ์ผ์์ ์ป์ ์ ๋ณด๋ฅผ ์์ ์ค์ผ์ผ๋ถํฐ ํฐ ์ค์ผ์ผ๋ก ๊ฐ network(path)์ ๊ฒฐ๊ณผ๋ฅผ ํฉ์ณ๊ฐ๋ฉด์ ๊ฐ์ฅ ํฐ ์ค์ผ์ผ ์ด๋ฏธ์ง๋ก ๋ณต๊ตฌํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๊ฐ scaled๋ ์ด๋ฏธ์ง๊ฐ ๊ฐ path์ ์ธํ์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ multi-path ๋ฐฉ์์ด๋ผ๊ณ ํฉ๋๋ค.
Channel-wise attention :
ํผ์ฒ๋งต์ ์ฑ๋๋ค์ weight๋ฅผ ๋ถ์ฌํ์ฌ ์ฑ๋์ ๊ฐ์ค์น๋ฅผ ๋ค๋ฅด๊ฒ ํจ์ผ๋ก์ ํผ์ฒ๋ค์ ์ข ๋ ์ ํ์ ํ ์ ์๋ค. ๋ํ์ ์ธ ์์๋ก Squeeze-and-Excitation(SE) ๋ชจ๋์ด ์กด์ฌํ๋ฉฐ, ์ด๋ฅผ ๋ ๋ฐ์ ์์ผ Squeeze-and-Attention(SA)๋ชจ๋์ ๊ฐ๋ฐํ์๋ค.
Pixel-group attention :
ํ ์ฑ๋์์ ๊ฐ ํฝ์ ๊ฐ์ ์ ์ฌ๋๋ฅผ ํตํด ์ฐ๊ฒฐ์ฑ์ ๊ฐ์กฐํ์ฌ attentionํจ๊ณผ๋ฅผ ์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋จ์ํ pixel-level์์์ ์ฑ๋ฅ์๋ง ์ด์ ์ ๋ง์ถ์ด ๋คํธ์ํฌ๋ฅผ ์ค๊ณํ ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์๋ pixel-grouping์ ๊ฐ์ด ์ฌ์ฉํ๋ ๋คํธ์ํฌ๋ฅผ ๊ฐ๋ฐํ์๋ค.
Idea
๋ ผ๋ฌธ์ ์ ์๋ Segmentation์ ํฌ๊ฒ ๋ ๊ฐ์ ๋ ๋ฆฝ์ ์ธ ์ฐจ์์ด ์ฝํ์๋ ํํ๋ก ๋ณผ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ํ๋๋ pixel-wise prediction์ด๊ณ ํ๋๋ pixel-grouping์ด๋ค. pixel-wise๋ ๊ฐ ํฝ์ ์ด ๋ฌด์จ ๋ฌผ์ฒด์ธ์ง ํ๋จํ๋ ๊ฒ์ด๊ณ , pixel grouping์ ํฝ์ ๊ฐ์ ์ ์ฌ๋๋ฅผ ํตํด ์ฐ๊ฒฐ์ฑ์ ๊ฐ์กฐํ๋ ๊ฒ์ด๋ค.
๊ธฐ์กด ๋ ผ๋ฌธ๋ค์ pixel-level ์์ฃผ์ ์์ด๋์ด๋ฅผ ์ฌ์ฉํ๋ค๋ฉด, ์ด๋ฒ ๋ ผ๋ฌธ์์๋ pixel-grouping ๊ธฐ์ ์๋ ์ด์ ์ ๋ง์ถ์ด ๋คํธ์ํฌ๋ฅผ ๊ฐ๋ฐํ์๋ค.

๋คํธ์ํฌ๊ฐ ์ํํ๋ ์ ๋ฌด๋ฅผ ๊ตฌ๋ถํ๋ฉด ํฌ๊ฒ ๋๊ฐ์ task๋ก ๋๋๋ค.
Task1 : image classification์ ์ํด ์ ํํ pixel-wise annotation๊ณผ spatial constraints๊ฐ ํ์ํ๋ค. ์ต๊ทผ segmentation ๋ชจ๋ธ๋ค์ ํผ๋ผ๋ฏธ๋ ํ๋ง๊ณผ dilated convolution layer๋ฅผ ํตํด contextual feature๋ฅผ ์ ์งํฉ์์ผ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋ด๊ณ ์๋ค. ํ์ง๋ง ์ปค๋์ grid ๊ตฌ์กฐ ๋๋ฌธ์ spatial feature์ shape์ ์ ํ์ด ์๊ธฐ๊ฒ ๋๊ณ , ์ด๋ pixel-wise prediction์ ๊ฒฐ๊ณผ๋ ์ข๊ฒ ํ ์ ์์ง๋ง ๊ธ๋ก๋ฒํ ๊ด์ ์์์ ์ด๋ฏธ์ง ์ดํด๋ ๋ถ์กฑํ๋ค๊ณ ํ ์ ์๋ค.
Task2 : pixel์ด spatial ์ ํ ์์ด ๊ฐ์ ๊ทธ๋ฃน์ ์ํ ์ ์๋๋ก ์ง์ ์ ์ผ๋ก ๋์์ฃผ๋ ์์ ์ ํ๋ค. Pixel grouping์ ์ ์ฒด ๋ฒ์์์ ์ํ๋ง ๋ ์ด๋ฏธ์ง๋ฅผ semantic spectrum์ ํตํด ์ ์๋ ํฝ์ ๊ทธ๋ฃน์ผ๋ก ๋ณํํ๋ ์์ ์ด ํฌํจ๋์ด์๋ค. SA๋ชจ๋์ ์๋ก ๊ฐ๋ฐํ์์ผ๋ฉฐ, ์ด๋ฌํ ๋คํธ์ํฌ๋ฅผ ๋์์ธํ๊ฒ ๋ ๊ณ๊ธฐ๋ local constraints of convolution kernel์ ์ํ ์ ํ์ ์ํํ๊ธฐ ์ํด์์๋ค. SA ๋ชจ๋์ ๋ค์ด ์ํ๋งํ๋ ๊ณผ์ ์์ ์์ ํ ํ๋์ ์ฑ๋๋ก ์์ถ ์ํค์ง ์์์ผ๋ก์จ local spatial attention์ ํจ์จ์ ์ผ๋ก ์์ฑํ ์ ์๊ฒ ํด์ค๋๋ค. ๋ํ ๊ธฐ์กด์ ๋ฐํ๋ SE๋ชจ๋๊ณผ์ ์ฐจ์ด์ ์ผ๋ก๋ spatial attention์ ํตํฉํ๋ head unit์ด ์กด์ฌํ์ฌ multi-stage์์์ ์ ๋ณด๋ฅผ ํฉ์ณ์ฃผ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ๋์ฑ ํฅ์๋์์ต๋๋ค.
๋ ๊ฐ์ ํ ์คํฌ๋ฅผ ์์ฝํ์๋ฉด, ์ด ๋ ผ๋ฌธ์์๋ 4๊ฐ์ SA๋ชจ๋์ ์ฌ์ฉํ SANet์ ๋์์ธํ์์ผ๋ฉฐ, SANet์ ์์ ๋งํ ๋ ๊ฐ์ task๋ฅผ ๋ชจ๋ ์ํํ๋ค. Multi-scale spatial feature์ non-local spectral feature๋ฅผ ํ์ตํจ์ผ๋ก์ ๊ธฐ์กด ์ ํ์ (๊ฑฐ๋ฆฌ๊ฐ ๋จผ ํฝ์ ๊ฐ์ spatialํ ์ ๋ณด๋ฅผ ์ ํ์ตํ ์ ์๋ค๋ ํฉ์ฑ ๊ณฑ ์์ฒด์ ํ๊ณ์ )์ ๊ทน๋ณตํ์๊ณ , dilated ResNet๊ณผ Efficient nets์ ์ฌ์ฉํ์ฌ ํจ์จ์ฑ์ ๊ทน๋ํํ์๋ค. ๋ง์ง๋ง์ผ๋ก multi-stage์ non-local feature ๋ฅผ ํฉ์ณ ์ฑ๋ฅ์ ํฅ์ ์์ผฐ๋ค.
Method
Figure 2์ ๋์จ ๋ชจ๋์ ์ฐจ๋ก๋๋ก (a)-Residual, (b)-Squeeze-and-excitation(SE), (c)-Squeeze-and-attention(SA) ๋ชจ๋์ด๋ค. SE๋ชจ๋์ residual block์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋ ๋ชจ๋์ด๋ฉฐ, SA ๋ชจ๋์ SE ๋ชจ๋์ ์์ด๋์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์๋ค.

๋จผ์ , SE ๋ชจ๋์ ๋ํด ์ค๋ช ํ์๋ฉด, Residual block์ re-calibrating feature map channel์ ํตํด ์ฑ๋ฅ์ ํฅ์ ์ํจ๋ค. ๊ทธ๋ฆผ์ ๋์จ ๊ฒ์ฒ๋ผ, average pooling์ผ๋ก ์ธํ ํผ์ณ ๋งต์ squeezeํ์ฌ 1x1 ๋ฒกํฐ๋ฅผ ์ป์ ๋ค์, fully connected convolution์ ํตํด W1๊ณผ W2๋ฅผ ๊ณ์ฐํ์ฌ excitation weight๋ฅผ ์ป์ด๋ ๋๋ค. ์ด๋ ๊ฒ ์ป์ weight์ X_in์ ๊ณฑํด์ฃผ์ด attentionํจ๊ณผ๋ฅผ ์ฃผ๊ณ , ์ด๋ฅผ X_res ํ ์์ ํฉ์ณ์ฃผ๋ ์ต์ข ์ถ๋ ฅ์ ํ๋ ๋ชจ๋์ ๋๋ค. ์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.


SA๋ชจ๋์ SE๋ชจ๋์์ ์์ ํ 1x1 ๋ฒกํฐํํ๋ก Squeezeํ๋ ๊ณผ์ ๋์ not-fully squeezed operation์ ํตํด spatial์ ์์ด์ ๋ ๋ค์ํ ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๋ attention map์ ์์ฑํ๋ค. ๋ํ X_res์ attention map์ ์ง์ ๊ณฑํด์ฃผ์ด local๊ณผ globalํ ํน์ง์ ๋ชจ๋ ๊ณ ๋ คํ attention map์ ์์ฑํ์๋ค. ์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.



SA-Network์ ์ ์ฒด ๋ชจ์๋๋ Fig3์ ๋์์์ต๋๋ค. SA๋ชจ๋์ ํตํด 4๊ฐ์ backbone stage์์ ํผ์ฒ๋ฅผ ์ถ์ถํ์์ผ๋ฉฐ, Loss๋ ์ด 3๊ฐ์ loss์ ๋น์จ ํฉ์ผ๋ก ๊ตฌ์ฑ์ด ๋์ด ์์ต๋๋ค.
๊ฐ ๋ก์ค์ ๋ํด ์ ๋ฆฌ๋ฅผ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Mask loss : ๊ฐ ํด๋์ค์ ํด๋น๋๋ pixel๋ค์ ์ ์ ๋ณํ๋๊ฐ๋ฅผ ๋ํ๋ธ๋ค. ๊ทธ๋ฆผ์์ ๋ณด์ด๋ ๊ฒ์ฒ๋ผ ๊ฐ ์ฑ๋์ ํ๋์ ํด๋์ค์ ๋ํด ๋ง์คํน์ด ๋์ด์๋๋ฐ, ์ด ๋ง์คํน์ ์ค์ฐจ๋ฅผ loss๋ก ํํํ ๊ฒ์ด๋ค.
Categorical loss : ๋ง์คํนํ ์ฑ๋์ ๊ฐ ํด๋์ค๋ก ์ ๋ถ๋ฅํ๋๊ฐ๋ฅผ ๋ํ๋ธ๋ค. ๊ฐ ์ฑ๋๋ค์ ํน์ ํด๋์ค๋ก ๋ถ๋ฅํ๋ ์์ ์ ํ๋ฉฐ, ์ ๋ต ๋ผ๋ฒจ๊ณผ ๋น๊ตํ์ฌ ์ค์ฐจ๋ฅผ loss๋ก ํํํ ๊ฒ์ด๋ค.
Dense loss : ๊ฒฐ๊ณผ๋ฅผ ํฉ์ณ ํ๋์ Semantic segmentation image๋ก ๋ํ๋์๋ pixel-wise loss๋ฅผ ๋งํ๋ค.

Pixel-group attention์ ๋ํ ๋ณด์ถฉ ์ค๋ช
์์ ์ ์๋ segmentation ์์ ์ ๋ ๊ฐ์ task๋ก ๋ถ๋ฆฌํ์๊ณ , ๊ทธ์ค pixel-grouping์ด๋ผ๋ task๊ฐ ๊ธฐ์กด์ ๋ง์ด ์๋ ค์ง์ง ์์๊ธฐ ๋๋ฌธ์ ํผ๋์ค๋ฌ์ธ ์ ์์ด์ ๋ณด์ถฉ ์ค๋ช ์ ํ๊ณ ์ ํฉ๋๋ค.
๋จ์ํ Convolution ๊ณฑ์ ํตํด์ ๋คํธ์ํฌ๊ฐ ๊ตฌ์ฑ๋๊ฒ ๋๋ฉด, pixel๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ๋ง์ด ๋จ์ด์ ธ ์๋ ๊ฒฝ์ฐ Convolution์ ๊ณต๊ฐ์ ํ๊ณ ๋๋ฌธ์ ๋ pixel ๊ฐ์ ์ ๋ณด๋ฅผ ํ์ตํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํ ๋คํธ์ํฌ๋ค์ ๋ณด๊ฒ ๋๋ฉด ๋จ์ด๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์์ด๋ ์๋ก ๊ฐ์ ์ฐ๊ด์ฑ์ ํ์ตํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ค์ํ attention ๋ชจ๋์ ์ถ๊ฐํ์ฌ ์ฐ๊ด์ฑ์ ๋คํธ์ํฌ๊ฐ ํ์ตํ ์ ์๋๋ก ๋์์ฃผ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ์์ด๋์ด๋ฅผ Segmentation์ ์ ์ฉํ๋ ค๋ ์๋๋ค์ด ์กด์ฌํ๊ณ , ๋ํ์ ์ผ๋ก ์ด๋ฏธ์ง์ ํฝ์ ๊ฐ correlation์ ์ด์ฉํ self-attention mask๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์ pixel grouping์ '๊ฐ์ class์ ์ํ๋ pixel ๊ฐ์ ์ ๋ณด๋ฅผ spatialํ ์ ํ์ ๋ฐ์ง ์๊ณ ์ฐ๊ด์ฑ์ ํ์ตํ ์ ์๋๋ก ํด์ฃผ๋ ์ฅ์น' ๋ผ๊ณ ์๊ฐํ๋ฉด ๋ ๊ฒ์ ๋๋ค. ์ ์๋ ์ด๋ฒ ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ์กด์ฌํ๋ Squeeze-and-excitation(SE) ๋ชจ๋์ ์ฐธ๊ณ ํ์ฌ, ํจ์จ์ ์ธ ๋ฐฉ์์ pixel- grouping method์ธ Squeeze-and-attention(SA)๋ชจ๋์ ์ ์ฉํ์์ต๋๋ค. SA ๋ชจ๋์ ๋ํ ์ค๋ช ์ ์์ ์กด์ฌํฉ๋๋ค.
4. Experiment & Result
Experimental setup
Dataset : PASCAL Context , PASCAL VOC
Baselines : ResNet50, ResNet101
Training setup :
Learning rate : 0.001(PASCAL Context), 0.0001(PASCAL VOC)
Optimizer : SGD and poly learning rate annealing schedule adopt
Training method :
PASCAL Context : 80 epochs
PASCAL VOC : COCO pretrained + 50 epochs on the validation set
Batch size : 16
Result
์ฒซ๋ฒ์งธ๋ก loss์ ์ฌ์ฉ๋ ์ํ์ ๋ฒ ํ์ ์ต์ ๊ฐ์ ๊ตฌํ ์คํ์ ๋ํ ๊ฒฐ๊ณผ์ด๋ค. ์ํ์ ๋ฒ ํ๋ ๊ฐ ๋ก์ค๋ค๊ฐ์ ๋น์ค์ ์กฐ์ ํ์ฌ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ด ๋์ค๋๋ก ํ๋ ํ๋์ด ํ์ํ Hyper-parameter์ด๋ค. ์ํ์ ๋ฒ ํ ๊ฐ์ ๋ณํ์์ผ๊ฐ๋ฉฐ ์ฑ๋ฅ์ ๋น๊ตํด๋ณธ ๊ฒฐ๊ณผ ์ํ = 0.2, ๋ฒ ํ = 0.8์ผ ๋ ๊ฐ์ฅ ๋์ ์ ํ๋๊ฐ ๋์๋ค.

๋๋ฒ์งธ๋ SANet์ ๋ค๋ฅธ ์ต์ ๋ชจ๋ธ๋ค๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒฐ๊ณผ์ด๋ค. table2๋ฅผ ๋ณด๋ฉด ์ต์ ๋คํธ์ํฌ๋ค์ ๋นํด ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๊ฒ์ ํ์ธํ ์ ์์ผ๋ฉฐ EffNet-b7 ๋คํธ์ํฌ์ SA ๋ชจ๋์ ์ถ๊ฐํ์ฌ ๋ง๋ SANet์ ๊ฒฝ์ฐ mIoU๊ฐ 54.4๋ก PASCAL Context dataset์ ์ต๊ณ ๊ธฐ๋ก์ ๊ฐฑ์ ํ์๋ค.

SA ๋ชจ๋์ด SE ๋ชจ๋์ ๋นํด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ฆ๋ช ํ ๊ฒฐ๊ณผ์ด๋ค. ์์ ๋งํ๊ฒ๊ณผ ๊ฐ์ด SA๋ชจ๋์ SE ๋ชจ๋๋ก๋ถํฐ ๋ฐ์ ์ํจ ๋ชจ๋์ด๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ์ผ๋ง๋งํผ ์ฆ๊ฐํ๋์ง๊ฐ ์ด ๋ ผ๋ฌธ์ ๋ ธ๋ฒจํฐ๊ฐ ๋ ๊ฒ์ด๋ค. table3๊ณผ ๊ฐ์ด SE๋ชจ๋์ ๋นํด ์ ํ๋๊ฐ ๊ฐ๊ฐ 4.1%, 4.5%๊ฐ ์ฆ๊ฐํ ๊ฒ์ ํ์ธํ ์ ์๋ค.

๋ค์์ ์ ์ฑ์ ์ผ๋ก baseline network์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒฐ๊ณผ์ด๋ค. Fig5์์ (a)๋ raw input data, (b)๋ ground truth, (c)๋Baseline, (d)๋ SANet์ด๋ค. Baseline ์ผ๋ก ์ฌ์ฉ๋ ๋คํธ์ํฌ๋ dilated ResNet50 FCN์ด๋ฉฐ, SANet์ Baseline network์ SA๋ชจ๋์ ์ถ๊ฐํ ๋คํธ์ํฌ์ด๋ค.
fig5์ ์ฒซ๋ฒ์งธ ์ค์ ์๋์ ์ผ๋ก ๋ฌผ์ฒด๋ค์ ๊ฒฝ๊ณ์ ์กฐํฉ์ด ๋จ์ํ ๊ฒฝ์ฐ์ด๋ฉฐ, ๋งจ ์๋ซ์ค์ ์๋์ ์ผ๋ก ๋ฌผ์ฒด์ ๊ตฌ์ฑ์ด ๋ณต์กํ ๊ฒฝ์ฐ์ด๋ค. ๋ ๊ฒฝ์ฐ์์ ๋ชจ๋ SANet์ baseline์ ๋นํด ๋ ground truth์ ๊ฐ๊น์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ ์ฒด์ ์ผ๋ก SANet์ด baseline๋ณด๋ค๋ ๋ฐ์ด๋์ง๋ง, ๋ง์ง๋ง ์ด๋ฏธ์ง์ ๊ฐ์ด ๋ณต์กํ ๊ฒฝ์ฐ์๋ ์์ง ๋ ๋ง์ ํฅ์์ด ํ์ํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.

๋ง์ง๋ง์ผ๋ก ์ผ๋ฐ์ ์ธ convolution์ ๊ฒฐ๊ณผ์ SA๋ชจ๋์ ์ถ๊ฐํ์์๋ ๊ฒฐ๊ณผ๋ฅผ global-attention์ฐจ์์์ ๋น๊ตํ๊ธฐ ์ํ ์ ์ฑ์ ์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ์๋ค. (์ผ๋ฐ์ ์ธ convolution ๋ํ spatial ํ ํน์ง์ ์ถ์ถํ๋ ํจ๊ณผ๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์, SA๋ชจ๋์ ์ถ๊ฐํ์์ ๋ ์ด๋ฌํ ์ฑ๋ฅ์ด ์ผ๋ง๋ ๋ ๋ฐ์ ํ๋์ง ํ์ธํ๊ธฐ ์ํจ์ด๋ค.) ๊ฐ ์คํ ์ด์ง์์ SA๋ชจ๋์ attention map์ ์ญํ ์ ๋ณด๊ธฐ ์ํด head1๊ณผ head4์ ๋ชจ๋์ ์ด๋ฏธ์ง๋ฅผ ์ถ์ถํด ๋น๊ตํ์๋ค. ๊ทธ๋ฆผ์์ (b), (c), (d)๋ ๊ฐ ๋ค๋ฅธ ํด๋์ค๋ฅผ ์ ํํ ๊ฒ์ด๊ณ , ๋นจ๊ฐ์์ผ๋ก ๋ํ๋ ๋ถ๋ถ์ด ํ์ฑํ๋ ๊ณณ์ด๋ค. ๊ฐ Head์์์ ๊ฒฐ๊ณผ ๋น๊ต๋ฅผ ํตํด Low-level๊ณผ high-level์์์ ์ญํ ์ด ๋ค๋ฅธ๊ฒ์ ํ์ธํ ์ ์๋ค.
low-level : attn์ ์์ผ๊ฐ ๋์ ๋ฐ๋ฉด, main์ ์ค๋ธ์ ํธ ๊ฒฝ๊ณ๊ฐ ๋ณด์กด๋ ๋ก์ปฌ ํน์ง ์ถ์ถ์ ์ค์ ์ ๋๋ ๊ฒ์ ์ ์ ์๋ค.
high-level : attn์ ์ฃผ๋ก ์ ํ๋ ์ง์ ์ ๋๋ฌ์ผ ์์ญ์ ์ด์ ์ด ๋ง์ถฐ์ ธ ์์ผ๋ฉฐ, main์ low-level ๊ฒฝ์ฐ๋ณด๋ค ๋ ํ์คํ semantic meaning์ ๊ฐ์ง homogeneousํ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
์ฆ, Attention map์ด main channel์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์กฐํด์ฃผ์ด ๋ ์ ๋ช ํ๊ณ ์ ํํ output์ ์ถ๋ ฅํ๋๋ก ๋์์ฃผ๋ ๊ฒ์ ์ ์ ์๋ค.

Conclusion
์ ์๋ semantic segmentation์ด ๋ ๊ฐ์ ๋ ๋ฆฝ๋ ์ฐจ์(pixel-wise prediction and pixel grouping)์ผ๋ก ์ด๋ฃจ์ด์ก๋ค๋ ์๋ก์ด ์๊ฐ์ผ๋ก๋ถํฐ ์ด๋ฌํ ๋คํธ์ํฌ๋ฅผ ์ค๊ณํ์๋ค. (๋ ๋ฆฝ๋ ์ฐจ์์ด๋ผ๊ณ ์ ์๊ฐ ๋งํ์๋๋ฐ, ์ด ๋ ๋ฆฝ์ ์๋ฏธ๋ ๋ task๋ฅผ ์์ ํ ๋ถ๋ฆฌํ์ฌ ๊ณ ๋ คํ๋ ๊ฒ์ด ์๋, ๋ ๊ฐ์ ์ฐจ์์ ๋ชจ๋ ๊ณ ๋ คํด์ผ ๋๋ค๋ ์๋ฏธ์ด๋ค.)
๊ฐ๋ฐํ SA ๋ชจ๋์ pixel-wise dense prediction์ ์ฑ๋ฅ๋ ์ฆ๊ฐ ์์ผ์ฃผ๋ฉฐ, pixel-grouping์ ๊ณผ์ ์ ์ ์ ์ฉ์ํฌ ์ ์๋๋ก ํด์ค๋ค.
๋๊ฐ์ challenging benchmark dataset์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ SA๋ชจ๋์ด ๋ค๋ฅธ ์ฐ๊ตฌ์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋์์ผ๋ฉด ์ข๊ฒ ๋ค.
Take home message
๋ง์ ๋ ผ๋ฌธ์์์ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ์ ์์ด๋์ด๋ฅผ ์ค๋ช ํ ๋ ๋ค์ํ ์๋๋ฅผ ํ ํ ๊ฒฐ๊ณผ๊ฐ ์ข๊ฒ ๋์ค๋ฉด ๊ทธ์ ๋ง๊ฒ ์ง๋ง์ถฐ์ ์ค๋ช ์ ํ๋ ๋๋์ ๋ง์ด ๋ฐ์์๋๋ฐ, ์ด ๋ ผ๋ฌธ์์๋ ๋คํธ์ํฌ๋ฅผ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ๋ ๊ณผ์ ์ ๋ํด ๋ค๋ฅธ ์์ ์ผ๋ก ๋ฐ๋ผ๋ณด๊ณ ๊ทธ๊ฒ์ ๊ตฌํํ์ฌ ์ ์ฉํ๋ค๋ ์ ์ด ์ธ์๊น์๋ค.
์ฌ์ค SE ๋ชจ๋๊ณผ ํฌ๊ฒ ๋ค๋ฅธ์ง ์์ SA๋ชจ๋์ ๊ฐ๋ฐํ์์ง๋ง, ์ฑ๋ฅ์ ๋์ ๋๊ฒ ํฐ ๋ฐ์ ์ ๋ณด์ฌ์ฃผ์๋ค. ์์ง ๋คํธ์ํฌ ์ค๊ณ์ ์์ด์ ๋ง์ ๊ณต๋ถ๊ฐ ํ์ํ์ง๋ง, ์ด๋ฌํ ์ฌ์ํ ๋ณํ๊ฐ ํฐ ๊ฒฐ๊ณผ๋ก ์ด์ด์ง๋ ๊ฒ์ ๋ณด๋ฉด ๊ธฐ์ด์ ์ธ ๋ด์ฉ์ ์๋ฒฝํ๊ฒ ํ์ตํด์ผ ํ ํ์์ฑ์ ๋ํด ๋๋ผ๊ฒ ๋์๋ค.
Author / Reviewer information
Author
์ ๊ตฌ์ผ (Guil Jung)
M.S. student, Electrical Engineering Department, KAIST
Interested in Biomedical Imaging
jgl97123@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Last updated
Was this helpful?