RegSeg [Eng]
(Description) Roland Gao / Rethink Dilated Convolution for Real-time Semantic Segmentation / arXiv 2021
1. Problem definition
๋ณธ ๋ ผ๋ฌธ์์๋ real time scene segmentation์์ ์ฌ์ฉ๋๋ ImageNet backbone์ผ๋ก๋ถํฐ ๋น๋กฏ๋๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ๊ธฐ์กด real time scene segmentation ๋ ผ๋ฌธ๋ค์์ ์ฌ์ฉํ ImageNet backbone์ ๋ ๋ถ๋ถ์ ํฉ์ฑ๊ณฑ ๋ ์ด์ด๋ ์ง๋์น๊ฒ ๋ง์ ์ฑ๋์๋ฅผ ์ด๋ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ResNet18์ 512๊ฐ, ResNet50์ 2048๊ฐ๊น์ง ์์ฑ๋ฉ๋๋ค. ์ด๋ ์ค์๊ฐ ํ๊ฒฝ์์ ๋ง์ ์ฐ์ฐ๋์ ๋ถ๋ด์ํค๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ํ ImageNet ๋ชจ๋ธ๋ค์ด ์ ๋ ฅ๋ฐ๋ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ 224 x 244์ธ ๋ฐ๋ฉด, semantic segmentation์ ๋ฐ์ดํฐ์ ์ 1024 x 2048์ผ๋ก ํจ์ฌ ํฝ๋๋ค. ์ด๋ ImageNet ๋ชจ๋ธ๋ค์ field-of-view๊ฐ ํฐ ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋ฉํ๋๋ฐ ๋ถ์กฑํจ์ ์๋ฏธํฉ๋๋ค. RegSeg๋ ์ ํ๋๋ฅผ ์ ํดํ์ง ์์ผ๋ฉด์ ์ฐ์ฐ์์ ์ค์ด๊ณ ์ถฉ๋ถํ field-of-view๋ฅผ ํ๋ณดํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ์ ํํฉ๋๋ค.
2. Motivation
Related work
Segmentation ๋ถ์ผ์์ ์ ํ๋์ ์ฐ์ฐ ์๋ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํค๊ธฐ ์ํ ๊ธฐ์กด์ ์ฐ๊ตฌ๋ค์ ๋ํด ๊ฐ๋ตํ๊ฒ ๋ค๋ค๋ณด๊ฒ ์ต๋๋ค.
Semantic segmentation
Fully Convolutional Networks Classification ๋ชจ๋ธ์ segmentation์ ์ ์ฉํ๊ธฐ ์ํด fc-layer๋ฅผ ๋ชจ๋ Conv-layer๋ก ๊ต์ฒดํ์์ต๋๋ค.
DeepLabv3 ๋ค์ํ dilation rates๋ฅผ ์ ์ฉํ dilated conv๋ฅผ ImageNet ๋ชจ๋ธ์ ์ถ๊ฐํ์ฌ receptive field๋ฅผ ํฌ๊ฒ ํ์์ต๋๋ค.
PSPNet Pooling rate๋ฅผ ๋ฌ๋ฆฌํ layer๋ฅผ ์ฌ๋ฌ ๊ฐ ๋ณ๋ ฌ๋ก ์ถ๊ฐํ Pyramid Pooling Module์ ํตํด Global context information์ ํ์ตํ ์ ์๊ฒ ํ์์ต๋๋ค.
Deeplabv3+ Deeplabv3์ ๋์ฝ๋์ 1 x 1 convolution์ ์ถ๊ฐํ์ฌ ํ์ต์ ์์ ์์ผฐ์ต๋๋ค.
Real-time semantic segmentation
BiseNetV2 Spatial Path์ Context Path ๋ ๊ฐ์ ๊ฐ์ง๋ฅผ ๋ง๋ ํ ํฉ์ณ ์ฌ์ ํ์ต๋ ImageNet ๋ชจ๋ธ ์์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
STDC BiseNet์ Spatial Path๋ฅผ ์์ ๊ณ ํ๋์ Path๋ง์ ๊ฑฐ์น๊ฒ ํ์ฌ ๋ ๋น ๋ฅด๊ฒ ์๋ํ๊ฒ ํ์์ต๋๋ค.
DDRNet-23 ๋ ๋ถ๊ธฐ ์ฌ์ด์ ์ํธ ์ตํฉ์ ์ถ๊ฐํ Deep Aggregation Pyramid Pooling Module(DAPPM)์ backbone ๋์ ์ถ๊ฐํ์ฌ Cityscapes ๋ฐ์ดํฐ์ ์์ SOTA ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ต๋๋ค.
Desinging Network design Spaces ๋คํธ์ํฌ ๋์์ธ์์ ์ ํ์ง๊ฐ ๋์ด๋๋ฉด์ manual network design์ ์ด๋ ค์์ก์ต๋๋ค. ์ข์ ๋คํธ์ํฌ๋ฅผ ๋ง์ด ์ฐพ์ ์๋ ์์์ง๋ง ๊ทธ ์๋ฆฌ๋ฅผ ์ฐพ์ ๊ฒ์ ์๋์๊ธฐ ๋๋ฌธ์ ์๋ง์ ์คํ๊ณผ ์๋ฎฌ๋ ์ด์ ์ ํตํด ๋ธ๋ก ํ์ ์ RegNetY๋ฅผ ์๋ก์ด ๋คํธ์ํฌ ๋์์ธ ํจ๋ฌ๋ค์์ผ๋ก ์ ์ํ์์ต๋๋ค.
Idea
๊ธฐ์กด์ Semantic segmentation ์ฐ๊ตฌ๋ค์ด ImageNet ๋ชจ๋ธ์ ๋์ฒดํ๊ธฐ ์ํด real-time semantic segmentation ์ฐ๊ตฌ๋ค์์ ์ฐ์ฐ๋์ด ๋ฐฉ๋ํ๊ฒ ์ฆ๊ฐํ์์ต๋๋ค. DDRNet-23์ ๊ฒฝ์ฐ 20.0M๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ฐ์ฐ๋์ ์ค์ด๋ฉด์ ๋์์ receptive field๋ฅผ ๋๋ฆฌ๊ธฐ ์ํด RegNet์ ๋ธ๋ก์ ์ฐธ๊ณ ํ์ฌ dilated conv๊ฐ ์ ์ฉ๋ ๋ธ๋ก ๊ตฌ์กฐ๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ๋ฐ๋ณตํ์ฌ ์์์ต๋๋ค.
3. Method
Dilated block
์ ์๋ RegNet์ Y ๋ธ๋ก์์ 3 x 3 conv๋ฅผ ํ๋ ๋จ๊ณ๋ฅผ ๋ ๊ฐ์ ๊ฐ๋๋ก ๋๋ dilated conv๋ก ๋์ฒดํ์์ต๋๋ค. ์ด๋ฅผ Dilated Block(D Block)์ผ๋ก ๋ช ๋ช ํ์๊ณ dilated rate๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉด์ ์ด 18๋ฒ ๋ฐ๋ณตํ์์ต๋๋ค. Y๋ธ๋ก๊ณผ D๋ธ๋ก์ ์ฐจ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ํ์ธํ ์ ์์ต๋๋ค. dilated rate๊ฐ ๋ชจ๋ 1์ผ ๋๋ D๋ธ๋ก์ด Y๋ธ๋ก๊ณผ ๊ฐ์ต๋๋ค.

Stride๊ฐ 2์ผ ๋์ D๋ธ๋ก์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.

๊ฐ D๋ธ๋ก์์์ dilated rate์ stride๋ ๋ค์ ํ์์ ํ์ธํ ์ ์์ต๋๋ค. ๊ฐ dilated rate๋ฅผ ๋ฌ๋ฆฌํ๋ฉด์ multi-scale feature๋ฅผ ์ถ์ถํ ์ ์์์ต๋๋ค.

์ด์ ๊ฐ์ด D๋ธ๋ก์ ๋ฐ๋ณตํ์ฌ ๊ตฌ์ฑ๋ backbone์ RegNet์ ์คํ์ผ๊ณผ ์ ์ฌํ๋ฉฐ ๊ฐ ๋ธ๋ก์ dilated rate๋ ์คํ์ ํตํด ์ ํด์ ธ์ต๋๋ค. ๋ํ, dilation branch๋ฅผ 4๊ฐ๋ก ํ์ ๋ 2๊ฐ๋ณด๋ค ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง ๋ชปํ์ฌ 2๊ฐ๋ก๋ง ๋๋์ด์ก์ต๋๋ค.
Decoder
์์ backbone์์ ์์ค๋ local deatils์ ๋ณต๊ตฌํ๊ธฐ ์ํด ๋์ฝ๋๋ฅผ ์ถ๊ฐํ์์ต๋๋ค. Backbone์ผ๋ก๋ถํฐ 1/4, 1/8, ๊ทธ๋ฆฌ๊ณ 1/16 ํฌ๊ธฐ์ feature maps์ ์ ๋ ฅ๋ฐ์ 1 x 1 conv์ upsampling์ ๊ฑฐ์ณ ํฉ์ณ์ง๋๋ค. ๋์ฝ๋์ ๋จ์ํ ๊ตฌ์กฐ๋ ์ฐ์ฐ๋์ ํฌ๊ฒ ๋๋ฆฌ์ง ์์ต๋๋ค.

4. Experiment & Result
Experimental setup
๋ณธ ๋ ผ๋ฌธ์์๋ Cityscapes, CamVid์์ DDRNet-23์ ๋น๋กฏํ state-of-the-art model๋ค๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ๋ ์คํ์ ์งํํ์ต๋๋ค. Cityscapes์ ๋ํ Training setup์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
momentum 0.9์ SGD
initial learning rate: 0.05
weight decay: 0.0001
ramdon scaling [400, 1600]
random cropping 768 x 768
0.5%์ class uniform sampling
batch size = 8, 1000 epochs
Camvid์์๋ Citycapes pretrained model์ ์ฌ์ฉํ์๊ณ Cityscapes ์คํ ํ๊ฒฝ๊ณผ์ ์ฐจ์ด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
random horizontal flipping
random scaling of [288, 1152]
batch 12, 200 epochs
classuniform sampling ์ฌ์ฉํ์ง ์์
Result
Cityscapes
Cityscapes์์์ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.

๋ชจ๋ธ ๊ฐ์ FPS๋ ์ง์ ๋น๊ตํ ์ ์์ง๋ง, RegSeg๋ ์ถ๊ฐ์ ์ธ ๋ฐ์ดํฐ ์๋ SOTA ๋ชจ๋ธ์ธ HardDNet๋ณด๋ค 1.5%p ๋ ๋๊ณ , ํผ์ด ๋ฆฌ๋ทฐ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ฅ ์ฐ์ํ SFNet์ 0.5%p ๋ฅ๊ฐํฉ๋๋ค.

Cityscapes test set์์ ๊ฐ์ฅ ์ฐ์ํ ์ ํ๋์ ํ๋ผ๋ฏธํฐ ์ฌ์ด์ ๊ท ํ์ ์ ์งํ๊ณ ์์ต๋๋ค.
Ablation Studies
์์ dilation rates๋ฅผ ์์์ ์ฌ์ฉํ๊ณ ํฐ dilateion rates๋ฅผ ๋ค์์ ์ฌ์ฉํ๋ ๋ฌด์์ field-of-view๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ ํ๋ ํฅ์์ ์ด๋์ด๋ด์ง ์๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.

5. Conclusion
DDRNet-23์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ค์ด์ง๋ ๋ชปํ์์ง๋ง ๊ทธ๋๋ ์๋นํ ์ฐ์ํ ๊ตํ๋น๋ฅผ ํตํด real-time-segmentation์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Field-of-view๋ฅผ ๋๋ฆฌ๊ธฐ ์ํ dilated conv์ DeepLab๋ถํฐ ์ฌ์ฉ๋์์ง๋ง, ๊ฐ์ง๋ฅผ ๋ ๊ฐ๋ก ์ค์ด๋ฉด์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด๋๋ฐ ํจ๊ณผ์ ์ด์์ต๋๋ค.
์๋นํ ๋ง์ ์คํ์ ํตํด ํจ์จ์ ์ธ dilated rate์ ๊ตฌ์กฐ๋ฅผ ์ฐพ๋ ๊ธฐ์ฌ๊ฐ ์์์ต๋๋ค.
Take home message
Dilated conv branch๋ ์ต์ํํ๋ฉด์ ๊น์ด ์๋๊ฒ ํจ์จ์ ์ด๋ค.
Field-of-view๋ฅผ ๋ฌด์์ ๋๋ฆฐ๋ค๊ณ ๊ผญ ์ ํ๋๊ฐ ํฅ์๋์ง๋ ์๋๋ค.
Author
์ด๋ช ์ (MyeongSeok Lee)
M.S Student in School of ETRI, UST (Advisor: Prof. ChiYoon Chung)
ims@etri.re.kr
Reference & Additional materials
Gao, R. (2021). Rethink Dilated Convolution for Real-time Semantic Segmentation. arXiv preprint arXiv:2111.09957.
Radosavovic, I., Kosaraju, R. P., Girshick, R., He, K., & Dollรกr, P. (2020). Designing network design spaces. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10428-10436).
Last updated
Was this helpful?