Standardized Max Logits [Kor]
Jung et al. / Standardized Max Logits - A Simple yet Effective Approach for Identifying Unexpected Road Obstacles in Urban-Scene Segmentation / ICCV 2021
English version of this article is available.
์๋ ํ์ธ์, ์ด ํฌ์คํ ์์ ์๊ฐ๋๋ฆฌ๊ณ ์ ํ๋ ๋ ผ๋ฌธ์ ์ด๋ฒ ICCV 2021์ Oral presentation์ผ๋ก ๋ฑ์ฌ๋ ๋ ผ๋ฌธ์ธ Standardized Max Logits (SML)์ ๋ํด ์ค๋ช ๋๋ฆฌ๊ณ ์ ํฉ๋๋ค. ํด๋น ๋ ผ๋ฌธ์๋ ์ ์ ์ด์ ์ ์์ฌ๊ณผ์ ์์ด ๊ณต๋ 1์ ์๋ก ์ฐธ์ฌํ์์ผ๋ฉฐ ๋๋ก ์ฃผํ semantic segmentation์์์ Out-of-Distribution ํ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ ๋ ผ๋ฌธ์ ๋๋ค. ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ Fishyscapes๋ผ๋ public leaderboard์์ state-of-the-art ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค (Fishyscapes).
1. Problem definition

์ต๊ทผ ๋๋ก ์ฃผํ semantic segmentation์ ๋ฐ์ ์ ๋ค์ํ benchmarking dataset์์ ํฐ ์ฑ๊ณผ๋ฅผ ์ด๋ฃจ์์ต๋๋ค. ํ์ง๋ง ์ด๋ฐ ๋ ธ๋ ฅ์๋ ๋ถ๊ตฌํ๊ณ ์ฌ์ ํ ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ค์ ์ฃผํ ํ๊ฒฝ์ ์ ์ฉ๋๊ธฐ ํ๋ญ๋๋ค. ๊ทธ ์ด์ ๋ ๋ชจ๋ธ์ ํ์ต ์์ ์ ํฌ๊ฐ ๊ฐ์ ํ ๋ช ๊ฐ์ pre-define๋ class๋ง์ ์ด์ฉํด์ ํ์ตํ๊ฒ ๋๊ณ , ์ด๋ ๊ฒ ํ์ตํ ๋ชจ๋ธ์ input image์ ๋ชจ๋ ํฝ์ ์ pre-define๋ class์ค ํ๋๋ก ์์ธกํ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์, ์ค์ ์ฃผํ ์์ pre-define๋ class๊ฐ ์๋ unexpected obstacle์ด ๋ฑ์ฅํ๋ฉด ์ ๊ทธ๋ฆผ์์ ๋ณด์ด๋ค์ํผ ์ ๋๋ก ๋์ฒํ ์ ์๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์, anomalousํ ์์ญ์ ์ฐพ์๋ด๋ ๊ฒ์ด ์์ ์ด ์ค์ํ application์ธ ๋๋ก ์ฃผํ์์ ํฐ ๋ฌธ์ ์ด๋ฉฐ ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ฌํ ์์ญ์ ๋ฐ๋ก ๋ค๋ฃฐ ์ ์๊ฒ ๋์์ฃผ๋ ์๋ฐ์ ์ญํ ์ ํด์ค๋๋ค.
์์ธํ ์ค๋ช ์ ๋ค์ด๊ฐ๊ธฐ ์์, semantic segmentation task์ ์ ์์ ๋ํด ์ค๋ช ํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. ์ฃผ์ด์ง input image ์ ๊ทธ ํฝ์ ๋ณ๋ก์ ์ ๋ต์ ๊ฐ์ง๊ณ ์๋ ์ ๋ํ์ฌ ์ฐ๋ฆฌ๋ ์ ๋ํ ์์ธก ๊ฐ ๋ฅผ ๋ด๋ฑ๋ segmentation model ๋ฅผ cross-entropy loss๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
์ฌ๊ธฐ์์๋ ์ ์ ์๋ค์ํผ, ๋ชจ๋ธ $G$๋ anomalousํ ์์ญ์ ๋ํด์๋ pre-defined class๋ก ์์ธกํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฌํ ์ ์ ํด๊ฒฐํ๊ณ ์ ์ ํฌ์ ๋ ผ๋ฌธ์์๋ ๊ฐ ํฝ์ ์ ๋ํด anomaly score๋ฅผ ์์ธกํ๋ ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ๋ฌ๋ฆฌ ์ถ๊ฐ์ ์ธ training์ด๋ ๋ค๋ฅธ network module์ ์ฌ์ฉํ์ง ์์ต๋๋ค.
2. Preliminary
Out-of-distribution (OoD) ํ์ง๋ฅผ ์ํด ๋ค์ํ ์ด์ ์ฐ๊ตฌ๋ค์ด ์์ด์์ต๋๋ค. ๊ทธ ์ค, ์ ํฌ๊ฐ ์ฃผ๋ชฉํ ๋ฐฉ๋ฒ๋ก ๋ค์ Maximum Softmax Probability (MSP) [1]๊ณผ Max Logit [2] ์ ๋๋ค. ๋ ๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ ๋ชจ๋ in-distribution pixel๋ค ๋๋น, OoD ํฝ์ ๋ค์ prediction score๊ฐ ๋ ์์ ์ ์ ์ด์ฉํ detection measure์ ๋๋ค. ๋จผ์ MSP [1]๋ network prediction์ softmax๋ฅผ ์ทจํ ๊ฐ์ anomaly score๋ก ์ฌ์ฉํ๋ ๊ฒ์ ์ ์ํ seminal ์ฐ๊ตฌ์ ๋๋ค. ํ์ง๋ง MSP score์ ๊ฒฝ์ฐ, exponentialํจ์๊ฐ ๋น ๋ฅด๊ฒ ์ฆ๊ฐํ๋ ์ฑ์ง์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ anomaly image๋ค์ด ๋์ MSP score๋ฅผ ๊ฐ๋ (๋ฎ์ anomaly score) ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด Max Logit [2] ์ ๋๋ค. Softmax์ ๋ค์ด๊ฐ๊ธฐ ์ ์ logit ๊ฐ์ anomaly score๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ผ๋ฉฐ exponential function์ ์ฌ์ฉํ์ง ์๊ธฐ ๋๋ฌธ์ MSP์์์ over-confident ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์์ต๋๋ค. ์ ํฌ์ ์ฐ๊ตฌ์์๋ ์ด Max Logit์ด semantic segmentation์์ ๊ฐ์ง ์ ์๋ ๋ฌธ์ ๋ฅผ ์ด์ผ๊ธฐํ๊ณ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
Other related work
Semantic segmentation์ OoD ํ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ค์ํ ์ฐ๊ตฌ๋ค [3, 4, 5, 6, 7, 8]์ด ์ ์๋์์ต๋๋ค. ๋ช๋ช์ ์ฐ๊ตฌ [3, 4]๋ค์ PASCAL VOC์์ pre-defined class์ ํด๋นํ์ง ์๋ object๋ค์ ์ฐพ์์ training dataset์ธ Cityscapes์ ํฉ์ฑํ์ฌ segmentation model์ ํ์ต์์ผฐ๊ณ ๋ค๋ฅธ ์ข ๋ฅ์ ์ฐ๊ตฌ [5, 6, 7, 8]๋ค์ image resynthesis ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ๋ก ๋ค์ image resynthesis ๋ชจ๋ธ์ด unseen object๋ ๋ง๊ฒ ์์ฑํด๋ด์ง ๋ชปํ๋ค๋ ์ง๊ด์์ ์์๋์์ต๋๋ค. ํ์ง๋ง ์ด ๋ ๋ฐฉ๋ฒ๋ก ๋ชจ๋ ์ถ๊ฐ์ ์ธ OoD dataset์ ํ์๋ก ํ๊ฑฐ๋ ๋๋ ์ถ๊ฐ์ ์ธ ํ์ต์ด ํ์ํ์์ต๋๋ค.
3. Motivation

Findings from previous work
์ ํฌ ์ฐ๊ตฌ์ motivation์ ์ ์ด๋ฏธ์ง๋ฅผ ํตํด ํ์ธํ์ค ์ ์์ต๋๋ค. ์์ ์ด๋ฏธ์ง๋ pre-train๋ segmentation network๋ฅผ Fishyscapes Lost&Found dataset์ inferenceํ ๊ฒฐ๊ณผ์ ๋๋ค. ๊ฐ๊ฐ์ bar๋ pixel ๊ฐ๋ค์ ๋ถํฌ๋ฅผ ์๋ฏธํ๊ณ , ์ฃผํฉ์ bar๋ in-distribution (pre-defined classes) ๊ทธ๋ฆฌ๊ณ ํ๋์์ unexpected (pre-define๋์ง ์์ class) pixel๋ค๋ฅผ ์๋ฏธํฉ๋๋ค. ํ์ ์์ญ์ in-distribution๊ณผ unexpected pixel๋ค์ด ๊ฒน์น๋ ์์ญ (false positives and false negatives)์ ์๋ฏธํฉ๋๋ค. ๋ณด์ฌ์ง๋ ๋ฐ์ ๊ฐ์ด MSP์ ๊ฒฝ์ฐ over-confident ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ ๊ฒ์ ๋ณด์ค ์๊ฐ ์๊ณ ๊ทธ ๊ฒฐ๊ณผ ๊ฐ์ฅ ํฐ ํ์ ์์ญ์ ๊ฐ๋ ๊ฒ์ ํ์ธํ์ค ์ ์์ต๋๋ค. Max Logit์ ๊ฒฝ์ฐ, ๋ณด์๋ ๋ฐ์ ๊ฐ์ด ๊ฐ class๋ณ๋ก ๋ถํฌ๊ฐ ์์ดํ ๊ฒ์ ๋ณด์ค ์๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ํ์์ anomaly detection์์ ๋ฌธ์ ๊ฐ ๋ ์ ์๋๋ฐ, ๊ทธ ์ด์ ๋ anomaly๋ฅผ ์ฐพ์๋ด๊ธฐ ์ํด ๊ฐ class๋ณ๋ก ๋ค๋ฅธ threshold๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ํ๋์ threshold๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
Idea
์ด๋ฌํ ๋ฐ๊ฒฌ์ผ๋ก๋ถํฐ, ์ ํฌ๋ Standardized Max Logit (SML)์ด๋ผ๋ ์๋ก์ด anomaly score๋ฅผ ์ ์ํฉ๋๋ค. ์ด SML์ Max Logit์์ class๋ณ๋ก ๋ค๋ฅด๊ฒ ํ์ฑ๋์ด์๋ ๋ถํฌ๋ฅผ standardization์ ํตํด ๊ฐ์ ๋ถํฌ๋ฅผ ๋ง์ถฐ์ค anomaly score์ ๋๋ค. ์ ์ด๋ฏธ์ง์์ ๋ณด์ค ์ ์๋ค์ํผ SML์ ์ ์ฉํ ๊ฒฝ์ฐ overlap๋ ์์ญ์ด ํฌ๊ฒ ์ค์ด๋๋ ๊ฒ์ ํ์ธํ์ค ์ ์์ต๋๋ค. ์ด๋ฌํ SML์์ ๋ ๋์๊ฐ, ์ ํฌ์ ์ฐ๊ตฌ์์๋ class boundary์ ์์ irregular๋ค์ ์ง์คํด์ ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ ํฅ์์ํฌ ์ ์๋ ์ถ๊ฐ์ ์ธ ๋ชจ๋๋ค์ ์ ์ํฉ๋๋ค.
4. Method

์ ๊ทธ๋ฆผ์์ ํ์ธํ ์ ์๋ค์ํผ, ์ ํฌ๋ ์ฐ์ pre-train๋ ๋ชจ๋ธ์ ์ด์ฉํด์ Max Logit๊ฐ์ ๊ตฌํด๋ ๋๋ค. ๊ทธ ํ์, ์ ํฌ๋ ์ด Max Logit๊ฐ๋ค์ class๋ณ๋ก training statistics๋ฅผ ์ด์ฉํด์ standardize๋ฅผ ํด์ฃผ๊ฒ ๋ฉ๋๋ค. ๋ ๋์๊ฐ, uncertainํ boundary ์์ญ์ ๋ certainํ ๊ฐ์ธ ์ฃผ๋ณ์ non-boundary ๊ฐ๋ค์ ์ด์ฉํด์ ์ ํ์์ผ์ฃผ๊ณ ๋ง์ง๋ง์ผ๋ก dilated smoothing์ ์ ์ฉํ์ฌ ์์ irregular๋ค์ ์ ๊ฑฐํด์ค๋๋ค.
๋ค์์ ๊ณผ์ ์ ์ ํฌ๊ฐ ์ด๋ป๊ฒ Max Logit๊ณผ prediction์ ์ป์๋์ง ์์์ผ๋ก ํํํด๋ณด๊ฒ ์ต๋๋ค. ์ฃผ์ด์ง input image ์ pre-define๋ class์ ๊ฐ์ ์ ๋ํ์ฌ logit output์ธ ๋ ๋คํธ์ํฌ์ softmax layer ์ ์ output์ผ๋ก ์ ์๋ฉ๋๋ค. ๋ฐ๋ผ์, Max Logit ๊ณผ prediction ์ ์ ๋ํ์ฌ input image์ ์์น์์ ์๋์ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
4-1. Standardized Max Logits (SML)
Standardization์ ์ํด์ ์ ํฌ๋ ์ฐ์ training sample๋ค์ statistics๋ฅผ ๊ตฌํ์ต๋๋ค. ๋ณด๋ค ๊ตฌ์ฒด์ ์ผ๋ก, ์ ํฌ๋ train sample๋ค์ ๊ฐ class๋ณ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ตฌํ์ต๋๋ค. ์ด ํ๋ก์ธ์ค๋ ์๋์ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
์ด ์์์ ๋ ๋ฒ์งธ training sample ๊ทธ๋ฆฌ๊ณ ์ indicator function์ ์๋ฏธํฉ๋๋ค.
์ ์ฒ๋ผ ์ป์ด์ง ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ด์ฉํด ์ ํฌ๋ test image์ ๋ํด SML ๋ฅผ Max Logit ๊ฐ๋ค์ ๋ค์๊ณผ ๊ฐ์ด standardizeํจ์ผ๋ก์ ์ป์ด๋ ๋๋ค.
์ด๋ ๊ฒ SML์ standardization์ ํตํด Max Logit๊ฐ๋ค์ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ๋๋ก ๋ฐ๊ฟ์ค๋๋ค. ์ ํํ๋ ๊ฐ ํฝ์ ์ ๋ํ ๊ฐ๋ค์ ๊ทธ๋ค์ class์์์์ ์๋์ ์ธ ํฌ๊ธฐ ์ ์๋ก ๋ฐ๊ฟ์ค๋๋ค. ์ด๋ฌํ mapping์ ์ ํฌ๊ฐ ์ถ๊ฐ์ ์ผ๋ก ์ ์ํ๋ Boundary Suppression ๊ณผ Dilated Smoothing์ด ๋์ํ ์ ์๋๋ก ๊ฐ๋ฅํ๊ฒ ํด์ค๋๋ค.
4-2. Iterative Boundary Suppression

Boundary์์ญ์ class์ ์์ชฝ ์์ญ ๋๋น ๋์ฑ uncertainํ ํน์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๊ทธ ์ด์ ๋ ์ด๋ฌํ boundary ์์ญ์ ํ๋์ class์์ ๋ค๋ฅธ class๋ก์ ๋ณํ๊ฐ ์ผ์ด๋๋ ๊ณณ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์, ์ ํฌ๋ Iterative Boundary Suppression์ด๋ผ๋ ๋ฐฉ๋ฒ์ ํตํด ์ด๋ฌํ uncertainํ ์์ญ์ certainํ ๊ฐ์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. ์ ๊ทธ๋ฆผ์ ์ค๋ช ๋ ๊ฒ์ฒ๋ผ ๋จผ์ ์ ํฌ๋ prediction map์์ boundary ์์ญ์ ๊ตฌํด๋์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ Boundary Average Aware Pooling (BAP)๋ฅผ ์ ์ฉํ์ฌ boundary์ฃผ๋ณ์ non-boundary๊ฐ๋ค์ด boundary ์์ญ์ ์ ๋ฐ์ดํธํ๋๋ก ํ์์ต๋๋ค. ์ ํฌ๋ ์ด๋ฌํ ๊ณผ์ ์ boundary width์ธ ๋ฅผ ์ค์ฌ๊ฐ๋ฉฐ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํ์์ต๋๋ค.
๋์ฑ ๊ตฌ์ฒด์ ์ผ๋ก, ์ ํฌ๋ initial boundary width๋ฅผ ๋ก ์ ์ํ์๊ณ ๋งค iteration๋ง๋ค ์ฉ ์ค์ฌ๊ฐ๋ฉฐ ์ ์ฉํ์์ต๋๋ค. ๋ฒ์งธ width์ธ ์ prediction ์ ๋ํ์ฌ, ์ ํฌ๋ non-boundary mask ๋ฅผ ๊ฐ pixel ์ ๋ํ์ฌ ์๋์ ๊ฐ์ด ์ ์ํ์์ต๋๋ค.
์ฌ๊ธฐ์ ๋ ๋ฅผ ๋ง์กฑ์ํค๋ ๋ชจ๋ ์ ์๋ฏธํฉ๋๋ค.
๊ทธ ํ, ์ ํฌ๋ BAP๋ฅผ ์์์ ๊ตฌํ ๋ง์คํฌ ์ ์ด์ฉํด ์๋์ ๊ฐ์ด ์ ์ํฉ๋๋ค.
๊ณผ ์ ๊ฐ๊ฐ ์ ์ ์ ๋ํ receptive๋ฅผ ์๋ฏธํ๊ณ ์ ์์ pixel์ ์๋ฏธํฉ๋๋ค. ์ดํ ์ด ๊ณผ์ ์ ๋ฒ ๋ฐ๋ณตํ๋ฉฐ boundary์์ญ์ ๊ฐ์ด confidentํ ์ฃผ๋ณ์ ๊ฐ๋ค๋ก ์ฑ์์ง๋๋ก ํ์์ต๋๋ค. ์ ํฌ๋ initial boundary width ๋ฅผ 8, reduce rate ์ 2, iteration ํ์๋ฅผ , ๊ทธ๋ฆฌ๊ณ receptive field ์ ํฌ๊ธฐ๋ฅผ ๋ก ์ ์ํ์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํจ์ผ๋ก์จ, ์ ํฌ๋ boundary ์์ญ์ false positive์ false negative๊ฐ๋ค์ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ ์ ์์์ต๋๋ค.
4-3. Dilated Smoothing
์์ Iterative Boundary Suppression์ boundary ์์ญ์ ๋ํด์๋ง ๋์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์ ์กด์ฌํ๋ ๋ค๋ฅธ false positive์ false negative์ ๋ํด์๋ ์ ๊ฑฐํ์ง ๋ชปํฉ๋๋ค. Gaussian smoothing์ ์ด๋ฏธ์ง ๋ด์ ์์ noise๋ค์ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ์์ต๋๋ค. ๊ทธ๋์ ์ ํฌ๋ ์์ irregular๋ค (์์ false positive, false negative๋ค)์ ์ ๊ฑฐํ๊ธฐ ์ํด Gaussian Smoothing์ ์ ์ฉํ์์ต๋๋ค. ๋ ๋์๊ฐ dilation์ ์ฃผ์ด ๋ ๋์ receptive๋ฅผ ๋ฐ์ํ ์ ์๋๋ก ๊ณ ์ํ์์ต๋๋ค.
5. Experiment & Result
Experimental setup
์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด, ์ ํฌ๋ area under receiver operating characteristics (AUROC)์ average precision (AP)๋ฅผ ์ธก์ ํ์์ต๋๋ค. ๋ํ true positive rate 95%์์์ false positive rate (FPR)์ ์ธก์ ํ์์ต๋๋ค. Qualitative analysis๋ฅผ ์ํด ์ ํฌ๋ TPR์์์ threshold๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐํํ์์ต๋๋ค.
์ ํฌ๋ ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ ์๋์ ๋ฐ์ดํฐ์ ๋ค์ ๋ํ์ฌ ๊ฒ์ฆํ์์ต๋๋ค.
Fishyscapes Lost & Found [9] - ๋ฐ์ค, ๊ณต ๋ฑ์ 37 ์ข ๋ฅ์ ์์ unexpected ์ฅ์ ๋ฌผ์ด ์๋ ์ค์ ์ฃผํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
Fishyscapes Static [9] - Unexpected ์ฅ์ ๋ฌผ์ด Cityscapes validation ์ด๋ฏธ์ง๋ค์ ํฉ์ฑ๋ ๋ฐ์ดํฐ์
Road Anomaly [5] -์ฃผํ ์ค์ ๋ง์ฃผ์น ์ ์๋ ํํ์ง ์์ ๋๋ก ์ ์ํ ์ํฉ ์ด๋ฏธ์ง๋ค (web collected)
Implementation Details
์ ํฌ๋ DeepLabv3+ [10]์ ์ ํฌ์ segmentation architecture๋ก ์ ํํ์๊ณ ResNet101 [11]์ ์ ํฌ์ backbone์ผ๋ก ์ฌ์ฉํ์์ต๋๋ค. Output stride๋ 8 ๊ทธ๋ฆฌ๊ณ batch size๋ฅผ 8๋ก ์ค์ ํ์์ผ๋ฉฐ ์ด๊ธฐ learning rate๋ฅผ 1e-2 ๊ทธ๋ฆฌ๊ณ momentum์ 0.9๋ก ์ค์ ํ์์ต๋๋ค. ์ ํฌ๋ segmentation model์ Cityscapes ๋ฐ์ดํฐ์ ์ ๋ํด 60K iteration๋์ pretrain์์ผฐ์ผ๋ฉฐ power๋ฅผ 0.9๋ก ์ค์ ํ polynomial learning rate scheduling์ ์ฌ์ฉํ์์ต๋๋ค. ๋ํ PSPNet [12]์์ ์ ์๋ auxiliary loss๋ฅผ loss weight 0.4๋ก ์ค์ ํ์ฌ ํ์ต์์ผฐ์ต๋๋ค. Data augmentation์ ์ํด color ๊ทธ๋ฆฌ๊ณ positional augmentation์ ์ ์ฉํ์์ผ๋ฉฐ ๊ตฌ์ฒด์ ์ผ๋ก color jittering, Gaussian blur, random horizontal flip, ๊ทธ๋ฆฌ๊ณ random cropping์ ์ ์ฉํ์์ต๋๋ค. ๋ํ ์ ํฌ๋ class-uniform sampling [13, 14]๋ฅผ rate 0.5์ ๊ฐ์ผ๋ก ์ ์ฉ์์ผฐ์ต๋๋ค.
Iterative Boundary Suppression์ ๊ฒฝ์ฐ, boundary mask๋ dilated๋ prediction map์์ eroded ๋ prediction map์ ๋นผ์ ๊ตฌํ์์ผ๋ฉฐ ๊ทธ ๊ณผ์ ์์ filter๋ L1 filter๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ๋ํ ์ ํฌ๋ initial boundary width ๋ฅผ 8, iteration ํ์ ์ 4, dilation rate ๋ฅผ 6, ๊ทธ๋ฆฌ๊ณ receptive field ๊ณผ smoothing kernel์ ํฌ๊ธฐ๋ฅผ ๊ณผ ๋ก ๊ฐ๊ฐ ์ ์ํ์์ต๋๋ค.
์ต์ข anomaly score๋ ํด๋น ๊ณผ์ ์ด ๋๋ ๋ง์ง๋ง SML๊ฐ์ ์ ๊ณฑํ ๊ฐ์ ์ฌ์ฉํ์์ต๋๋ค. ๊ณต์์ ์ธ ๊ตฌํ์ ๋ค์ ๋งํฌ์์ ํ์ธํ์ค ์ ์์ต๋๋ค. https://github.com/shjung13/Standardized-max-logits
Qualitative Result


์์ ์ด๋ฏธ์ง๋ค์ MSP, Max Logit, ๊ทธ๋ฆฌ๊ณ ์ ํฌ ๋ฐฉ๋ฒ๋ก ์ Fishyscapes Lost&Found์ Static ๋ฐ์ดํฐ์ ์ ๋ํ qualitative ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ํ์์ pixel๋ค์ unexpected๋ก ์์ธก๋ pixel๋ค์ ์๋ฏธํฉ๋๋ค. ๋ณด์ฌ์ง๋ ๋ฐ์ ๊ฐ์ด, ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋๋น false positive๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ง์์ค๋๋ค.

์์ ์ด๋ฏธ์ง๋ ์ ํฌ์ SML, Iterative Boundary Suppression, ๊ทธ๋ฆฌ๊ณ Dilated Smoothing ๊ฐ๊ฐ์ ์ ์ฉํ์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ ๊ฒ์ ๋๋ค. ๋ ธ๋์ ๋ฐ์ค์์๋ Iterative Boundary Suppression์ด ํจ๊ณผ์ ์ผ๋ก boundary ์์ญ์ ์ง์ฐ๋ ๊ฒ์ ๋ณผ ์ ์๊ณ ๋ น์ ๋ฐ์ค์์๋ ์์ false positive๋ค์ด ํจ๊ณผ์ ์ผ๋ก ์ฌ๋ผ์ง๋ ๊ฒ์ ๋ณด์ค ์ ์์ต๋๋ค.
Quantitative Results
์ฒซ ๋ฒ์งธ๋ก, public leaderboard์์์ ๊ฒฐ๊ณผ ๋จผ์ ๋ณด์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค. ๊ทธ ํ, ๋ค์ํ validation set๋ค์์์ ์ฑ๋ฅ์ ๋ณด์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.

์์ ํ๋ Fishyscapes Lost&Found test set๊ณผ Static test set์ ๋ํ ๊ฒฐ๊ณผ์ ๋๋ค. ๋ณด์ฌ์ง๋ ๊ฒ์ฒ๋ผ additional training๊ณผ ์ถ๊ฐ์ ์ธ OoD data๋ฅผ ์๊ตฌํ์ง ์๋ ๋ชจ๋ธ๋ค ์ค์ ์ ํฌ์ ๋ชจ๋ธ์ด Fishyscapes Lost&Found ๋ฐ์ดํฐ์ ์ ๋ํด state-of-the-art์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ๋ณด์ค ์ ์์ต๋๋ค.

์ ํ๋ Fishyscapes Lost&Found ์ Static์ validation set ๊ทธ๋ฆฌ๊ณ Road Anomaly ๋ฐ์ดํฐ์ ์ ๋ํด ๊ฒ์ฆํ ํ์ ๋๋ค. ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ด ๋ค๋ฅธ baseline๋ค ๋๋น ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ์ค ์ ์์ต๋๋ค.

๋ ๋์๊ฐ, ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ ์์ parameter์ computational cost๋ค ๋๋ฐํฉ๋๋ค. Image resynthesis ๋ฐฉ๋ฒ๋ก ๊ธฐ๋ฐ์ธ SynthCP์ ๋น๊ตํ์์ ๋, ์ถ๊ฐ์ ์ผ๋ก ํ์ํ ๊ณ์ฐ ๋์ด ์์ฃผ ์ ์ ๊ฒ์ ๋ณด์ค ์ ์์ต๋๋ค.
6. Conclusion
์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ ๋๋ก ์ฃผํ ์ค unexpected obstacle์ ์ฐพ์๋ด๊ธฐ ์ํ ๊ฐ๋จํ๋ฉด์ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ inference time๊ณผ memory์ overhead๊ฐ ์ ์ต๋๋ค. ๋ ๋์๊ฐ, ์ ํฌ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์กด์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ์ํธ ๋ณด์์ ์ผ๋ก ๋์ํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ ๋จ์ ๋ ์กด์ฌํฉ๋๋ค. ์ฒซ๋ฒ์งธ๋ก, ์ ํฌ๋ ๋ชจ๋ธ์ output์ธ Max Logit์ ๋ถํฌ์ ์์กดํ๊ฒ ๋ฉ๋๋ค. ์ถ๊ฐ์ ์ธ training์ ์๊ตฌํ์ง ์๊ธฐ ๋๋ฌธ์ pre-train๋ ๋ชจ๋ธ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ๋ํ Dilated Smoothing์ ํตํ๊ณ ๋ ํ, noise์ฒ๋ผ ์์ OoD ๋ค์ ์ ๊ฑฐ๋ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋จ์ ๋ค์ ์ฌ์ ํ further work ์ผ๋ก ๋จ์์์ต๋๋ค.
๊ฐ์ฌํฉ๋๋ค.
Take home message
Class๋ค ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ถํฌ๋ฅผ ๋ง์ถฐ ์ฃผ๋ ๊ฒ์ Out-of-Distribution ํ์ง์ ํจ๊ณผ์ ์ผ ์ ์๋ค.
Post-processing ๋ฐฉ๋ฒ์ ์ ์ฉํ๋ ๊ฒ์ ์์์ main segmentation network์ ์ ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ํจ๊ณผ์ ์ผ ์ ์๋ค.
Semantic segmentation์ Out-of-Distribution ํ์ง์์, boundary ์์ญ์ ๋ค๋ฅธ ์์ญ ๋๋น uncertainํ๊ณ , ์ด๋ฌํ ์์ญ์ ์๋ง๊ฒ ์ฒ๋ฆฌํ๋ ๊ฒ์ ๋ช๋ช์ ๊ฒฝ์ฐ์ ํจ๊ณผ์ ์ผ ์ ์๋ค.
Author / Reviewer information
Author
์ ์ํ (Sanghun Jung)
KAIST AI
Personal page: https://shjung13.github.io
Github: https://github.com/shjung13
LinkedIn: https://www.linkedin.com/in/sanghun-jung-b17a4b1b8/
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Sanghun Jung, Jungsoo Lee, Daehoon Gwak, Sungha Choi, and Jaegul Choo. Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles in Urban-Scene Segmentation. In Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 15425-15434, 2021.
Github: https://github.com/shjung13/Standardized-max-logits
Citation of related work
[1] Dan Hendrycks and Kevin Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In Proc. of the International Conference on Learning Representations (ICLR), 2017.
[2] Dan Hendrycks, Steven Basart, Mantas Mazeika, Mohammadreza Mostajabi, Jacob Steinhardt, and Dawn Song. Scaling out-of-distribution detection for real-world settings. arXiv preprint arXiv:1911.11132, 2020.
[3] Petra Bevandic, Ivan Kre ยด so, Marin Or ห siห c, and Sini ยด saห Segvi ห c.ยด Dense outlier detection and open-set recognition based on training with noisy negative images. arXiv preprint arXiv:2101.09193, 2021.
[4] Robin Chan, Matthias Rottmann, and Hanno Gottschalk. Entropy maximization and meta classification for out-ofdistribution detection in semantic segmentation. arXiv preprint arXiv:2012.06575, 2020.
[5] Krzysztof Lis, Krishna Nakka, Pascal Fua, and Mathieu Salzmann. Detecting the unexpected via image resynthesis. In Proc. of IEEE international conference on computer vision (ICCV), pages 2151โ2161, 2019.
[6] Krzysztof Lis, Sina Honari, Pascal Fua, and Mathieu Salzmann. Detecting road obstacles by erasing them. arXiv preprint arXiv:2012.13633, 2020.
[7] Yingda Xia, Yi Zhang, Fengze Liu, Wei Shen, and Alan L. Yuille. Synthesize then compare: Detecting failures and anomalies for semantic segmentation. In Proc. of the European Conference on Computer Vision (ECCV), pages 145โ 161, 2020.
[8] Toshiaki Ohgushi, Kenji Horiguchi, and Masao Yamanaka. Road obstacle detection method based on an autoencoder with semantic segmentation. In Proc. of the Asian Conference on Computer Vision (ACCV), pages 223โ238, 2020.
[9] Hermann Blum, Paul-Edouard Sarlin, Juan Nieto, Roland Siegwart, and Cesar Cadena. The fishyscapes benchmark: Measuring blind spots in semantic segmentation. arXiv preprint arXiv:1904.03215, 2019.
[10] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proc. of the European Conference on Computer Vision (ECCV), pages 801โ818, 2018.
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proc. of IEEE conference on computer vision and pattern recognition (CVPR), pages 770โ778, 2016.
[12] Hanchao Li, Pengfei Xiong, Jie An, and Lingxue Wang. Pyramid attention network for semantic segmentation. In Proc. of the British Machine Vision Conference (BMVC), page 285, 2018.
[13] Samuel Rota Bulo, Lorenzo Porzi, and Peter Kontschieder. In-place activated batchnorm for memory-optimized training of dnns. In Proc. of IEEE conference on computer vision and pattern recognition (CVPR), pages 5639โ5647, 2018.
[14] Yi Zhu, Karan Sapra, Fitsum A Reda, Kevin J Shih, Shawn Newsam, Andrew Tao, and Bryan Catanzaro. Improving semantic segmentation via video propagation and label relaxation. In Proc. of IEEE conference on computer vision and pattern recognition (CVPR), pages 8856โ8865, 2019.
Other useful materials
...
Last updated
Was this helpful?