MM-TTA [Kor]
Shin et al. / MM-TTA / CVPR 2022
Title & Description
MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [Eng]
<Shin et al.> / <MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation> / <CVPR 2022>
English version of this article is available.
1. Problem definition
Domain adaptation๋ source data์์ train๋ ๋ชจ๋ธ์ด target data์ ์ ํฉํ๋๋ก ๋ชจ๋ธ์ ์ ์ ์ํค๋ task์ ๋๋ค.
Source data๊ฐ ํญ์ ์ ๊ทผ ๊ฐ๋ฅํ ๊ฒ์ด ์๋๊ธฐ์ Test-time adaptation์ด ์๋๋๊ณ ์์ต๋๋ค.
Uni-modal semantic segmentation์์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค์ multi-modal์ ๊ทธ๋๋ก ์ ์ฉํ ์๋ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ multi-modality task์ ์ฅ์ ์ ์ต๋ํ ์ด์ฉํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
2. Motivation
Related work
Test-time adaptation์ source data ์์ด domain adaptation์ ์ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. Test-time training์ proxy task๋ฅผ ํตํด model parameter๋ฅผ ์ ๋ฐ์ดํธ ํฉ๋๋ค. ๊ทธ๋ฌ๋ training sample์ ํ์๋ก ํ๊ณ , ์ต์ ์ proxy task๋ฅผ ์ฐพ๋ ๊ฒ์ ์ด๋ ต์ต๋๋ค. TENT๋ proxy task์์ด batch norm parameter๋ฅผ ์ ๋ฐ์ดํธ ํ๋ ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ TENT๋ entropy๋ฅผ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๊ธฐ์ ์๋ชป๋ prediction์ ๋ํ confidence๋ฅผ ๋์ด๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. S4T๋ pseudo label์ regularizeํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ฐ, spatial augmentation์ด ๊ฐ๋ฅํ task์ ํํด์๋ง ์ ์ฉํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
3D semantic segmentation์ 3D scene์ ๋ํ ์ดํด๋ฅผ ํตํด ๊ฐ LiDAR point๋ฅผ ๋ถ๋ฅํ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ๋ ์ค์ํ task๋ก ์๋ ค์ ธ ์์ต๋๋ค. 3D point๋ค์ 2D image plane์ ์ ์ฌ์ํ๊ฑฐ๋ point cloud๋ฅผ voxelize, ํน์ SparseConvNet์ ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ค์ 2D ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์๋๋ฐ, ๋ณต์กํ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ์ดํดํ๋๋ฐ์๋ ์ด 2D ๋ฌธ๋งฅ ์ ๋ณด๊ฐ ๋งค์ฐ ์ค์ํฉ๋๋ค.
Idea
์ด๋ฐ ๋จ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด์ multi-modal 3D segmentation์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์์ต๋๋ค. Multi-modal semantic segmentation์์๋ RGB์ point cloud์ ๋๊ฐ์ง ์ ๋ณด๋ฅผ ์ ์ตํฉํ๋ ๊ธฐ๋ฒ์ด ์ค์ํ๋ฐ, RGB๋ ๋ฌธ๋งฅ์ ์ ๋ณด๋ฅผ, point cloud๋ ๊ธฐํํ์ ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. 2D data์๋ style distribution, 3D data์๋ point distribution์ dataset bias๊ฐ ์กด์ฌํ๋๋ฐ, ์ด ๋๋ฌธ์ multi-modality model์ domain adaptation์ด ๋ ๊น๋ค๋กญ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ test-time adaptation ํ๊ฒฝ์์ multi-modal 3D semantic segmentation์ ๋ modality model์ด jointly learnํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ฐ๊ตฌํ์์ต๋๋ค.
3. Method
Intra-modal pseudo label generation ์ด ๋ ผ๋ฌธ์์๋ Intra-PG๋ผ๋ ๋ชจ๋์ ์ ์ํ์๋๋ฐ, ๊ฐ๊ฐ์ modality์์ ์ ๋ขฐํ ์ ์๋ online pseudo label์ ๋ง๋๋ ์ญํ ์ ํฉ๋๋ค. ๋ค๋ฅธ ์๋๋ก ์ ๋ฐ์ดํธ ๋๋ ๋๊ฐ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก, Fast model์ batch normalization ํต๊ณ๋ค์ ๋ฐ๋ก ์ ๋ฐ์ดํธ ํ๊ณ Slow model์ fast model๋ก๋ถํฐ momentum update๋ฉ๋๋ค(์ 6). ๋ ๋ชจ๋ธ์ ๊ณต๊ฒฉ์ ์ผ๋ก, ์ ์ง์ ์ผ๋ก stableํ๊ณ ์๋ณด์ ์ธ supervisory signal์ ์ค๋๋ค. Inference time์๋ Slow model๋ง ์ฌ์ฉ๋ฉ๋๋ค. ๋ ๋ชจ๋ธ์ logit์ ํ๊ท ์ ํตํด fusion๋ฉ๋๋ค.

Inter-modal pseudo label refinement ์ด ๋ ผ๋ฌธ์์๋ Inter-PR์ด๋ผ๋ ๋ชจ๋์ ์ ์ํ์๋๋ฐ, Cross-modal fusion์ ํตํด pseudo label์ ๋ฐ์ ์ํค๋ ๋ฐฉ์์ ๋๋ค. ๋ค๋ฅธ ์๋๋ก ์ ๋ฐ์ดํธ ๋๋ ๋ ๋ชจ๋ธ์ consistency๋ฅผ ์ด์ฉํด ์ด๋ค modality์ output์ pseudo label๋ก ์ทจํ ๊ฒ์ธ์ง ์ ํฉ๋๋ค. Modality๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉ๋ฒ์๋ hard์ soft selection ๋ฐฉ๋ฒ์ด ์๋๋ฐ harder selection์ ๋ ๋ชจ๋ธ ์ฌ์ด consistency๊ฐ ๋์ modality๋ฅผ ๊ทธ๋๋ก ์ทจํ๋ ๊ฒ์ด๊ณ soft selection์ ๋ ๋ชจ๋ธ์ output์ weighted sum์ ํตํด pseudo label์ ๊ตฌํฉ๋๋ค. Consistency๋ KL Divergence์ ์ญ์๋ฅผ ํตํด ์ธก์ ํฉ๋๋ค. ๋ modality์ consistency๊ฐ ์ผ์ threshold๋ณด๋ค ๋ฎ์ ๊ฒฝ์ฐ ํด๋น pseudo label์ ๋ฌด์ํฉ๋๋ค. Loss ํจ์๋ ์๋์ ๊ฐ์ต๋๋ค.


Q. inter-PR ์์ hard selection ์, ๋ ๋ชจ๋ธ ์ฌ์ด consistency ๊ฐ ๋์ modality ๋ฅผ ์ทจํ๋ค๊ณ ํ๋๋ฐ, ๋ ๋ชจ๋ธ์ fast model ์ slow model ์ธ๊ฐ์? ๊ทธ๋์ ๊ฐ modality ๋ณ๋ก fast ์ slow model ์ consistency ๋ฅผ ๊ตฌํ๊ณ , ๋ consistent ํ modality ๋ฅผ ์ ํํ๋๊ฑด๊ฐ์? ๊ทธ๋ ๋ค๋ฉด, ๋ ๋ชจ๋ธ์ consistency ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ก์ ์ด์ ๊ฐ ๊ถ๊ธํฉ๋๋ค. ๋ ๋ชจ๋ธ์ด consistent ํ์ง ์๋ค๋ฉด, ๋ถ์์ ํ ๋ชจ๋ธ๋ก ์ฌ๊ธฐ๋ ๊ฑด๊ฐ์?
A. ๋ณธ ๋ ผ๋ฌธ์์ fast, slow model์ consistency๋ฅผ ๊ณ ๋ คํ๋ ๊ฒ์ source data ์ ๊ทผ์ด ๋ถ๊ฐ๋ฅํ TTA setting์ ๋ณด์ํ๊ธฐ ์ํจ์ด๋ผ ์๊ฐํฉ๋๋ค. UDA์ ๊ฒฝ์ฐ Source data์ ๋ํด์๋ ๊พธ์คํ ํ์ตํ์ฌ ๋ชจ๋ธ์ด task์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ ๋ณด๋ค test set์ ๋ํ loss๋ง ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๋น ์ง๋ ๊ฒ์ ๋ง์ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ TTA์์๋ ๊ทธ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ Source data์ ํ์ต๋ ๋ชจ๋ธ์ prediction ์ผ๋ก๋ถํฐ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๋ ์ ์์ test data์ adapt ํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
4. Experiment & Result
Experimental setup
Dataset
A2D2 dataset์ 2.3 MegaPixel ์นด๋ฉ๋ผ์ 16์ฑ๋ LiDAR๋ก, SemanticKITTI๋ 0.7 MegaPixel ์นด๋ฉ๋ผ์ 64์ฑ๋ LiDAR๋ก๋ถํฐ ์์ง๋์์ต๋๋ค. nuScenes๋ real-world case๋ฅผ ์ํด ์ด์ฉ๋์๋๋ฐ ๋ฎ ์๊ฐ๋์ ์์ง๋ image๋ค์ ๋ถ๋ช ๋ฐค ์๊ฐ์ ์ด๋ฏธ์ง์ ๋ช ํํ ๋ค๋ฅธ ๋น ์กฐ๊ฑด์ ๊ฐ์ง๊ณ ์์ต๋๋ค. Synthia-to-semanticKITTI๋ synthetic๊ณผ real data ์ฌ์ด์ test-time adaptation์ ์ํด ์ํ๋์์ต๋๋ค.
Baselines
Entropy๋ฅผ ํตํ self-learning์ TENT์์ ์ ์๋์๋๋ฐ, model prediction์ entropy๋ฅผ ๊ฐ์์ํค๋ ๋ฐฉ์์ ์ทจํฉ๋๋ค. ์ด ์คํ์๋ Fast model๋ง์ด ์ฌ์ฉ๋์์ผ๋ฉฐ, ์ด loss ํจ์์ ๊ฒฝ์ฐ distribution์ ๋ ์ข๊ฒ ๋ง๋ค๊ฒ ํ ๋ฟ์ด๊ธฐ์ ํ๋ฆฐ prediction์ ๋ ๊ฐํํ ์ ์๊ณ , cross-modal consistency์ ๋ํด ๊ณ ๋ คํ์ง ๋ชปํฉ๋๋ค.
Q. ๋ modality ๊ฐ์ consistency ๋ฅผ ๊ณ์ฐํ์ง ๋ชปํ๋ค๊ณ ๋์ ์๋๋ฐ, ๋ฐ๋ก penalty ๋ฅผ ์ฃผ์ง ์์๋ cross-modal consistency ๊ฐ ๋ณด์กด๋๋ ๊ฑด๊ฐ์? ์๋๋ฉด, ๋ณธ ์ฐ๊ตฌ๋ ๋ modality ์ค ๋ consistent ํ modality ๋ฅผ ์ ํํ๊ธฐ ๋๋ฌธ์, cross-modal consistency ๋ ์ค์ํ์ง ์์๊ฑด๊ฐ์?
A. ๋ modality ๊ฐ์ consistency๋ฅผ ์ ๋๋ก ์ธก์ ํ์ง ๋ชปํ๋ ์ด์ ์ญ์ source data์ ์ ๊ทผ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ํนํ ๋ modality์ prediction์ด ๋์ผํ ์ค๋ต์ผ ๊ฒฝ์ฐ๊ฐ ์ข์ ์๋ผ๊ณ ํ ์ ์์ต๋๋ค. Consistent ํจ์๋ ๋ถ๊ตฌํ๊ณ ๊ทธ prediction์ ๋ํด์๋ penalize ํ์ง ์๋ ๊ฒ์ด์ง์. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ modality์ prediction์์ consensus๋ฅผ ๊ณ ๋ คํ๊ธฐ ๋ณด๋ค๋ 1๋ฒ ์ง๋ฌธ์ ๋ต๋ณ๊ณผ ๊ฐ์ด ๋ consistentํ modality์ output์ pseudo-label๋ก ํ์ฌ ๋ modality๊ฐ ๊ฐ์ prediction์ ํ๋๋ก ํฉ๋๋ค.
Q. Baseline ๋ชจ๋ธ์์ entropy, consistency, pseudo label ์ ์ด์ฉํ self-learning ๋ชจ๋ธ์ด ๊ฐ๊ฐ TENT, xMUDA, MM-TTA ๋ผ๊ณ ์ดํดํ๋ฉด ๋ ๊น์? ๊ฐ category ์ ํด๋นํ๋ baseline ๋ชจ๋ธ์ด ๋ฌด์์ธ์ง ํท๊ฐ๋ฆฝ๋๋ค.
A. TENT์ ๊ฒฝ์ฐ entropy๋ฅผ ๊ณ ๋ คํ ๋ฐฉ๋ฒ์ด๊ณ , xMUDA๊ฐ consistency๋ฅผ ๊ณ ๋ คํ ๋ฐฉ๋ฒ์ธ ๊ฒ์ ๋ง์ต๋๋ค๋ง xMUDA์์๋ pseudo-label์ ์ฌ์ฉํ setting์ด ์์ต๋๋ค. Cross-modal consistency์ ์ถ๊ฐ์ ์ผ๋ก ๊ฐ modality ๋ด์์ pseudo-label๋ก self-training์ ํ๋ ๊ฒ์ด์ง์. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ธ MM-TTA์ ํต์ฌ์ ๋ modality๊ฐ์ interaction์ ํตํ pseudo-label generation์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.

Consistency๋ฅผ ํตํ Self-learning๋ ๋ modality model๊ฐ์ consistency๋ฅผ ํค์ฐ๋ ๋ฐฉ์์ผ๋ก multi-modal test-time adaptation์ ํ์ตํฉ๋๋ค. xMUDA์ ๊ฐ์ด source data๋ฅผ ํตํด regularize ํ ์ ์๋ ๊ธฐ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ MM-TTA๋ source data์ ์ ๊ทผํ์ง ๋ชปํ๋ ์ํฉ์ ๊ฐ์ ํฉ๋๋ค. ๊ทธ๋ ๊ธฐ์ ํ๋ฆฐ prediction์ด ๋ฐ์ํ ๊ฒฝ์ฐ ๋ modality ์ฌ์ด์ consistency๋ฅผ ์ ๋๋ก ์ธก์ ํ์ง ๋ชปํ ์ ์์ต๋๋ค.

Pseudo-label์ ํตํ self-learning์ segmantation loss๋ฅผ ํตํด ํ์ตํฉ๋๋ค. Pseudo-label์ ์ 4์ ๊ฐ์ด prediction๋ค์ thresholdingํ์ฌ ๊ตฌํ ์ ์์ต๋๋ค. Batch normalization statistic๋ง์ ํ์ต์ํค๋๋ฐ๋ค ๋ modality์ pseudo label๊ฐ ์ ์ ๊ฐ ์ด๋ฃจ์ด์ง์ง ์๊ธฐ ๋๋ฌธ์ ์ต์ ์ ํ์ต ๋ฐฉ๋ฒ์ด ์๋๋๋ค.

Training Setup
์ด ๋ ผ๋ฌธ์์๋ two-stream multi-modal framework์ธ xMUDA์ ์ธํ ์ ๋ฐ๋๋๋ฐ, ResNet34๋ก ์ด๋ฃจ์ด์ง U-Net encoder๋ฅผ ์ด์ฉํด 2D branch๋ฅผ ๊ตฌ์ฑํ์๊ณ , 3D branch์ ๊ฒฝ์ฐ SparseConvNetํน์ MinkowskiNet๋ฅผ ์ด์ฉํด voxelize๋ point cloud input์ sparse convolution์ด ํ์ฉ๋ U-Net์ ํต๊ณผ ์์ผฐ์ต๋๋ค.
SparseConvNet์ ๊ฒฝ์ฐ ๊ณตํํ ๋น๊ต๋ฅผ ์ํด xMUDA official pre-trained model์ ์ด์ฉํ์ผ๋ฉฐ MincowskiNet์ ๊ฒฝ์ฐ source data๋ฅผ ์ด์ฉํด ์ฒ์๋ถํฐ trainํ์์ต๋๋ค.
TTA๋ batch norm affine parameter๋ง์ updateํ๋ฉฐ, 1 epoch adaptation ์ดํ์ ์ฑ๋ฅ์ reportํ์์ต๋๋ค.
Evaluation metric
๋ ผ๋ฌธ์ ์ ์๋ค์ mIoU๋ฅผ ํ๊ฐ ์งํ๋ก ์ด์ฉํ์ต๋๋ค. mIoU๋ semantic segmentation task์์ ํํ ์ฌ์ฉ๋๋ ์งํ์ ๋๋ค. mIoU๋ฅผ ๊ตฌํ๊ธฐ ์ํด์๋ confusion matrix๊ฐ ํ์ํฉ๋๋ค. Confusion matrix๋ ๊ฐ category ์์ด ์ผ๋ง๋ ๋ง์ด ์กด์ฌํ๋์ง๋ฅผ ํตํด ์ป์ด์ง๋๋ค. ์ด ๋ category ์์ด๋ ground truth์ prediction์ ์กฐํฉ์ ๋งํฉ๋๋ค. #class * # class ๊ฐ์ ์กฐํฉ์ด ์กด์ฌํฉ๋๋ค. Confusion matrix์ ๋๊ฐ์ ์ฑ๋ถ๋ค์ intersection์ผ๋ก, ๊ทธ ์์ ๋์ธ ์ญ์๊ฐ๊ฐ ํต๊ณผํ๋ ๋ชจ๋ ์ฑ๋ถ๋ค์ union์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ๋ชจ๋ ์กฐํฉ๋ค์ IoU๋ฅผ ํ๊ท ์ ์ทจํ๋ฉด mIoU๋ฅผ ์ป์ ์ ์์ต๋๋ค.
Result
UDA์ ๊ฒฝ์ฐ xMUDA framework๋ฅผ ํตํด ๋น๊ตํ๋๋ฐ, ์ด๋ consistency loss, offline pseudo-label์ ์ด์ฉํ self-training์ ํ์ฉํ์ต๋๋ค. TTA baseline์ ๊ฒฝ์ฐ TENT, xMUDA, xMUDA_pl์ ํ๊ฐํ์ต๋๋ค. TENT๋ฅผ ๋๊ฐ์ง modality์ ํ์ฅํ์๋๋ฐ, 2D์ 3D logit์ ensemble์ entropy๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ์ต๋๋ค.
MM-TTA๋ ๋ชจ๋ baseline ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์๊ณ , entropy์ pseudo-label๋ฅผ ์ด์ฉํ ๊ธฐ๋ฒ์ด consistency loss๋ฅผ ์ด์ฉํ ๋ชจ๋ธ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ A2D2-to-SemanticKITTI์ Synthia-to-SemanticKITTI์ ๊ฒฝ์ฐ modality๊ฐ consistency๋ฅผ ์ก์๋ด๋๊ฒ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ช๋ช TTA baseline๋ค์ด 2D์ 3D performance ๊ฐ๊ฐ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ง๋ง, ensemble result๋ source-only model๋ณด๋ค ์ข์ง ๋ชปํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๊ฒ์ ๋ multi modal output์ด jointly learnํ๋๋ก ๋์์ธ๋์ง ์์๊ธฐ ๋๋ฌธ์ ๋๋ค.
nuScenes์ Day-to-Night Domain gap์ LiDAR๋ณด๋ค๋ RGB์์ ๋ ํฐ๋ฐ, ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ 2D branch์ ์ฑ๋ฅ์ด ์ผ๋ง๋ ํฅ์๋๋์ง๊ฐ ์ค์ํฉ๋๋ค. Inter-PR์ด ์ด ๋ถ๋ถ์์ ๊ธฐ์ฌํ๊ณ ์๊ณ , ๊ทธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.


$xMUDA$ : ๋ modality ๊ฐ์ consistency
$xMUDA_{PL}$ : ๋ modality ๊ฐ์ consistency + intra pseudo-label
$TENT$ : Entropy๋ฅผ ์ด์ฉํ Self-training
$TENT_{ENS}$ : Entropy๋ฅผ ์ด์ฉํ Self-training, ๋ modality logit์ ensemble์์ Entropy minimization
$MM-TTA$ : ๋ modality๊ฐ interaction์ ํตํด ๋ง๋ค์ด์ง pseudo-label์ ์ด์ฉํ self-training
5. Conclusion
์ด ๋ ผ๋ฌธ์์๋ multi-modal 3D semantic segmentation์์์ test-time adaptation์ด๋ผ๋ ๋ฌธ์ ๋ฅผ ์ ์ํ์์ต๋๋ค. ํ๊ณ๊ฐ ์๋ ๊ธฐ๋ฒ๋ค์ ๊ทธ๋๋ก ๊ฐ์ ธ์ค๊ธฐ๋ณด๋ค pseudo label์ modality ๋ด์์ ํน์ modality๊ฐ์ ์ ์ ํด์ฃผ๋ ์ฐธ์ ํ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ method๋ 3D semantic segmentation์ด๋ผ๋ task์ ํน์ง์ ๊น๊ฒ ๋ถ์ํ์ง๋ ์์๊ธฐ์ ๋ ๋ฐ์ ๋ ์ฌ์ง๊ฐ ์์ต๋๋ค. ๋ฟ๋ง ์๋๋ผ multi-modal supervisory signal์ ์ด์ฉํ ๋ชจ๋ task์ ํ์ฉํ ์ ์๋ ๋ฐฉ์์ ๋๋ค.
Q. ์ค์ ์๋๋ฆฌ์ค์ ํ์ํ unseen data์ ๋ํ practicalํ ๋ฐฉ๋ฒ์ผ๋ก test time adaptation๊ด๋ จ ์ฐ๊ตฌ๊ฐ ์งํ๋๊ณ ์๊ณ , ํนํ MM-TTA๋ multi modal ์ํฉ์์ ๋ค์ํ ์ผ์ ์ ๋ ฅ์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋ค์ํ ์ ๋ ฅ ์ผ์ ๋ฐ์ดํฐ์ fusion์, ์ ๋ ฅ ์ฃผ๊ธฐ๊ฐ ๋ค๋ฅด๊ณ sync๊ฐ ๋ง์ง ์๋ ๋ถ๋ถ๋ค์ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ์ฒ๋ฆฌ๋์๋์ง ๊ถ๊ธํฉ๋๋ค.
A. ๋ณธ ๋ ผ๋ฌธ์ ๋ modality์์์ representation์ fuseํ์ง ์๊ณ ๊ฐ๊ฐ์ด prediction์ ํ๊ณ ๋์ confident๋ฅผ ๊ฐ๋ modality์ prediction์ ์ทจํ๋ ๋ฐฉ์์ด๋ฉฐ real time์์ ์ค์ sync๋ฅผ ๋ง์ถ๋ ๊ฒ๋ณด๋ค๋ ๋ modality๊ฐ์ interaction์ ๋ ๋ฌด๊ฒ๋ฅผ ๋ ์ฐ๊ตฌ์ ๋๋ค. ๋ค์ํ ์ผ์์ ์ ๋ ฅ์ sync๋ฅผ ๋ง์ถ๋ ๋ฐฉ๋ฒ์ ๋ํ ์ฐ๊ตฌ๋ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ์์ฃผ ์ข์ ์ฃผ์ ์ธ ๊ฒ ๊ฐ์ต๋๋ค.
Take home message (์ค๋์ ๊ตํ)
Test-time adaptation์ real-world ์๋๋ฆฌ์ค์์ ์ ํฉํ๊ธฐ์ ์ต๊ทผ ๋ง์ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ฅผ ์์์ผ๋ก community์์๋ task ํน์ modality์ ์ ํฉํ feature๋ฅผ ์ ์ ์ ํด๋ด๋ ๋ฐฉํฅ์ผ๋ก ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋ํ ์ ์์ ๊ฒ์ ๋๋ค. ์ด framework๋ ๋ค๋ฅธ ๋ถ์ผ์์๋ ํ์ฉ๋ ์ ์์ ๊ฒ ์ ๋๋ค. Test-time adaptation์ ์ด๊ธฐ work์ผ๋ก์, ๋ชจ๋ machine learning community์ ํ๋ฅญํ ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํ ๊ฒ ์ ๋๋ค.
Author / Reviewer information
Author
** ๋ฅํ๊ณค (Hyeonggon Ryu)**
Affiliation (KAIST)
Contact information (gonhy.ryu@kaist.ac.kr)
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Inkyu Shin, Yi-Hsuan Tsai, Bingbing Zhuang, Samuel Schulter, Buyu Liu, Sparsh Garg, In So Kweon, Kuk-Jin Yoon. MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation. In CVPR, 2022.
Dequan Wang, Evan Shelhamer, Shaoteng Liu, Bruno Ol- shausen, and Trevor Darrell. Tent: Fully test-time adaptation by entropy minimization. In ICLR, 2021.
MaximilianJaritz,Tuan-HungVu,RaouldeCharette,E ฬmilie Wirbel, and Patrick Pe ฬrez. xmuda: Cross-modal unsupervised domain adaptation for 3d semantic segmentation. In CVPR, 2020.
Christopher Choy, JunYoung Gwak, and Silvio Savarese. 4d spatio-temporal convnets: Minkowski convolutional neural networks. In CVPR, 2019.
Benjamin Graham, Martin Engelcke, and Laurens Van Der Maaten. 3d semantic segmentation with submanifold sparse convolutional networks. In CVPR, 2018.
Last updated
Was this helpful?