CenterTrack [Kor]
Zhou et al. / Tracking Objects as Points / ECCV 2020
Last updated
Was this helpful?
Zhou et al. / Tracking Objects as Points / ECCV 2020
Last updated
Was this helpful?
English version of this article is available.
๋ ผ๋ฌธ์์ ์ ์ํ๋ CenterTrack์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ Multi-Object Tracking(MOT)์ ์ํ ๋ชจ๋ธ์ ๋๋ค. ๋ฐ๋ผ์ CenterTrack์ ์ ์ดํดํ๊ธฐ ์ํด์๋ MOT๊ฐ ์ด๋ค task์ธ์ง๋ฅผ ์ดํดํ ํ์๊ฐ ์์ต๋๋ค.
MOT๋ ์ฐ์์ ์ธ ํ๋ ์์์ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๊ณ , ๊ฒ์ถ๋ ๊ฐ์ฒด๋ฅผ ์ถ์ ํ๋ task์ ๋๋ค. ์ฌ๊ธฐ์ ์ฐ์์ ์ธ ํ๋ ์์ LiDAR์ point cloud ๋๋ ์ด๋ฏธ์ง ๋ฑ์ด ๋ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ๊ฒ์ถ๋ ๊ฐ์ฒด๋ฅผ ์ถ์ฒํ๋ ์ด์ ๋ ๊ฐ ๊ฐ์ฒด์ ์ด๋ ๊ฒฝ๋ก๋ฅผ ํ์ ํ๊ธฐ์ํด์ ์ ๋๋ค. ์ด๋ ๊ฒ ์ถ์ ๋์ด ์์ฑ๋ ๊ฐ์ฒด์ ๊ถค์ ๋๋ ๊ฒฝ๋ก๋ action recognition, trajectory prediction ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ ์ ์์ต๋๋ค.
์๋ ์์์ ์๋ก ๋ค๋ฉด MOT๋ ์ฐ์๋ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด์ ์์น๋ฅผ ์ฐพ๋ ๊ฒ(bounding box)๊ณผ ๋์์ ๊ฐ์ ๊ฐ์ฒด์ ๊ฐ์ id๋ฅผ ๋ถ์ฌํ๋ ๊ฒ(color of box)์ ๋๋ค.
์ด๋ฏธ์ง ๊ธฐ๋ฐ์ ๋ค์ค ๊ฐ์ฒด ์ถ์ ๋ฌธ์ ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์์ต๋๋ค.
์๊ฐ ์ ์ด์ ํ๋ ์ ์์ ์นด๋ฉ๋ผ๋ฅผ ํตํด ๋ค์ด์จ ์ด๋ฏธ์ง๋ฅผ ๊ฐ๊ฐ , ๋ผ๊ณ ์ ์ํ๊ณ ์์ ๊ฒ์ถ๋๊ณ ์ถ์ ๋ ๊ฐ์ฒด ์ ๋ณด๋ฅผ ๋ผ๊ณ ํ์ ๋ ์ด๋ฏธ์ง ๊ธฐ๋ฐ MOT์ ๋ชฉ์ ์ ๊ทธ๋ฆฌ๊ณ ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ์ ์กด์ฌํ๋ ๊ฐ์ฒด๋ค์ ์ ๋ณด์ ํด๋นํ๋ ๋ฅผ ์ฐพ๊ณ ๋ ์๊ณ์ด ์ด๋ฏธ์ง์์ ๊ฒ์ถ๋ ๊ฐ์ ๊ฐ์ฒด์ ๋ํด ๊ฐ์ ๋ฅผ ๋ถ์ฌํ๋ ๊ฒ ์ ๋๋ค. ๊ฐ์ฒด ์ ๋ณด ์์ ๋ ๊ฐ์ฒด์ ์ค์ฌ์ ์ ์์น, ์ฌ์ด์ฆ, ๋ confidence, ๊ทธ๋ฆฌ๊ณ ์ unique identification ์ ํด๋นํฉ๋๋ค.
Tracking-by-Detection. ๊ธฐ์กด์ ๊ฐ์ฒด ์ถ์ ์ฐ๊ตฌ๋ Tracking-by-Detection์ ํ๋ ์์ํฌ๋ฅผ ๋ง์ด ๋ฐ๋์ต๋๋ค. ์ด๋ ๊ฐ๊ฐ์ ํ๋ ์์์ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๊ณ , ๊ฒ์ถ๋ ๊ฐ์ฒด๋ฅผ ๋ณ๋์ ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๋งค์นญํ์ฌ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฆ, ๊ฐ์ฒด ๊ฒ์ถ๊ณผ ๊ฐ์ฒด ์ถ์ ์ด ๋ณ๋๋ก ์ด๋ฃจ์ด์ง๋ฉฐ ๊ฐ์ฒด ๊ฒ์ถ ๋จ๊ณ๋ ๊ฐ์ฒด ์ถ์ ๋จ๊ณ์ ์ํฅ์ ๋ฐ์ง ์์ต๋๋ค. SORT[2], DeepSORT[3], BeyondPixel[4] ๋ฑ์ด ์ด ๋ฐฉ๋ฒ์ ํด๋นํฉ๋๋ค.
Tracking-by-Detection์ ๋ฅ๋ฌ๋์ ํ์ฉํ์ฌ ์์ฒญ๋ ์๋๋ก ๋ฐ์ ํ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ฒด ์ถ์ ์ ์ ํ์ฉํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. ํ์ง๋ง tracking-by-detection ๋ฐฉ๋ฒ์ ๊ฒฝ์ฐ ๋ณต์กํ association, ์ฆ ๋ณต์กํ ๋งค์นญ ์ ๋ต์ด ํ์ํ๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ๊ฐ ์ ์ฒด์ ์ผ๋ก ๋๋ ค์ง๊ณ ๋ณต์กํด์ง๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ๋ํ ๊ฐ์ฒด ๊ฒ์ถ์ด ๊ฐ์ฒด ์ถ์ ์ ๋จ์๋ค์ ํ์ฉํ ์ ์๋ค๋ ๋จ์ ๋ ๊ฐ์ง๊ณ ์์ต๋๋ค.
Joint Detection and Tracking. Tracking-by-Detection์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ๋ค์ด ๊ฐ์ฒด ๊ฒ์ถ๊ณผ ์ถ์ ์ ํจ๊ป ์งํํ๋ Joint Detection and Tracking์ ํ๋ ์์ํฌ์ ๋ํ ์ฐ๊ตฌ๊ฐ ๋ง์ด ์งํ๋๊ณ ์์ต๋๋ค. Tracking-by-Detection๊ณผ๋ ๋ค๋ฅด๊ฒ ๊ฐ์ฒด ๊ฒ์ถ๊ณผ ๊ฐ์ฒด ์ถ์ ์ ์ํ feature๋ฅผ ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ํตํด ์ถ์ถํจ์ผ๋ก์จ ๋คํธ์ํฌ๊ฐ ๋ task ๋ชจ๋๋ฅผ ์ํ ๋คํฌ์ํฌ๋ก ํ์ต์ด ๋ฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋น๊ต์ association์ด ๊ฐ๋จํ๊ฒ ์งํ๋๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ complexity๋ฅผ ์ค์ด๋๋ฐ ํจ๊ณผ์ ์ด๋ฉฐ CenterTrack ๋ํ ์ด ๋ฐฉ๋ฒ์ ํด๋น๋ฉ๋๋ค.
CenterTrack์ ํต์ฌ ์์ด๋์ด๋ ๊ฐ๋จํฉ๋๋ค. ๋ฐ๋ก ๊ฐ์ฒด๋ฅผ bounding box๊ฐ ์๋ point๋ก ํํํ์ฌ ์ฌ์ฉํจ์ผ๋ก์จ association์ ๋งค์ฐ ๊ฐ๋จํ๊ฒ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์ฐ์๋ ํ๋ ์์์ ๊ฒ์ถ๋ ๊ฐ์ฒด๋ฅผ ์ถ์ ํ๊ธฐ์ํด ๋ณต์กํ motion modeling์ ์ฌ์ฉํ๊ฑฐ๋ appearance cue๋ฅผ ํ์ฉํ ๋ณ๋์ ๋คํธ์ํฌ๋ฅผ ํตํด ๊ฐ์ฒด ์ถ์ ์ ์งํํ์๋ค๋ฉด, CenterTrack์ ๋งค์ฐ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ํตํ tracking ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ์ ์ ๋๋ค.
CenterTrack์ CenterNet[5]์ด๋ผ๊ณ ํ๋ ๊ฐ์ฒด ๊ฒ์ถ๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ก์ต๋๋ค. ๋ฐ๋ผ์ ์ฌ๊ธฐ์๋ CenterNet์ ๋ํด์ ๊ฐ๋จํ๊ฒ ์ค๋ช ํ๊ณ ์ ํฉ๋๋ค.
CenterNet์ monocular ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๋ ๋คํธ์ํฌ๋ก ๊ฐ์ฒด๋ฅผ anchor ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํ๋ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ anchor ์์ด ๊ฐ์ฒด์ ์ค์ฌ์ ์ ์ฌ์ด์ฆ ๋ฅผ ์์ธกํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค. ์กฐ๊ธ ๋ ์์ธํ๊ฒ ์ค๋ช ํ์๋ฉด, CenterNet์ ์ด๋ฏธ์ง ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๊ฐ์ฒด์ ์ค์ฌ์ ์ ๋ํ๋ด๋ heatmap ์ size map ์ ์ถ๋ ฅํฉ๋๋ค.(์ฌ๊ธฐ์ ์ downsampling factor๋ก ๋ ผ๋ฌธ์์๋ ๋ฅผ ์ฌ์ฉํ์์ต๋๋ค.) ๊ทธ๋ฆฌ๊ณ heatmap ์์์ local maximum ๋ฅผ peak๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ์ด ์ด ๊ฐ์ฒด์ ์ค์ฌ์ ์ผ๋ก ์์ธก๋ฉ๋๋ค. ๋คํฌ์ํฌ์์๋ ๊ฐ ์ ๋ฐ๋ผ confidence ์ ์ฌ์ด์ฆ ๋ ํจ๊ป ์ถ๋ ฅํฉ๋๋ค.
CenterTrack์ ๋ง์ ๋ถ๋ถ์ CenterNet์ ์์กดํ๊ธฐ๋๋ฌธ์ CenterTrack์ ๋ ์ ์ดํดํ๊ณ ์ถ์ผ์ ๋ถ๋ค์ CenterNet ๋ ผ๋ฌธ๋ ํ๋ฒ ์ฝ์ด๋ณด์๊ธฐ ๋ฐ๋๋๋ค.
์์ ์ค๋ช ๋๋ ธ๋ฏ์ด CenterTrack์ ์ฌ์ฉ๋ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ CenterNet๊ณผ ๋๊ฐ์ง๋ง ์ ๋ ฅ์ด ์ถ๊ฐ๋ ๋ชจ๋ธ์ ๋๋ค. CenterNet์์ ํ์ฌ ํ๋ ์ ๋ง ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ ๋ฐ๋ฉด CenterTrack์์๋ ์ด์ ์ถ๊ฐ์ ์ผ๋ก ์ด์ ํ๋ ์์์์ ์ด๋ฏธ์ง ๊น์ง ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ฒ๋ฉ๋๋ค. ๋ฟ๋ง ์๋๋ผ CenterTrack์์๋ ์ด์ ํ๋ ์์์ ๊ฒ์ถ๋ ๊ฐ์ฒด๋ค์ ์์น(์ค์ฌ์ ) ํจ๊ป ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ฌ๊ธฐ์ ๊ฐ์ฒด๋ค์ ์ค์ฌ์ ์ ๋ฐ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์ด๋ฅผ Gaussian render function์ ์ด์ฉํ์ฌ class-agnostic single-channel heatmap ์ ํํ, ์ฆ class์ ๋ฌด๊ดํ ํ๋์ heatmap์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ํตํด CenterTrack์ Tracking-Conditioned Detection์ ํ time step์ ์ด๋ฏธ์ง๋ง์ ์ฌ์ฉํ์ ๋๋ณด๋ค occlusion๊ณผ ๊ฐ์ด ํ์ฌ ์ด๋ฏธ์ง์์ ๋ณผ ์ ์๋ ๊ฐ์ฒด๋ค์ ๋ํ ๊ฒ์ถ๋ ๊ฐ๋ฅํด์ง๊ฒ ๋ฉ๋๋ค.
CenterTrack์์๋ ๊ฐ์ฒด ์ถ์ ์ ์ํด detection ๊ฒฐ๊ณผ์ ํด๋นํ๋ ๊ฐ์ฒด ์์น(์ค์ฌ์ ๋๋ heatmap)๊ณผ ์ฌ์ด์ฆ ์ด์ธ์ 2์ฐจ์ ๋ณ์๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ์์ธกํ๊ฒ๋ฉ๋๋ค. Kalman Filter์ ๋น๊ตํด๋ณด๋ฉด ๊ฐ์ฒด ์์น์ ๋ํ detection์ด measurement, ๊ทธ๋ฆฌ๊ณ 2์ฐจ์ ๋ณ์๊ฐ prediction์ ํด๋นํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด 2์ฐจ์ ๋ณ์ ๋ ํ์ฌ ํ๋ ์๊ณผ ์ด์ ํ๋ ์์์์ ๋ฌผ์ฒด์ ์ด๋ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํ๋ ๋๋ค. ์ด ๋ณ์๋ฅผ ํ์ตํ๊ธฐ ์ํด์ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ ์์ค ํจ์์ ์ถ๊ฐ๋ฉ๋๋ค.
์ด ๋ณ์ ๋๋ offset ์์ธก์ด ์ ๋๋ค๋ฉด ๋ณต์กํ association ๊ณผ์ ์์ด ๋จ์ํ greedy matching์ผ๋ก๋ ์ถฉ๋ถํ ๊ฐ์ฒด ์ถ์ ์ด ์ ๋๋ค๋ ๊ฒ์ด CenterTrack์ ์์ด๋์ด์ด์ ์ฅ์ ์ ๋๋ค.
CenterTrack์ CenterNet์ weights๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์ ํ์ตํ์์ผ๋ฉฐ, ์ด์ธ์ ๋ค๋ฅธ ์์คํจ์ ๋ํ ๋์ผํฉ๋๋ค. ํ์ง๋ง CenterTrack์ ํ์ตํ๋๋ฐ ์์ด์ ํ ๊ฐ์ง ๋ฌธ์ ์ ์ด ์์๋๋ฐ, ๋ฐ๋ก ์ถ๋ก ๋จ๊ณ์์ ๋ฐ์ํ๋ ๋ฏธ๊ฒ์ถ, ์ค๊ฒ์ถ, localization ์ค์ฐจ ๋ฑ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ง์ด ํ๋ฝ์ํจ๋ค๋ ์ ์ ๋๋ค. ์ด๋ ํ์ต ๋จ๊ณ์์๋ ์ด์ ํ๋ ์์ ๊ฒ์ถ ๊ฒฐ๊ณผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ ๋ ground truth๋ฅผ ์ฌ์ฉํ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ฆ, ํ์ต ๋จ๊ณ์์๋ ์ด์ ํ๋ ์์ ๊ฒ์ถ ๊ฒฐ๊ณผ ๋์ ground truth๋ฅผ ์ฌ์ฉํ์๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ๊ฐ ์ค์ validation ๋ฐ test ๋จ๊ณ์์ ๋ฐ์ํ ์ ์๋ ๊ฐ์ฒด ๊ฒ์ถ์ ๋ํ ๋์ฒ๊ฐ ์ด๋ ค์ ์ฑ๋ฅ ํ๋ฝ์ ๊ฐ์ ธ์๋ค๋ ๋ป์ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ์ต ๋จ๊ณ์์ ์ผ์ข ์ data agumentation์ ์ถ๊ฐํฉ๋๋ค. ๊ฐ์ฒด์ ์ค์ฌ์ ์ Gaussian noise๋ฅผ ์ถ๊ฐํ๊ฑฐ๋, ์์์ ์ผ๋ก ์ค๊ฒ์ถ(false positives) ๋๋ ๋ฏธ๊ฒ์ถ(false negatives)์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ๋คํธ์ํฌ๊ฐ ๊ฐ์ธํ๊ฒ ์๋ํ ์ ์๋๋ก ํ์์ต๋๋ค. ๋ํ temporal ํน์ฑ์์์ overfitting์ ๋ฐฉ์งํ๊ธฐ ์ํด์ ์ฐ์๋ ๋ ํ๋ ์ ()๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ๋ ํ๋ ์ ์ฌ์ด์ ์๊ฐ์ฐจ์ด๋ฅผ ๋๋ค(์ต๋ 3ํ๋ ์)ํ๊ฒ ์ฌ์ฉํ์์ต๋๋ค.
Datasets
CenterTrack์์๋ 2D MOT๋ฅผ ์ํด์ MOT17๊ณผ KITTI tracking benchmarks๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ 3D MOT์์๋ nuScenes๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต ๋ฐ ํ๊ฐํ์์ต๋๋ค.
Evaluation Metrics
MOT(multi-object tracking)์์๋ MOTA, MOTP ์ด ๋๊ฐ์ง์ ํ๊ฐ์งํ๋ฅผ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉํฉ๋๋ค.
MOTA (multi-object tracking accuracy) MOTA๋ ์ค๊ฒ์ถ(False Positive, FP), ๋ฏธ๊ฒ์ถ(False Negative, FN), ID ์ค์์นญ (IDSW)์ ์๋ฌ๋ฅผ ์นด์ดํธํ์ฌ MOT์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ ์งํ์ ๋๋ค.
MOTP (multi-object tracking precision) MOTA๊ฐ localization์ ์ค์ฐจ๋ฅผ ์ธก์ ํ์ง ์๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์ํด MOTP๋ฅผ ํจ๊ป ํ๊ฐํฉ๋๋ค. MOTP๋ True Positive๋ก ๊ฒ์ถ๋ ๊ฐ์ฒด๋ค์ ๋ํ ์ค์ฝ์ด ์ ํ๊ท ๊ฐ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค์ฝ์ด ๋ ์ฃผ๋ก IOU(Intersection of Union) ๋๋ distance error ๋ฑ์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
๊ทธ ๋ฐ์๋ MT(Mostly Tracked): ์ ์ฒด ๊ถค์ ์ค 80% ์ด์ ์ถ์ ๋ ๋ฌผ์ฒด์ ๋น์จ, ML(Mostly Lost): ์ ์ฒด ๊ถค์ ์ค 20% ๋ฏธ๋ง ์ถ์ ๋ ๋ฌผ์ฒด์ ๋น์จ ๋ฑ์ด MOT์ ํ๊ฐ์งํ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
๋จผ์ KITTI ๋ฐ์ดํฐ์ ์์์ 2D MOT ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ฉด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋นํด MOTA๋ 4% ์ด์ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
3D MOT์ ํด๋นํ๋ nuScenes ๋ฐ์ดํฐ์ ์์์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ๊ธฐ์กด์ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ ๋ ํฐ ์ฑ๋ฅ ์ฐจ๋ฅผ ๋ณด์์ต๋๋ค.
๋ค์์ผ๋ก ablation study ๊ฒฐ๊ณผ์ ๋๋ค. ablation study์ ์ฌ์ฉ๋ ๋น๊ต ๋์๋ค์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Detection only: CenterNet์ ์ด์ฉํด ๊ฐ ํ๋ ์์์ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๊ณ 2์ฐจ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋งค์นญ
w/o offset: offset ๋๋ 2์ฐจ์ ๋ณ์์ ๋ํ ์์ธก ์์ด ๋จ์ํ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋งค์นญ
w/o heatmap: ์ ๋ ฅ์ผ๋ก heatmap ์ ์ฌ์ฉํ์ง ์๊ณ ๊ฐ์ฒด ๊ฒ์ถ ๋ฐ ์ถ์
์ฌ๊ธฐ์๋ 2D์ 3D์์์ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๋๋๋ฌ์ง๋ ์ ์ ํ์ธํ ์ ์์ต๋๋ค. ํนํ 2D์ ํด๋นํ๋ MOT17์ KITTI์์๋ "Ours"์ "w/o offset"์ ๋น๊ตํ์ ๋ ์ฑ๋ฅ์ฐจ์ด๊ฐ ๋ฏธ๋ฏธํ ๊ฒ์ ํ์ธํ ์ ์๋๋ฐ, ์ด๋ ๋ค๋ฅธ ๋ง๋ก offset ์์ธก์ด ์ฑ๋ฅ ํฅ์์ ํฐ ๋์์ด ๋์ง ์๋๋ค๊ณ ํด์ํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด 3D์ ํด๋นํ๋ nuScenes์ ๊ฒฐ๊ณผ์์๋ "w/o offset"์ ๋นํด "Ours"๊ฐ ํจ์ฌ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ฌํ ์ฐจ์ด์ ์์ธ์ ๋ฐ๋ก ๋ฐ์ดํฐ์ ์ ์ํ๋ง ์ฃผ๊ธฐ์์ ์ฐพ์ ์ ์์ต๋๋ค. MOT17๊ณผ KITTI์์๋ ๋ฐ์ดํฐ์ ์ด ๊ฐ๊ฐ 25FPS์ 10FPS์ด๋ฉฐ ์ด์ ๋ฐํด nuScenes์ 2FPS๋ก ์ํ๋ง ์ฃผ๊ธฐ๊ฐ ํจ์ฌ ๊น๋๋ค. ๊ธด ์ํ๋ง ์ฃผ๊ธฐ๋ ์ฐ์๋ ํ๋ ์ ์ฌ์ด์์ ๊ฐ์ฒด์ ์ด๋๊ฑฐ๋ฆฌ๊ฐ ๊ธธ๋ค๋ ๋ป์ด๋๋ฏ๋ก offset ์์ธก ์์ด ๋จ์ํ association์ผ๋ก๋ ์ ํํ ๊ฐ์ฒด ์ถ์ ์ด ์ด๋ ต์ต๋๋ค. ์ด๋ฌํ ์์ธ์ผ๋ก 2D์ 3D์์ ์ด์ ๊ฐ์ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
CenterTrack์ point-based detector์ธ CenterNet์ ๊ธฐ๋ฐํ์ฌ Tracking์ ์ถ๊ฐํ ๋ชจ๋ธ๋ก ์ฐ์๋ ํ๋ ์์ ์ด๋ฏธ์ง์ ์ด์ ํ๋ ์์ ๊ฐ์ฒด ์์น ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ํ์ฌ ํ๋ ์์์ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๊ณ ์ถ์ ํฉ๋๋ค. ํฌ์ธํธ ํํ๋ก ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๊ณ ์ถ์ ํจ์ผ๋ก์จ association์ ํ์ํ ๋ณต์กํ ๊ณผ์ ์ ์ค์ผ ์ ์์์ผ๋ฉฐ ์ค์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ค๋ง CenterNet์ ์ ์ถ๋ ฅ์ ๋ณ๊ฒฝํ๋ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ์ ์ ์ํ์๊ธฐ๋๋ฌธ์ CenterNet์ contribution์ ๊ทธ๋๋ก ๊ฐ์ ธ์์ ์ค๋ช ํ๋์ ๊ณผ ๋น๋ก ํฌ์ธํธ ๊ธฐ๋ฐ์ ๊ฐ์ฒด ์์น ํํ์ด ํจ์จ์ ์ด๋ผ๋ greedy matching์ด๋ผ๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ์์ ๋งค์นญ์ ์ฌ์ฉํ๋ค๋ ์ ์์ ์์ผ๋ก ๊ฐ์ ํ ์ ์๋ ์ ์ด ๋ ๋ง๋ค๊ณ ์๊ฐํฉ๋๋ค.
๊ฐ์ฒด ๊ฒ์ถ๋ฟ๋ง ์๋๋ผ ๊ฐ์ฒด ์ถ์ ๋ํ point-based representation์ ์ด์ ์ ํ์ฉํ ์ ์๋ค.
๊น์ฐ๋ฏผ (Sanmin Kim)
Ph.D. candidate / KAIST ์กฐ์ฒ์๋ น์๊ตํต๋ํ์ VDCLab
Research Area: Autonomous Driving
sanmin.kim@kaist.ac.kr
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
[1] GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning
[2] Simple Online and Realtime Tracking
[3] Simple Online and Realtime Tracking with a Deep Association Metric
[4] Beyond Pixels: Leveraging Geometry and Shape Cues for Online Multi-Object Tracking
[5] Objects as Points