STSN [Kor]
(Description) Gedas Bertasius et al. / Object Detection in Video with Spatiotemporal Sampling Networks / ECCV 2018 Poster
English version of this article is available.
1. Problem definition
๋ณธ ๋ ผ๋ฌธ์ ์ฐ๊ตฌ์์๋ ๋น๋์ค๋ฅผ ์ด์ฉํ ๋ฌผ์ฒด ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ํด์ ๋ค๋ฃน๋๋ค. ์ต๊ทผ ๋ช ๋ ๋์ ๋ฅ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ๋ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ ๋ถ์ผ์์๋ ๋ง์ ๋ฐ์ ์ ์ด๋ฃจ์ด ์์ต๋๋ค. ํ์ง๋ง ๋น๋์ค๋ฅผ ์ด์ฉํ ๋ถ์ผ์์๋ ๋ชจ์ ๋ธ๋ฌ๊ฐ ๋ฐ์ํ๊ฑฐ๋, ๋น๋์ค ์์์ ํฌ์ปค์ค๊ฐ ๋ง์ง ์๊ฑฐ๋, ๋ฌผ์ฒด์ ํ์์ ๋ณํ์ด ์๊ฑฐ๋, ์ด๋๊ฐ์ ์ํด ๊ฐ๋ ค์ง๊ฒ ๋๋ ์ํฉ ๋๋ฌธ์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ ๋ฐ ๋ง์ ์ด๋ ค์์ ๊ฐ์ง๊ณ ์์์ต๋๋ค.

ํ์ง๋ง ๋น๋์ค ์ ๋ณด๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ด๋ฏธ์ง ์ ๋ณด์๋ ์๋ ๋ง์ ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ ๊ฒ๋ณด๋ค ๋ ๊ฐ๋ ฅํ๊ฒ ํ์ฉ๋ ์ ์์ต๋๋ค. ๋น๋์ค ์ ๋ณด ๋ด ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๊ธฐ ์ํด์๋ ๋น๋์ค์ ํฌํจ๋์ด ์๋ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋๋ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ์ค๊ณํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
์ด์ ์ฐ๊ตฌ์์๋ ์๊ฐ์ ๋ฐ๋ผ ์ผ๊ด๋ ๊ฐ์ฒด ํ์ง๋ฅผ ํ๋ ๋จ๊ณ๋ฅผ ๋ง๋ค๊ณ ๋น๋์ค์์ ์ด๋ฌํ ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉ ํ์์ผ๋, ์ด๋ฌํ ๋ฐฉ๋ฒ์ ํ๋์ ์ ๊ฒฝ๋ง์ผ๋ก ์ฒ๋ฆฌํ๋ End to End Learning์ด ๋ถ๊ฐ๋ฅ ํ์ต๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ์์๋ End to End Learning์ด ๊ฐ๋ฅํ๋๋ก flow-based aggregation ๋คํธ์ํฌ๋ฅผ ๋์ ํ๋๋ฐ, ์ด ๋ฐฉ๋ฒ์ Optical Flow์ ํ์ฉํ์ฌ ์๊ฐ์ ๋ฐ๋ฅธ ๋์ ๊ด๊ณ๋ฅผ ์ฐพ์ ๋ค์ ์๊ฐ ๋์ ๊ด๊ณ์ ๊ฑธ์ณ ํน์ง์ ์ง๊ณํ์ฌ ์ธ์ ํ๋ ์์์์ ๊ฐ์ฒด ๊ฐ์ง๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง ๋ฌผ์ฒด ๊ฐ์ง๋ฅผ ์ํํ๋ ๊ฒ ์ธ์๋ ์์ง์์ ์์ธกํด์ผ ํ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
์ด๋ฌํ ์ฌ์ ์ฐ๊ตฌ๋ค์ ํตํด ๋ฐํ์ง ๋ชจ๋ธ์ ์ค๊ณํ๋๋ฐ ์์ด ๋ง๋ฅ๋จ๋ฆด ์ ์๋ ๋ถ๋ฆฌํ ์ํฉ์ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ํจ๊ณผ์ ์ธ ๋คํธ์ํฌ ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ๋ ๊ฒ์ด ๊ทธ๋ ๊ฒ ๊ฐ๋จํ์ง ์์ต๋๋ค.
๋ชจ๋ธ์ Trainingํ๋ ๋ฐ ๋ง์ ์์ Flow Data๊ฐ ํ์ํ๋ฉฐ, ์ป๊ธฐ๋ ์ด๋ ต๊ณ ๋น์ฉ์ด ๋ง์ด ๋ค ์ ์์ต๋๋ค.
Flow ๋คํธ์ํฌ ๋ฐ Detection ๋คํธ์ํฌ๋ฅผ ๊ฐ๊ฐ ๋ชจ๋ธ๋ก ๋ง๋๋ ๊ฒ์ ์๋ก ๋ค๋ฅธ ์์ค ํจ์, ๋คํธ์ํฌ๋ง๋ค ๋ค๋ฅธ Training ์ ์ฐจ ๋ฑ๊ณผ ๊ฐ์ ์ด๋ ค์ด ์์ ์ ์๋ฐํ ์ ์์ต๋๋ค.
2. Motivation
Related work
2.1 ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ Object Detection
์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ๊ฐ์ฒด ๊ฐ์ง๋ ์ฃผ๋ก ์ฌ์ธต CNN์ ํ์ฉํ์ฌ ๊ฐ๋ฐ๋์์ต๋๋ค.
์ต์ด์ ์ฌ์ธต CNN ๊ฐ์ฒด ๊ฐ์ง ์์คํ ์ค ํ๋๋ R-CNN์ผ๋ก ๋จผ์ ๊ฐ์ฒด๋ฅผ ์ถ์ถํ ๋ค์ CNN์ ์ฌ์ฉํ์ฌ ๊ฐ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ๋ 2๋จ๊ณ ํ์ดํ๋ผ์ธ์ ํฌํจํ์ต๋๋ค. ๊ณ์ฐ ๋ถ๋ด์ ์ค์ด๊ธฐ ์ํด ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ ROI ํ๋ง์ ํ์ฉํ์ฌ ๋ณด๋ค ํจ์จ์ ์ธ ํ์ต์ ์ ๋ํ์ต๋๋ค. ๋ํ, ๊ฐ์ฒด ๊ฐ์ง ํ์ดํ๋ผ์ธ์ ํตํฉํ๊ธฐ ์ํด Faster R-CNN ์ฐ๊ตฌ์์๋ ์ ์ฒด ์์คํ ์ด End to End ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ๋ค์ํ ์์ญ ์ ์ ๋ฐฉ๋ฒ์ ๋ค๋ฅธ ๋คํธ์ํฌ๋ก ๋์ฒดํ์ต๋๋ค.
์ด์ด์ง ๋ ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ Faster R-CNN์ ์ฑ๋ฅ์ ์ฝ๊ฐ ๊ฐ์ํ์ง๋ง ์ค์๊ฐ์ผ๋ก ์คํ๋ ์ ์๋๋ก ํ๋ ์ฐ๊ตฌ๋ฅผ ์งํ ํ์ต๋๋ค. ๋ํ ์ต๊ทผ ์ฐ๊ตฌ์์ ์์น ๊ฐ์ง ROI ํ๋ง์ ๋์ ํ์ฌ ์ด์ ์ ๋ฌผ์ฒด ๊ฐ์ง ์์คํ ์ ๋นํด ๊ฐ์ง ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก ์ต๊ทผ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ธ Mask R-CNN๊ณผ Deformable CNN์ ๊ฐ์ฒด ๊ฐ์ง ๊ฒฐ๊ณผ๋ฅผ ๋์ฑ ๊ฐ์ ํ์ผ๋ฉฐ ๊ฐ์ฒด ๊ฐ์ง ๋ถ์ผ์์์ ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. Mask-RCNN์ ๊ฐ ๊ด์ฌ ์์ญ์ ๋ํ ๋ง์คํฌ๋ฅผ ์์ธกํ๋ ์ถ๊ฐ ๋ถ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฐ๋ฉด Deformable CNN์ ๋ณํ ๊ฐ๋ฅํ ์ปจ๋ณผ๋ฃจ์ ์ ์ฌ์ฉํ์ฌ ๋คํธ์ํฌ๊ฐ ์ ๋ ฅ์ ๋ํ ์์ฉ ํ๋๋ฅผ ์ฐจ๋ณ์ ์ผ๋ก ์กฐ์ ํ๊ณ ๊ฐ์ฒด์ ๋ณํ์ ๋ณด๋ค ๊ฐ๋ ฅํ๊ฒ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.

2.2 ๋น๋์ค๋ฅผ ์ด์ฉํ Object Detection
ImageNet VID ์ฑ๋ฆฐ์ง๊ฐ ๋์ ๋ ๋๊น์ง ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง์ ๋ํ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ๊ฐ ์์์ต๋๋ค. ๋ฐ๋ผ์ STSN๊ณผ ๋น๊ตํ ์ ์๋ ์ด์ ์ฐ๊ตฌ๋ ๊ฑฐ์ ์์์ต๋๋ค.
T-CNN[1, 2]์ ๋จผ์ Optical Flow์ ์์ธกํ ๋ค์ ํ๋ฆ์ ๋ฐ๋ผ ์ด๋ฏธ์ง ๋ ๋ฒจ ์์ธก์ ์ ํํ๊ณ ๋ง์ง๋ง์ผ๋ก ์ถ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์๊ฐ์ ์ผ๋ก ์ผ๊ด๋ ๋์ ์ ๋ขฐ๋ ํ์ง๋ฅผ ์ ํํ๋ ๊ฒ๊ณผ ๊ด๋ จ๋ ๋น๋์ค ๊ฐ์ฒด ํ์ง ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํฉ๋๋ค.
Seq-NMS[3]๋ ์ธ์ ํ ํ๋ ์์ ๊ฑธ์ณ ๊ฒฝ๊ณ ์์ ๊ฐ์ง ์ค์ฒฉ์์ ์๊ฐ ๊ทธ๋ํ๋ฅผ ๊ตฌ์ฑํ ๋ค์ ๋์ ํ๋ก๊ทธ๋๋ฐ์ ์ฌ์ฉํ์ฌ ์ ์ฒด ๊ฐ์ง ์ ์๊ฐ ๊ฐ์ฅ ๋์ ๊ฒฝ๊ณ ์์ ์ํ์ค๋ฅผ ์ ํํฉ๋๋ค. Lee๊ฐ ์ ์ํ ๋ฐฉ๋ฒ์ ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง ์์ ์ ๋ค์ค ๊ฐ์ฒด ์ถ์ ๋ฌธ์ ๋ก ์ทจ๊ธํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก Feichtenhofer๊ฐ ์ ์ํ ๋ฐฉ๋ฒ[4]์ ํ์ง ๋ฐ ์ถ์ ๋ฌธ์ ๋ฅผ ๊ณต๋์ผ๋ก ํด๊ฒฐํ ๋ค์ Viterbi ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ์๊ฐ์ ๋ฐ๋ผ ํ์ง๋ฅผ ์ฐ๊ฒฐํ๋ ConvNet ์ํคํ ์ฒ๋ฅผ ์ ์ํฉ๋๋ค.
์ฐ๋ฆฌ ์์ ๊ณผ ๊ฐ์ฅ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ Zhu[5]์ ์ฐ๊ตฌ์ ๋๋ค. Zhu์ ์ฐ๊ตฌ์์๋ Optical Flow๋ฅผ ๊ณต๋์ผ๋ก ์ถ์ ํ๊ณ ๋น๋์ค์์ ๋ฌผ์ฒด๋ ๊ฐ์งํ๋ End to End learning ๋คํธ์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ์ด๋ ์์ธก๋ Optical Flow์ ์ฌ์ฉํ์ฌ ์ธ์ ํ๋ ์์ ๊ธฐ๋ฅ์ ์ ๋ ฌํจ์ผ๋ก์จ ์ํ๋ฉ๋๋ค. ์ง๊ณ๋ ๊ธฐ๋ฅ์ ํ์ง ๋คํธ์ํฌ์ ๋ํ ์ ๋ ฅ์ผ๋ก ์ ๊ณต๋ฉ๋๋ค.
Idea
๋ณธ ๋ ผ๋ฌธ์์๋ ๊ณต๊ฐ๊ณผ ์๊ฐ์ ๊ฑธ์ณ ๋ณํ ๊ฐ๋ฅํ ์ปจ๋ณผ๋ฃจ์ ์ ์ฌ์ฉํ์ฌ ๋น๋์ค์์ ๋ฌผ์ฒด ๊ฐ์ง๋ฅผ ์ํ ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ STSN(Spatiotemporal Sampling Network)์ ์๊ฐํฉ๋๋ค. STSN์ ์ฃผ์ด์ง ๋น๋์ค ํ๋ ์์์ ๊ฐ์ฒด ๊ฐ์ง ์ ํ๋๊ฐ ์ต๋ํ๋๋๋ก ์ฃผ๋ณ ๋น๋์ค ํ๋ ์์์ ์ ์ฉํ ํน์ง์ ์ ๊ณต๊ฐ์ ์ผ๋ก ์ํ๋งํ๋ ๋ฐฉ๋ฒ์ ํ์ตํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๋ฆฌ๋ bounding box๋ก ๋ ์ด๋ธ์ด ์ง์ ๋ ๋๊ท๋ชจ ๋น๋์ค ํ๋ ์ ์ธํธ์ ๋ํด STSN End to End learning์ ์ค์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ณต์กํ Flow ๋คํธ์ํฌ ์ค๊ณ๋ ๋๋์ Flow ๋ฐ์ดํฐ์ ๋ํ Training ์์ด ImageNet VID ๋ฐ์ดํฐ ์ธํธ๋ก ๋น๊ตํ์ ๋ ์ต์ ๊ธฐ์ ์ ๋นํด ๋ ๋์ ์ ํ๋๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ ๋ณด์์ต๋๋ค.
STSN์ Zhu๊ฐ ์ ์ํ ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ Optical Flow CNN์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ณด๋ค ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํฉ๋๋ค.
์ฌ์ Training๋ Optical Flow CNN์ด ํญ์ ์๋ก์ด ๋ฐ์ดํฐ ์ธํธ๋ก ์ผ๋ฐํ๋๋ ๊ฒ์ ์๋๋ฏ๋ก ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง ์ฑ๋ฅ์ ๋ฐฉํดํ ์ ์์ต๋๋ค. ์ด์ ๋ฐํด STSN์ ํ์ต ๊ฐ๋ฅํ ์๊ณต๊ฐ ์ํ๋ง ๋ชจ๋์ ๊ฐ์ง๊ณ ์์ด ๋ฌผ์ฒด ๊ฐ์ง ๋ ์ด๋ธ์ ๊ตฌ๋ณํ์ฌ ํ์ตํ๋ฏ๋ก ์ด ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์์ต๋๋ค.
STSN์ ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง๋ฅผ ์ํด ํ๋์ ์ ๊ฒฝ๋ง์ผ๋ก ์ฒ๋ฆฌํ๋ End to End Learning์ ํ ์ ์์ต๋๋ค. ์ด์ ๋นํด Optical Flow์ ์์กดํ๋ ๋ฐฉ๋ฒ์ Optical Flow CNN์ Trainingํ๊ธฐ ์ํด ์ถ๊ฐ ๋จ๊ณ๊ฐ ํ์ํ๋ฏ๋ก Training ์ ์ฐจ๊ฐ ๋ ๋ณต์กํ๊ณ ๊ธธ์ด์ง๋๋ค.
3. Method
STSN์์ ๋น๋์ค์์ ๋ฌผ์ฒด๋ฅผ ๊ฐ์งํ๊ธฐ ์ํด ์๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ๋ ๋คํธ์ํฌ ์ํคํ ์ฒ๊ฐ ์ค๊ณ ๋์์ต๋๋ค. ์ด ๋ชจ๋ธ์์๋ ๋น๋์ค ๊ธฐ์ค ์๊ฐ t์์์ ๊ธฐ์ค ํ๋ ์ $I_t$์์ ์ธ๊ทผ ํ๋ ์ $I_{t+k}$์ ๊ฐ์ฒด ์ ๋ณด๋ฅผ ๊ฐ์ง์ ํ์ฉํจ์ผ๋ก์จ ๋ ํจ์จ์ ์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋๋ก ํ์์ต๋๋ค.
๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ด๋ฏธ์ง์ ๋น์ ์์ ์ธ ํฌ์ฆ์ ๊ฐ์ฒด๊ฐ ํฌํจ๋์ด ์๊ฑฐ๋ Occlusion์ด ์๋ ๊ฒฝ์ฐ, ํด๋น ์ด๋ฏธ์ง ํ๋ ์๊ณผ ์๊ฐ์์ผ๋ก ์ธ์ ํด์๋ ํ๋ ์์ ๋น๊ต์ ๋ช ํํ๊ฒ ๋ณด์ด๋ ๋์ผํ ๊ฐ์ฒด๊ฐ ๋น๊ต์ ํ์ค์ ์ธ ํฌ์ฆ๋ก ํฌํจ๋์ด ์๋ค๋ฉด, ๊ฐ์ฒด๋ฅผ ๋ ์ ๊ฐ์งํ ์ ์๋๋ก ๊ฐ๊น์ด ํ๋ ์์ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๊ฐ์ฒด ๊ฐ์ง๋ฅผ ํฅ์์ํค๊ธฐ ์ํด K๊ฐ์ ์ ํ ํ๋ ์๊ณผ K๊ฐ์ ํ์ ํ๋ ์์ ์ฐธ์กฐ ํ ์ ์๋ 2K ์ง์ ํ๋ ์์ ์ฌ์ฉํฉ๋๋ค.

STSN ๋คํธ์ํฌ ์ํคํ ์ฒ์ ํ๋ก์ธ์ฑ ๋จ๊ณ๋ ํฌ๊ฒ 4๋จ๊ณ๋ก ์์ฝํ ์ ์์ต๋๋ค.
Backbone Architecture. ๋ฐฑ๋ณธ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ๋ ๊ฐ ๋น๋์ค ํ๋ ์์ ๋ํ ๊ฐ์ฒด ์์ค ๊ธฐ๋ฅ์ ๊ฐ๋ณ์ ์ผ๋ก ๊ณ์ฐํฉ๋๋ค.
Spatiotemporal Feature Sampling. ์๊ณต๊ฐ ์ํ๋ง ๋ฉ์ปค๋์ฆ์ ์ฃผ์ด์ง ๋น๋์ค์์ ์๊ฐ ์ ๋ณด๋ฅผ ๋งค๋๋ฝ๊ฒ ํตํฉํ๋ ์ญํ ์ ํฉ๋๋ค. ์ด ์ํ๋ง ๋ฉ์ปค๋์ฆ์ Predicted Offsets, Supporting Tensor๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ณ ์๋ก ์ํ๋ง๋ ํผ์ณ ํ ์๋ฅผ ์ถ๋ ฅํ๋ ๋ณํ ๊ฐ๋ฅํ 4๊ฐ์ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌํ๋ฉ๋๋ค. ์์ธํ ์ค๋ช ์ ๊ทธ๋ฆผ 2์ ๋์ ์์ต๋๋ค. (๊ทธ๋ฆผ 2์๋ 2๊ฐ๋ง ํ์๋จ)
Feature Aggregation. ๊ฐ ๋น๋์ค ํ๋ ์์์ ์ํ๋ง๋ ํน์ง์ ํฝ์ ๋น ๊ฐ์ค์น ํฉ์ฐ์ ์ฌ์ฉํ์ฌ ์ฐธ์กฐ ํ๋ ์์ ๋ํ ๋จ์ผ ํน์ง ํ ์๋ก ์๊ฐ์ ์ผ๋ก ์ง๊ณ๋ฉ๋๋ค.
**Object Detection.**ํน์ง ํ ์๋ ์ฃผ์ด์ง ์ฐธ์กฐ ํ๋ ์์ ๋ํ ์ต์ข ๊ฐ์ฒด ํ์ง ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๊ธฐ ์ํด ํ์ง ๋คํธ์ํฌ์ ๋ํ ์ ๋ ฅ์ผ๋ก ์ ๊ณต๋ฉ๋๋ค.
์ฐ๋ฆฌ์ Object Detection ์ ์ํ ํ๋ ์์ํฌ๋ ๊ฐ๋ ์ ์ผ๋ก ๊ตฌ๋ณ๋๋ ์ด๋ฌํ 4๋จ๊ณ๋ฅผ ๋จ์ผ ์ํคํ ์ฒ๋ก ํตํฉํ์ฌ End to End learning์ ์ ๊ณตํฉ๋๋ค.
3.1 Implementation Details
์ํคํ ์ณ ๊ตฌํ์ ์ํด MXNet ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์๋์์๋ STSN ์ํคํ ์ฒ, Training ๋ฐ ์ถ๋ก ์ ์ฐจ์ ๊ด๋ จ๋ ์ธ๋ถ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
Architecture. ๋ฐฑ๋ณธ ๋คํธ์ํฌ์ ๊ฒฝ์ฐ ResNet-101 ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Deformable CNN์ ์ฑํํ์ต๋๋ค. ์๊ณต๊ฐ ์ํ๋ง ๋ธ๋ก์ ๊ฐ๊ฐ 1024๊ฐ์ ์ถ๋ ฅ ์ฑ๋์ ๊ฐ์ง 4๊ฐ์ 3 ร 3 ๋ณํ ๊ฐ๋ฅํ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ํ (x, y) ์คํ์ ์ ์์ธกํ๋ 4๊ฐ์ 3x3 ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ ์์ต๋๋ค. ํน์ฑ ์ง๊ณ ๊ฐ์ค์น๋ฅผ ์์ธกํ๋ ์๋ธ๋คํธ์ํฌ S(x)๋ฅผ ๊ตฌํํ๊ธฐ ์ํด ๊ฐ๊ฐ 512, 512 ๋ฐ 2048๊ฐ์ ์ถ๋ ฅ ์ฑ๋์ด ์๋ 1 ร 1, 3 ร 3 ๋ฐ 1 ร 1 ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด ์ํ์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค. Detection ๋คํธ์ํฌ๋ ๋ณํ ๊ฐ๋ฅํ R-FCN ์ค๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋๋ฉฐ, 7 ร 7 ๊ทธ๋ฃน์ผ๋ก ๋ณํ ๊ฐ๋ฅํ ์์น ๊ฐ์ง ROI ํ๋ง์ ์ฌ์ฉํฉ๋๋ค.
Training. STSN ๋ชจ๋ธ์ ๋ฐฑ๋ณธ ๋คํธ์ํฌ๋ก ResNet-101 ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Deformable CNN ๋ชจ๋ธ์ ์ฌ์ฉํ์๊ธฐ ๋๋ฌธ์ ์์ ํ ๋ฏธ๋ถ๋ ์ ์์ผ๋ฏ๋ก End to End learning์ด ๊ฐ๋ฅํฉ๋๋ค. Training์ ์ํด ๊ธฐ์ค ํ๋ ์ ์ด์ ์ ํ๋์ ์ง์ ํ๋ ์๊ณผ ์ฐธ์กฐ ํ๋ ์ ์ดํ์ ํ๋์ ์ง์ ํ๋ ์์ ๋ฌด์์๋ก ์ํ๋งํฉ๋๋ค. ์ฐ๋ฆฌ๋ Training์์ ๋ ๋ง์ ์ง์ ํ๋ ์์ ์ฌ์ฉํ๋ค๊ณ ํด์ ๋ ๋์ ์ ํ๋๋ก ์ด์ด์ง์ง ์๋๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค. ๋๋จธ์ง Training ์์๋ ๋ ๋จ๊ณ๋ก ๋ชจ๋ธ์ Trainingํฉ๋๋ค. ๋จผ์ Imagenet VID ๋ฐ์ดํฐ ์ธํธ์ ๊ฒน์น๋ 30๊ฐ ๊ฐ์ฒด ํด๋์ค์ ์ฃผ์์ ์ฌ์ฉํ์ฌ Imagenet DET ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ์ ์ฒด ๋ชจ๋ธ์ ์ฌ์ ํ์ตํฉ๋๋ค. Imagenet DET ๋ฐ์ดํฐ ์ธํธ์๋ ์ด๋ฏธ์ง๋ง ํฌํจ๋์ด ์์ผ๋ฏ๋ก ์ด ๊ฒฝ์ฐ ์๋ฏธ ์๋ ์ง์ ํ๋ ์์ ์ํ๋งํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ์ฐธ์กฐ ํ๋ ์์ ์ง์ ํ๋ ์์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ๊ทธ ํ ์ ์ฒด ๋ชจ๋ธ์ 4๊ฐ์ Tesla K40 GPU์์ 120,000๋ฒ ๋ฐ๋ณต ํ์ต๋๋ฉฐ ๊ฐ GPU๋ ๋จ์ผ ๋ฏธ๋ ๋ฐฐ์น๋ฅผ ๋ณด์ ํฉ๋๋ค. ํ์ต๋ฅ ์ ์ฒ์ 80K ๋ฐ ๋ง์ง๋ง 40K ๋ฐ๋ณต์ ๋ํด ๊ฐ๊ฐ 0.001 ๋ฐ 0.0001๋ก ์ค์ ๋ฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ฒ์ 40K ๋ฐ ๋ง์ง๋ง 20K ๋ฐ๋ณต์ ๋ํด ๊ฐ๊ฐ 0.001 ๋ฐ 0.0001์ ํ์ต๋ฅ ๋ก 60K ๋ฐ๋ณต์ ๋ํด Imagenet VID ๋ฐ์ดํฐ ์ธํธ์ ์ ์ฒด ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. Training์ ๋ ๋ฒ์งธ ๋จ๊ณ์์ ์ฐ๋ฆฌ๋ ์ฐธ์กฐ ํ๋ ์์ ํน์ ์ด์ ๋ด์์ ์ง์ ํ๋ ์์ ๋ฌด์์๋ก ์ํ๋งํฉ๋๋ค
Inference. ์ถ๋ก ํ๋ ๋์ T = 27์ ์ฌ์ฉํฉ๋๋ค. ์ฆ, ์ฐธ์กฐ ํ๋ ์ ์ ํ์ K = 13๊ฐ์ ์ง์ ํ๋ ์์ ๊ณ ๋ คํฉ๋๋ค. GPU ๋ฉ๋ชจ๋ฆฌ ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด ๋จผ์ ๊ฐ ์ด๋ฏธ์ง์ ๋ฐฑ๋ณธ ๋คํธ์ํฌ์์ ๊ธฐ๋ฅ์ ๊ฐ๋ณ์ ์ผ๋ก ์ถ์ถํ ๋ค์ ์ด๋ฌํ ๊ธฐ๋ฅ์ ๋ฉ๋ชจ๋ฆฌ์ ์บ์ํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ด ๋ชจ๋ ๊ธฐ๋ฅ์ ์๊ณต๊ฐ ์ํ๋ง ๋ธ๋ก์ ์ ๋ ฅํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ์๊ณ๊ฐ์ด 0.3์ธ ํ์ค NMS๋ฅผ ์ ์ฉํ์ฌ ํ์ง๋ฅผ ์ธ๋ถํํฉ๋๋ค. ๋น๋์ค์ ์ฒซ ๋ฒ์งธ ๋ฐ ๋ง์ง๋ง K = 13๊ฐ ํ๋ ์์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋น๋์ค ์์๊ณผ ๋์ ๋์ด ์ธ์ ํ๋ ์์ ์ํ๋งํด์ผ ํ๋ ๋ ๊ฐ์ง ๊ฒฝ๊ณ ๊ฒฝ์ฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋น๋์ค์ ์์์ ์ฒซ ๋ฒ์งธ ํ๋ ์์ K ๋ณต์ฌ๋ณธ์ผ๋ก ์ฑ์๋๋ค.
4. Experiment & Result
Experimental setup
์คํ์๋ 3,862 ๋ฐ 555๊ฐ์ ๊ต์ก ๋ฐ ํ ์คํธ ๋น๋์ค ํด๋ฆฝ์ด ์๋ ImageNet VID ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ฐ์ง๊ณ ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง์ ๋ํ ์ฑ๋ฅ์ ํ๊ฐํ์์ต๋๋ค. ๊ฐ ๋น๋์ค์๋ Bounding Box๊ฐ ํ์๋๋ฉฐ, ๊ฐ ๋น๋์ค์ ํ๋ ์์ 25 - 30fps๋ก ์ถ์ถ๋ฉ๋๋ค. ๋ฐ์ดํฐ ์ธํธ์๋ ImageNet DET ๋ฐ์ดํฐ ์ธํธ์ ์๋ 200๊ฐ ๋ฒ์ฃผ์ ํ์ ์งํฉ์ธ 30๊ฐ ๊ฐ์ฒด ๋ฒ์ฃผ๊ฐ ํฌํจ๋์ด ์์ต๋๋ค.
Result
Quantitative Results
STSN์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ ๋ ๊ฐ์ง ์ต์ ๋ฐฉ๋ฒ์ธ FGFA์ D&T์ ์ฑ๋ฅ ๋น๊ตํ์์ต๋๋ค. ํจ๊ณผ์ ์ธ ๋น๊ต๋ฅผ ์ํด ๊ฐ ์ํคํ ์ฒ์ ์ฐธ์กฐ ํ๋ ์๋ง ์ฌ์ฉํ์ฌ ์์ธกํ๋ ๋ชจ๋ธ(SSN)๊ณผ ์๊ณต๊ฐ ์ํ ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ๊ณ , ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง ๋น๊ต๋ฅผ ์ํด ์๊ฐ์ ํ์ฒ๋ฆฌ๊ฐ ์ถ๋ ฅ์ ์ ์ฉ๋์์ต๋๋ค. ํ 1์์ D&T ๋ฐ STSN์ CNN ์ถ๋ ฅ์ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ฅผ ๋ํ๋ด๋ ๋ฐ๋ฉด D&T+ ๋ฐ STSN+๋ ์๊ฐ์ ํ์ฒ๋ฆฌ(Seq NMS, object-tube linking ๋ฑ)๋ฅผ CNN ์ถ๋ ฅ์ ์ ์ฉํ ๊ฒฝ์ฐ๋ฅผ ๋ํ๋ ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๋ ๋ช ๊ฐ์ง ๊ธฐ์ค์ ๋ฐ๋ผ ๊ฐ ๋ฐฉ๋ฒ์ ํ๊ฐํ๋ ํ 1์ ๊ฒฐ๊ณผ๋ฅผ ์ ์ ํ์์ต๋๋ค.
ํ 1์ ์ฒซ ๋ฒ์งธ ํ์๋ ์ฃผ์ด์ง ๋ฐฉ๋ฒ์ด ๋ณ๋์ ํ๋ฆ ๋คํธ์ํฌ๋ฅผ Training/Prediction ํ์ดํ๋ผ์ธ์ ํตํฉํด์ผ ํ๋์ง ์ฌ๋ถ๋ฅผ ๋์ดํฉ๋๋ค. ์ด์์ ์ผ๋ก๋ Optical Flow ์์ธก์ ์ํด ๋งค์ฐ ๋ณต์กํ ํ๋ฆ ๋คํธ์ํฌ ์ํคํ ์ฒ๋ฅผ ์ค๊ณํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ด ๋จ๊ณ๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ด ์ ๋ฆฌํฉ๋๋ค.
์ธ๋ถ Optical Flow ๋ฐ์ดํฐ์ ๋ํ Pre-training์ด ํ์ํ์ง ์ฌ๋ถ๋ ๋์ดํฉ๋๋ค. ์ด๋ ์ ์ฒด Training ํ์ดํ๋ผ์ธ์ ๋ ๋ง์ ์ฐ์ฐ์ ํ๋๋ก ๋ง๋ญ๋๋ค.
์ฃผ์ด์ง ๋ฐฉ๋ฒ์ด ์ธ๋ถ ์๊ฐ ์ฌํ ์ฒ๋ฆฌ ๋จ๊ณ๋ฅผ ์ฌ์ฉํ๋์ง ์ฌ๋ถ๋ฅผ ๋์ดํฉ๋๋ค. ์ด๋ฌํ ๋จ๊ณ๋ ์ผ๋ฐ์ ์ผ๋ก Training/Prediction ํ์ดํ๋ผ์ธ์ ๋ ๋ณต์กํ๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ์ ์ ๊ฑฐํ๋ ๊ฒ์ด ์ ๋ฆฌํฉ๋๋ค.
IoU(Intersection Over Union) ์๊ณ๊ฐ 0.5์์ ํ์ค mAP(ํ๊ท ํ๊ท ์ ๋ฐ๋) ๋ฉํธ๋ฆญ์ ๋ฐ๋ผ ๊ฐ ๋ฐฉ๋ฒ์ ํ๊ฐํฉ๋๋ค.

ํ 1์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ต๋๋ค.
STSN์ด ์ต์ FGFA ๋ฐฉ๋ฒ(78.9 ๋ 78.8)๋ณด๋ค ๋ ๋์ ์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. FGFA์ ๋น๊ตํ์ฌ ์ ํ๋ ํฅ์์ด ์์น์ ์ผ๋ก ํฌ๊ฒ ๋์ง๋ ์์ผ๋, FGFA์ ๋ฌ๋ฆฌ STSN์ด ์ง์ ์ ์ธ Optical Flow Supervision ์์ด ์๊ฐ์ ๋์์ ํ์ตํ์ฌ FGFA๋ฅผ ๋ฅ๊ฐํ์ ์ ํ์ธํ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋น๋์ค Object Detection์์์ End to End learning์ ์ด์ ์ ๋ณด์ฌ์ค๋๋ค.
STSN์ D&T์ ๊ฒฝ์ฐ์๋ ์๊ฐ์ ํ์ฒ๋ฆฌ(์: Seq-NMS, object-tube linking ๋ฑ)๊ฐ ์ฌ์ฉ๋์ง ์๋ ์ค์ ์์ STSN์ด D&T ๊ธฐ์ค์ ๋ณด๋ค ์๋นํ ์ฑ๋ฅ์ ๋ฐํํจ์ ๋ณด์ฌ์ค๋๋ค. (78.9 ๋ 75.8). ์ด๋ฌํ ๊ฒฐ๊ณผ๋ STSN์ด ๊ฐ๋ ฅํ ์๊ณต๊ฐ ๊ธฐ๋ฅ์ ํ์ตํ ์ ์๊ณ ์๊ฐ ๊ฒฝ๊ณผ์ ๋ฐ๋ผ ๊ฒฝ๊ณ ์์ ๊ฐ์ง๋ฅผ ์ฐ๊ฒฐํ๋ ์๊ฐ์ ํ์ฒ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ ์์ด๋ ๊ฒฌ๊ณ ํ ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์์์ ๋ํ๋ ๋๋ค.
๋ํ ์๊ฐ์ ํ์ฒ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ Seq-NMS ๋ฅผ ํตํฉํ๋ฉด STSN์ ๊ฒฐ๊ณผ๊ฐ ๋์ฑ ํฅ์๋จ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ํตํด ์ ์ฌํ Viterbi ๊ธฐ๋ฐ ์์ ํ์ฒ๋ฆฌ ๋ฐฉ์์ ์ฌ์ฉํ๋ D&T+๋ฅผ ๋ฅ๊ฐํ ์ ์์ต๋๋ค. (80.4 ๋ 79.8)
Ablation Studies

Optimal Number of Supporting Frames. ๊ทธ๋ฆผ 3์ ์ผ์ชฝ ๊ทธ๋ํ๋ ์ง์ ํ๋ ์ ์๊ฐ ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง ์ ํ๋์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ๋ณด์ฌ์ค๋๋ค. ์ง์ ํ๋ ์์ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ์ด ๊ณ์ ํฅ์๋๊ณ T = 27์์ ์ ์ฒด๋ฉ๋๋ค.
Increasing the Temporal Stride. ์ง์ ํ๋ ์์ ์ํ๋งํ๋ ์๊ฐ ๋ณดํญ k๊ฐ STSN์ ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ์กฐ์ฌ ํ์์ต๋๋ค. ์ฐ๋ฆฌ๋ k = 2 ๋ฐ k = 4์ ์๊ฐ์ ๋ณดํญ์ด ๊ฐ๊ฐ 79.0 ๋ฐ 77.9์ mAP ์ ์๋ฅผ ์ฐ์ถํ๋ ๊ฒ์ ํ์ธํ์์ต๋๋ค. ๋ฐ๋ผ์ k = 2์์๋ ์๋์ 78.9mAP ์ ์๋ณด๋ค ์ฝ๊ฐ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ๊ทธ๋ฌ๋ k๋ฅผ ๋ ํฐ ๊ฐ์ผ๋ก ์ฆ๊ฐ์ํค๋ฉด ์ ํ๋๊ฐ ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค.
Feature Aggregation Weight Analysis. ๊ฐ ์ง์ง ํ๋ ์์ด ์ต์ข ๋ฌผ์ฒด ๊ฐ์ง์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง ๋ถ์ํ๊ธฐ ์ํด ๋ค์ํ k ๊ฐ์ ๋ํ ํ๊ท ๋ฌด๊ฒ ํฌ๊ธฐ $w_{t,t+k}(p)$๋ฅผ ์๊ฐํํ์์ต๋๋ค. ์ด๋ ๊ทธ๋ฆผ 3์ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๋์ ์์ต๋๋ค. ์ด ๊ฒฝ์ฐ ๊ฐ์ค์น ํฌ๊ธฐ๋ ๊ฐ์ฒด์ ์ค์ฌ์ ์๋ ์ p์ ํด๋นํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ต์ข ๊ฐ์ฒด ๊ฐ์ง ์์ธก์ ๊ฐ์ฅ ํฐ ์ํฅ์ ๊ธฐ์ค ํ๋ ์(k = โ1, 0, 1)์ ๊ฐ๊น์ด ์ง์ ํ๋ ์์์ ๋น๋กฏ๋๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฐธ์กฐ ํ๋ ์์์ ๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ ์ง์ ํ๋ ์(์: k = -9, 9)์กฐ์ฐจ๋ 0์ด ์๋ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋ฉฐ ์ต์ข ๊ฐ์ฒด ๊ฐ์ง ์์ธก์ ์๋นํ ์ํฅ์ ์ค๋๋ค.
Qualitative Results
STSN์ด ์ฃผ์ด์ง ๋น๋์ค์ ์๊ฐ ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ๋์ง ์ดํดํ๊ธฐ ์ํด ๊ทธ๋ฆผ 4์์ STSN ์ํ๋ง ๋ธ๋ก์ ์ํด ์์ธก๋ ํ๊ท ์คํ์ ์ ์๊ฐํ ํ์์ต๋๋ค. ์ด๋ฌํ ์คํ์ ์ STSN์ด ์ฐธ์กฐ ํ๋ ์์์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ ๋ฐ ์ฌ์ฉ๋์ด์ผ ํ๋ ์ง์ ํ๋ ์์ ๊ฐ์ฒด ์์ค ์ ๋ณด๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์ฐธ์กฐ ํ๋ ์์ ๋ น์ ์ฌ๊ฐํ์ ํฉ์ฑ๊ณฑ ์ถ๋ ฅ์ ๊ณ์ฐํ๋ ค๋ ํฝ์ ์ ๋ํ๋ ๋๋ค. ์ง์ง ํ๋ ์์ ๋นจ๊ฐ์ ์ฌ๊ฐํ์ ํ๊ท ์คํ์ ์ ๋ํ๋ด๋ฉฐ, ์ด๋ ์ง์ง ํ๋ ์์์ ์ํ๋งํด์ผ ํ๋ ํน์ง์ ์ ๊ฒฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ ธ๋์ ํ์ดํ๋ ๊ธฐ์ค ์ขํ๊ณ์ ์ง์ง ์ขํ๊ณ ์ฌ์ด์ ๋ฌผ์ฒด์ ์์ง์์ ๋ํ๋ ๋๋ค. ์ฐธ์กฐ ํ๋ ์๊ณผ ์ง์ ํ๋ ์ ์ฌ์ด์ ์๋์ ์ผ๋ก ํฐ ์์ง์์๋ ๋ถ๊ตฌํ๊ณ STSN์ ์ ํํ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฐ์ฒด ์ค์ฌ ์ฃผ๋ณ์ ์ง์ ํ๋ ์์์ ํน์ง์ ์ํ๋งํฉ๋๋ค. ์ด๋ฌํ ์๊ณต๊ฐ ์ํ๋ง์ ํตํด ๊ฐ์ฒด๊ฐ ์ฐธ์กฐ ํ๋ ์์์ ํ๋ฆฌ๊ฑฐ๋ ๊ฐ๋ ค์ง ๊ฒ์ฒ๋ผ ๋ณด์ด๋๋ผ๋ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ ์ ์์ต๋๋ค.

๋ํ ๊ทธ๋ฆผ 4์ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ช ์์ Optical Flow ๊ฐ๋ ์์ด๋ STSN์ด ๊ฐ์ฒด์ ์์ง์์ ์ ํํ๊ฒ ์บก์ฒํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ ๊ฒ์ ๊ด์ฐฐํ ์ ์์ต๋๋ค.

๊ทธ๋ฆผ 5์์๋ STSN์ ์ฌ์ฉํ์ฌ ์ฃผ์ด์ง ๋น๋์ค์์ ๊ฐ์ฒด๋ฅผ ์ถ์ ํ๋ ๋ช ๊ฐ์ง ์๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฆผ 5์์ ์ฐ๋ฆฌ๋ ๊ฐ ์ํ์ค์์ ์๋์ ์ผ๋ก ํฐ ์์ง์์๋ ๋ถ๊ตฌํ๊ณ STSN์ด ๋ชจ๋ ์ง์ ํ๋ ์์์ ๊ฐ์ฒด ์ฃผ๋ณ์ ํน์ง์ ์ ํํ๊ฒ ์ํ๋งํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค.

๊ทธ๋ฆผ 6์์๋ ์ ์ SSN ๊ธฐ์ค์ ์ ๊ฐ์ฒด ํ์ง์ ์ ์ฒด STSN ๋ชจ๋ธ์ ๊ฐ์ฒด ํ์ง๋ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ชจ๋ ๊ฒฝ์ฐ์ ์๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ๋ฉด STSN์ด ์ ์ ๊ธฐ์ค์ ์์ ๋ฐ์ํ ์ค์๋ฅผ ์์ ํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ทธ๋ฆผ 6์ ์ธ ๋ฒ์งธ ํ์์ ์ ์ SSN ๊ธฐ์ค์ ์ ์ฐธ์กฐ ํ๋ ์์ ๊ฐ์ฒด๋ฅผ ์๋ก ์๋ชป ์ง์ ํฉ๋๋ค. ์ด๋ ๋๋ง๋ฑ์ ๋จธ๋ฆฌ๊ฐ ๊ฐ๋ ค์ ธ ๋ฐ์ํฉ๋๋ค. ๊ทธ๋ฌ๋ STSN์ ์ง์ง ํ๋ ์์ ๋ณด๊ณ ๋๋ง๋ฑ ๋ชธ์ฒด์ ๋จธ๋ฆฌ ์ฃผ์๋ฅผ ์ํ๋งํ์ฌ ์ด ์ค์๋ฅผ ์์ ํฉ๋๋ค(๊ทธ๋ฆผ 6์ 3ํ, 1์ด ์ฐธ์กฐ). Occlusion ๋ฐ Motion Blur์ ๊ฒฝ์ฐ์๋ ์ ์ฌํ ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ํฉ๋๋ค.
5. Conclusion
๋ณธ ๋ ผ๋ฌธ์์๋ ๋น๋์ค ์ ๋ณด๋ฅผ ์ด์ฉํด Object Detection๋ฅผ ํ๋ ์๋ก์ด ์ํคํ ์ฒ์ธ STSN(Spatiotemporal Sampling Network)์ ์ ์ํ์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๊ฐ ๊ธฐ์ฌํ๋ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๊ณต๊ฐ๊ณผ ์๊ฐ์ ๊ฑธ์ณ ๋ณํ ๊ฐ๋ฅํ ์ปจ๋ณผ๋ฃจ์ ๋ฅผ ์ด์ฉํด ๋ชจ๋ธ ์ค๊ณ๋ฅผ ๋ ๊ฐ๋จํ๊ฒ ํ ์
Optical Flow์ ๋ฐ๋ฅธ Training ๋ฐ์ดํฐ๊ฐ ํ์ํ์ง ์์ ์
๊ธฐ์กด ์ฐ๊ตฌ์ ๋นํด ๋ ๋์ ๋น๋์ค ๊ฐ์ฒด ๊ฐ์ง ์ฑ๋ฅ ํ๋ํ ์
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ก ๋น๋์ค ์ ๋ณด๋ฅผ ์ด์ฉํ Object Detection ๋ชจ๋ธ์ End to End Learning์ ๋ ์ฝ๊ฒ ํ ์์๊ฒ ๋์์ต๋๋ค. ์ถํ ์งํ๋ ์ฐ๊ตฌ์์๋ ๋ ๋ณต์กํ ์๊ณต๊ฐ ์ํ๋ง ๋ธ๋ก์ ์คํํ๋ ๋ด์ฉ์ด ๋ด๊ธธ ์์ ์ ๋๋ค.
์ค๋์ ๊ตํ (Take home message)
์ผ๋ฐ์ ์ผ๋ก ๋น๋์ค ์ ๋ณด๋ฅผ ์ด์ฉํด Object Detection์ ์งํํ๋ ๊ฒ์ ๋ง์ ์ ์ฝ ์ฌํญ์ด ์์ผ๋ฉฐ, ๋ชจ๋ธ์ ์ค๊ณํ ๋ Optical Flow๋ฅผ ํด์ํด์ผ ํ๋ ๋ฑ์ ๋ณต์กํ ๋จ๊ณ๋ฅผ ์๊ตฌํฉ๋๋ค.
๊ณต๊ฐ๊ณผ ์๊ฐ์ ๊ฑธ์ณ ๋ณํ ๊ฐ๋ฅํ ์ปจ๋ณผ๋ฃจ์ ์ ํ์ฉํ๋ฉด ์ ์ฝ ์ฌํญ์ ๊ทน๋ณตํ๋ฉด์๋ End to End Learning์ ํ ์ ์๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ชจ๋ธ์ ์ป์ ์ ์์ต๋๋ค.
Author / Reviewer information
Author
ํ์ ๋ฏผ (Han Jungmin)
Affiliation : Ph.D. student, Robotics Program, KAIST (Advisor: Dong-Soo Kwon)
Research Interest : Flexible Endoscopic Surgery Robot System, Surgical Navigation
Contact information
Personal E-mail : hanjungmin@kaist.ac.kr
Related Website Link
Telerobotics and Control Laboratory, KAIST : http://robot.kaist.ac.kr/
EasyEndo Surgical Inc. : https://www.easyendosurgical.com/
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Citation of this paper
Bertasius, Gedas, Lorenzo Torresani, and Jianbo Shi. "Object detection in video with spatiotemporal sampling networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
Official (unofficial) GitHub repository
None
Citation of related work
Kang, K., Li, H., Yan, J., Zeng, X., Yang, B., Xiao, T., Zhang, C., Wang, Z., Wang, R., Wang, X., Ouyang, W.: T-CNN: tubelets with convolutional neural networks for object detection from videos. IEEE TCSVT 2017 (2017)
Kang, K., Ouyang, W., Li, H., Wang, X.: Object detection from video tubelets with convolutional neural networks. CoRR abs/1604.04053 (2016)
Han, W., Khorrami, P., Paine, T.L., Ramachandran, P., Babaeizadeh, M., Shi, H., Li, J., Yan, S., Huang, T.S.: Seq-nms for video object detection. CoRR abs/1602.08465 (2016)
Feichtenhofer, C., Pinz, A., Zisserman, A.: Detect to track and track to detect. In: International Conference on Computer Vision (ICCV). (2017)
Zhu, X., Wang, Y., Dai, J., Yuan, L., Wei, Y.: Flow-guided feature aggregation for video object detection. In: International Conference on Computer Vision (ICCV). (2017)
Other useful materials
Presentation Video Clip: https://www.youtube.com/watch?v=EZg3LT1OSi4
Author Information (Gedas Bertasius) : https://scholar.google.co.kr/citations?hl=ko&user=8FWkjw8AAAAJ&view_op=list_works&sortby=pubdate
Last updated
Was this helpful?