STSN [Kor]

(Description) Gedas Bertasius et al. / Object Detection in Video with Spatiotemporal Sampling Networks / ECCV 2018 Poster

English version of this article is available.

1. Problem definition

๋ณธ ๋…ผ๋ฌธ์˜ ์—ฐ๊ตฌ์—์„œ๋Š” ๋น„๋””์˜ค๋ฅผ ์ด์šฉํ•œ ๋ฌผ์ฒด ๊ฐ์ง€ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ ๋”ฅ ์ปจ๋ณผ๋ฃจ์…˜ ๋„คํŠธ์›Œํฌ๋Š” ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๋Š” ๋ถ„์•ผ์—์„œ๋Š” ๋งŽ์€ ๋ฐœ์ „์„ ์ด๋ฃจ์–ด ์™”์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋น„๋””์˜ค๋ฅผ ์ด์šฉํ•œ ๋ถ„์•ผ์—์„œ๋Š” ๋ชจ์…˜ ๋ธ”๋Ÿฌ๊ฐ€ ๋ฐœ์ƒํ•˜๊ฑฐ๋‚˜, ๋น„๋””์˜ค ์˜์ƒ์˜ ํฌ์ปค์Šค๊ฐ€ ๋งž์ง€ ์•Š๊ฑฐ๋‚˜, ๋ฌผ์ฒด์˜ ํ˜•์ƒ์— ๋ณ€ํ˜•์ด ์žˆ๊ฑฐ๋‚˜, ์–ด๋”˜๊ฐ€์— ์˜ํ•ด ๊ฐ€๋ ค์ง€๊ฒŒ ๋˜๋Š” ์ƒํ™ฉ ๋•Œ๋ฌธ์— ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๋Š” ๋ฐ ๋งŽ์€ ์–ด๋ ค์›€์„ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

image-20211023061319879

ํ•˜์ง€๋งŒ ๋น„๋””์˜ค ์ •๋ณด๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์ด๋ฏธ์ง€ ์ •๋ณด์—๋Š” ์—†๋Š” ๋งŽ์€ ์ •๋ณด๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ๊ฐ•๋ ฅํ•˜๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„๋””์˜ค ์ •๋ณด ๋‚ด ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋น„๋””์˜ค์— ํฌํ•จ๋˜์–ด ์žˆ๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”๋˜๋Š” ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

์ด์ „ ์—ฐ๊ตฌ์—์„œ๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ผ๊ด€๋œ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ํ•˜๋Š” ๋‹จ๊ณ„๋ฅผ ๋งŒ๋“ค๊ณ  ๋น„๋””์˜ค์—์„œ ์ด๋Ÿฌํ•œ ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉ ํ•˜์˜€์œผ๋‚˜, ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์€ ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” End to End Learning์ด ๋ถˆ๊ฐ€๋Šฅ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ๋Š” End to End Learning์ด ๊ฐ€๋Šฅํ•˜๋„๋ก flow-based aggregation ๋„คํŠธ์›Œํฌ๋ฅผ ๋„์ž…ํ–ˆ๋Š”๋ฐ, ์ด ๋ฐฉ๋ฒ•์€ Optical Flow์„ ํ™œ์šฉํ•˜์—ฌ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋Œ€์‘ ๊ด€๊ณ„๋ฅผ ์ฐพ์€ ๋‹ค์Œ ์‹œ๊ฐ„ ๋Œ€์‘ ๊ด€๊ณ„์— ๊ฑธ์ณ ํŠน์ง•์„ ์ง‘๊ณ„ํ•˜์—ฌ ์ธ์ ‘ ํ”„๋ ˆ์ž„์—์„œ์˜ ๊ฐ์ฒด ๊ฐ์ง€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์ง€๋งŒ ๋ฌผ์ฒด ๊ฐ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ ์™ธ์—๋„ ์›€์ง์ž„์„ ์˜ˆ์ธกํ•ด์•ผ ํ•œ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์‚ฌ์ „ ์—ฐ๊ตฌ๋“ค์„ ํ†ตํ•ด ๋ฐํ˜€์ง„ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜๋Š”๋ฐ ์žˆ์–ด ๋งž๋‹ฅ๋œจ๋ฆด ์ˆ˜ ์žˆ๋Š” ๋ถˆ๋ฆฌํ•œ ์ƒํ™ฉ์„ ์ •๋ฆฌํ•ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ํšจ๊ณผ์ ์ธ ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด ๊ทธ๋ ‡๊ฒŒ ๊ฐ„๋‹จํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

  2. ๋ชจ๋ธ์„ Trainingํ•˜๋Š” ๋ฐ ๋งŽ์€ ์–‘์˜ Flow Data๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ์–ป๊ธฐ๋„ ์–ด๋ ต๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. Flow ๋„คํŠธ์›Œํฌ ๋ฐ Detection ๋„คํŠธ์›Œํฌ๋ฅผ ๊ฐ๊ฐ ๋ชจ๋ธ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์€ ์„œ๋กœ ๋‹ค๋ฅธ ์†์‹ค ํ•จ์ˆ˜, ๋„คํŠธ์›Œํฌ๋งˆ๋‹ค ๋‹ค๋ฅธ Training ์ ˆ์ฐจ ๋“ฑ๊ณผ ๊ฐ™์€ ์–ด๋ ค์šด ์ž‘์—…์„ ์ˆ˜๋ฐ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. Motivation

2.1 ์ด๋ฏธ์ง€๋ฅผ ์ด์šฉํ•œ Object Detection

์ด๋ฏธ์ง€๋ฅผ ์ด์šฉํ•œ ๊ฐ์ฒด ๊ฐ์ง€๋Š” ์ฃผ๋กœ ์‹ฌ์ธต CNN์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ์ตœ์ดˆ์˜ ์‹ฌ์ธต CNN ๊ฐ์ฒด ๊ฐ์ง€ ์‹œ์Šคํ…œ ์ค‘ ํ•˜๋‚˜๋Š” R-CNN์œผ๋กœ ๋จผ์ € ๊ฐ์ฒด๋ฅผ ์ถ”์ถœํ•œ ๋‹ค์Œ CNN์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ๊ฐ์ฒด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” 2๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์„ ํฌํ•จํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ณ„์‚ฐ ๋ถ€๋‹ด์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ์—ฐ๊ตฌ์—์„œ๋Š” ROI ํ’€๋ง์„ ํ™œ์šฉํ•˜์—ฌ ๋ณด๋‹ค ํšจ์œจ์ ์ธ ํ•™์Šต์„ ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ฐ์ฒด ๊ฐ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด Faster R-CNN ์—ฐ๊ตฌ์—์„œ๋Š” ์ „์ฒด ์‹œ์Šคํ…œ์ด End to End ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ๋‹ค์–‘ํ•œ ์˜์—ญ ์ œ์•ˆ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฅธ ๋„คํŠธ์›Œํฌ๋กœ ๋Œ€์ฒดํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์ด์–ด์ง„ ๋˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์—์„œ๋Š” Faster R-CNN์„ ์„ฑ๋Šฅ์€ ์•ฝ๊ฐ„ ๊ฐ์†Œํ•˜์ง€๋งŒ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์‹คํ–‰๋  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ ์œ„์น˜ ๊ฐ์ง€ ROI ํ’€๋ง์„ ๋„์ž…ํ•˜์—ฌ ์ด์ „์˜ ๋ฌผ์ฒด ๊ฐ์ง€ ์‹œ์Šคํ…œ์— ๋น„ํ•ด ๊ฐ์ง€ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

  • ๋งˆ์ง€๋ง‰์œผ๋กœ ์ตœ๊ทผ ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ธ Mask R-CNN๊ณผ Deformable CNN์€ ๊ฐ์ฒด ๊ฐ์ง€ ๊ฒฐ๊ณผ๋ฅผ ๋”์šฑ ๊ฐœ์„ ํ–ˆ์œผ๋ฉฐ ๊ฐ์ฒด ๊ฐ์ง€ ๋ถ„์•ผ์—์„œ์˜ ์ตœ์‹ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Mask-RCNN์€ ๊ฐ ๊ด€์‹ฌ ์˜์—ญ์— ๋Œ€ํ•œ ๋งˆ์Šคํฌ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ถ”๊ฐ€ ๋ถ„๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ˜๋ฉด Deformable CNN์€ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ์ปจ๋ณผ๋ฃจ์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ˆ˜์šฉ ํ•„๋“œ๋ฅผ ์ฐจ๋ณ„์ ์œผ๋กœ ์กฐ์ ˆํ•˜๊ณ  ๊ฐ์ฒด์˜ ๋ณ€ํ˜•์„ ๋ณด๋‹ค ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

image-20211023061319879

2.2 ๋น„๋””์˜ค๋ฅผ ์ด์šฉํ•œ Object Detection

ImageNet VID ์ฑŒ๋ฆฐ์ง€๊ฐ€ ๋„์ž…๋  ๋•Œ๊นŒ์ง€ ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€์— ๋Œ€ํ•œ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ STSN๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋Š” ์ด์ „ ์—ฐ๊ตฌ๋Š” ๊ฑฐ์˜ ์—†์—ˆ์Šต๋‹ˆ๋‹ค.

  • T-CNN[1, 2]์€ ๋จผ์ € Optical Flow์„ ์˜ˆ์ธกํ•œ ๋‹ค์Œ ํ๋ฆ„์— ๋”ฐ๋ผ ์ด๋ฏธ์ง€ ๋ ˆ๋ฒจ ์˜ˆ์ธก์„ ์ „ํŒŒํ•˜๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ ์ถ”์  ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ฐ„์ ์œผ๋กœ ์ผ๊ด€๋œ ๋†’์€ ์‹ ๋ขฐ๋„ ํƒ์ง€๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ๊ณผ ๊ด€๋ จ๋œ ๋น„๋””์˜ค ๊ฐ์ฒด ํƒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • Seq-NMS[3]๋Š” ์ธ์ ‘ํ•œ ํ”„๋ ˆ์ž„์— ๊ฑธ์ณ ๊ฒฝ๊ณ„ ์ƒ์ž ๊ฐ์ง€ ์ค‘์ฒฉ์—์„œ ์‹œ๊ฐ„ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ตฌ์„ฑํ•œ ๋‹ค์Œ ๋™์  ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ „์ฒด ๊ฐ์ง€ ์ ์ˆ˜๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ๊ฒฝ๊ณ„ ์ƒ์ž ์‹œํ€€์Šค๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. Lee๊ฐ€ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์€ ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€ ์ž‘์—…์„ ๋‹ค์ค‘ ๊ฐ์ฒด ์ถ”์  ๋ฌธ์ œ๋กœ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.

  • ๋งˆ์ง€๋ง‰์œผ๋กœ Feichtenhofer๊ฐ€ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•[4]์€ ํƒ์ง€ ๋ฐ ์ถ”์  ๋ฌธ์ œ๋ฅผ ๊ณต๋™์œผ๋กœ ํ•ด๊ฒฐํ•œ ๋‹ค์Œ Viterbi ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•˜์—ฌ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ํƒ์ง€๋ฅผ ์—ฐ๊ฒฐํ•˜๋Š” ConvNet ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ ์ž‘์—…๊ณผ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ Zhu[5]์˜ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. Zhu์˜ ์—ฐ๊ตฌ์—์„œ๋Š” Optical Flow๋ฅผ ๊ณต๋™์œผ๋กœ ์ถ”์ •ํ•˜๊ณ  ๋น„๋””์˜ค์—์„œ ๋ฌผ์ฒด๋„ ๊ฐ์ง€ํ•˜๋Š” End to End learning ๋„คํŠธ์›Œํฌ๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์˜ˆ์ธก๋œ Optical Flow์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธ์ ‘ ํ”„๋ ˆ์ž„์˜ ๊ธฐ๋Šฅ์„ ์ •๋ ฌํ•จ์œผ๋กœ์จ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ง‘๊ณ„๋œ ๊ธฐ๋Šฅ์€ ํƒ์ง€ ๋„คํŠธ์›Œํฌ์— ๋Œ€ํ•œ ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.

Idea

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ณต๊ฐ„๊ณผ ์‹œ๊ฐ„์— ๊ฑธ์ณ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ์ปจ๋ณผ๋ฃจ์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋น„๋””์˜ค์—์„œ ๋ฌผ์ฒด ๊ฐ์ง€๋ฅผ ์œ„ํ•œ ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฐ„๋‹จํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์ธ STSN(Spatiotemporal Sampling Network)์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. STSN์€ ์ฃผ์–ด์ง„ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„์—์„œ ๊ฐ์ฒด ๊ฐ์ง€ ์ •ํ™•๋„๊ฐ€ ์ตœ๋Œ€ํ™”๋˜๋„๋ก ์ฃผ๋ณ€ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„์—์„œ ์œ ์šฉํ•œ ํŠน์ง•์ ์„ ๊ณต๊ฐ„์ ์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” bounding box๋กœ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ๋Œ€๊ทœ๋ชจ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„ ์„ธํŠธ์— ๋Œ€ํ•ด STSN End to End learning์„ ์‹ค์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณต์žกํ•œ Flow ๋„คํŠธ์›Œํฌ ์„ค๊ณ„๋‚˜ ๋Œ€๋Ÿ‰์˜ Flow ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ Training ์—†์ด ImageNet VID ๋ฐ์ดํ„ฐ ์„ธํŠธ๋กœ ๋น„๊ตํ–ˆ์„ ๋•Œ ์ตœ์‹  ๊ธฐ์ˆ ์— ๋น„ํ•ด ๋” ๋‚˜์€ ์ •ํ™•๋„๋กœ ์ด์–ด์ง„๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

STSN์€ Zhu๊ฐ€ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•๊ณผ ๊ฐ™์€ Optical Flow CNN์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  1. ์‚ฌ์ „ Training๋œ Optical Flow CNN์ด ํ•ญ์ƒ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์„ธํŠธ๋กœ ์ผ๋ฐ˜ํ™”๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋ฏ€๋กœ ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€ ์„ฑ๋Šฅ์„ ๋ฐฉํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋ฐ˜ํ•ด STSN์€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์‹œ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง ๋ชจ๋“ˆ์„ ๊ฐ€์ง€๊ณ  ์žˆ์–ด ๋ฌผ์ฒด ๊ฐ์ง€ ๋ ˆ์ด๋ธ”์„ ๊ตฌ๋ณ„ํ•˜์—ฌ ํ•™์Šตํ•˜๋ฏ€๋กœ ์ด ๋ฌธ์ œ๋ฅผ ๊ฒช์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

  2. STSN์€ ๋น„๋””์˜ค ๊ฐœ์ฒด ๊ฐ์ง€๋ฅผ ์œ„ํ•ด ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” End to End Learning์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋น„ํ•ด Optical Flow์— ์˜์กดํ•˜๋Š” ๋ฐฉ๋ฒ•์€ Optical Flow CNN์„ Trainingํ•˜๊ธฐ ์œ„ํ•ด ์ถ”๊ฐ€ ๋‹จ๊ณ„๊ฐ€ ํ•„์š”ํ•˜๋ฏ€๋กœ Training ์ ˆ์ฐจ๊ฐ€ ๋” ๋ณต์žกํ•˜๊ณ  ๊ธธ์–ด์ง‘๋‹ˆ๋‹ค.

3. Method

STSN์—์„œ ๋น„๋””์˜ค์—์„œ ๋ฌผ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์„ค๊ณ„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์—์„œ๋Š” ๋น„๋””์˜ค ๊ธฐ์ค€ ์‹œ๊ฐ„ t์—์„œ์˜ ๊ธฐ์ค€ ํ”„๋ ˆ์ž„ $I_t$์—์„œ ์ธ๊ทผ ํ”„๋ ˆ์ž„ $I_{t+k}$์˜ ๊ฐ์ฒด ์ •๋ณด๋ฅผ ๊ฐ์ง€์— ํ™œ์šฉํ•จ์œผ๋กœ์จ ๋” ํšจ์œจ์ ์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Itโˆ’K,Itโˆ’(Kโˆ’1),...,Itโˆ’1,It+1,...,It+(Kโˆ’1),It+K{I_{t-K}, I_{t-(K-1)}, . . . , I_{tโˆ’1}, I_{t+1}, . . . , I_{t+(Kโˆ’1)}, I_{t+K}}

๊ทธ๋ฆผ 1๊ณผ ๊ฐ™์ด ์ด๋ฏธ์ง€์— ๋น„์ •์ƒ์ ์ธ ํฌ์ฆˆ์˜ ๊ฐœ์ฒด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๊ฑฐ๋‚˜ Occlusion์ด ์žˆ๋Š” ๊ฒฝ์šฐ, ํ•ด๋‹น ์ด๋ฏธ์ง€ ํ”„๋ ˆ์ž„๊ณผ ์‹œ๊ฐ„์ƒ์œผ๋กœ ์ธ์ ‘ํ•ด์žˆ๋Š” ํ”„๋ ˆ์ž„์— ๋น„๊ต์  ๋ช…ํ™•ํ•˜๊ฒŒ ๋ณด์ด๋Š” ๋™์ผํ•œ ๊ฐœ์ฒด๊ฐ€ ๋น„๊ต์  ํ‘œ์ค€์ ์ธ ํฌ์ฆˆ๋กœ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค๋ฉด, ๊ฐœ์ฒด๋ฅผ ๋” ์ž˜ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐ€๊นŒ์šด ํ”„๋ ˆ์ž„์˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ์ฒด ๊ฐ์ง€๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด K๊ฐœ์˜ ์„ ํ–‰ ํ”„๋ ˆ์ž„๊ณผ K๊ฐœ์˜ ํ›„์† ํ”„๋ ˆ์ž„์„ ์ฐธ์กฐ ํ• ์ˆ˜ ์žˆ๋Š” 2K ์ง€์› ํ”„๋ ˆ์ž„์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

image-20211023061319879

STSN ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜์˜ ํ”„๋กœ์„ธ์‹ฑ ๋‹จ๊ณ„๋Š” ํฌ๊ฒŒ 4๋‹จ๊ณ„๋กœ ์š”์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. Backbone Architecture. ๋ฐฑ๋ณธ ์ปจ๋ณผ๋ฃจ์…˜ ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„์— ๋Œ€ํ•œ ๊ฐ์ฒด ์ˆ˜์ค€ ๊ธฐ๋Šฅ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  2. Spatiotemporal Feature Sampling. ์‹œ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ฃผ์–ด์ง„ ๋น„๋””์˜ค์—์„œ ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ๋งค๋„๋Ÿฝ๊ฒŒ ํ†ตํ•ฉํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ƒ˜ํ”Œ๋ง ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ Predicted Offsets, Supporting Tensor๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ  ์ƒˆ๋กœ ์ƒ˜ํ”Œ๋ง๋œ ํ”ผ์ณ ํ…์„œ๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ 4๊ฐœ์˜ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค. ์ž์„ธํ•œ ์„ค๋ช…์€ ๊ทธ๋ฆผ 2์— ๋‚˜์™€ ์žˆ์Šต๋‹ˆ๋‹ค. (๊ทธ๋ฆผ 2์—๋Š” 2๊ฐœ๋งŒ ํ‘œ์‹œ๋จ)

  3. Feature Aggregation. ๊ฐ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ํŠน์ง•์€ ํ”ฝ์…€๋‹น ๊ฐ€์ค‘์น˜ ํ•ฉ์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ฐธ์กฐ ํ”„๋ ˆ์ž„์— ๋Œ€ํ•œ ๋‹จ์ผ ํŠน์ง• ํ…์„œ๋กœ ์‹œ๊ฐ„์ ์œผ๋กœ ์ง‘๊ณ„๋ฉ๋‹ˆ๋‹ค.

  4. **Object Detection.**ํŠน์ง• ํ…์„œ๋Š” ์ฃผ์–ด์ง„ ์ฐธ์กฐ ํ”„๋ ˆ์ž„์— ๋Œ€ํ•œ ์ตœ์ข… ๊ฐ์ฒด ํƒ์ง€ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ํƒ์ง€ ๋„คํŠธ์›Œํฌ์— ๋Œ€ํ•œ ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ์˜ Object Detection ์„ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ฐœ๋…์ ์œผ๋กœ ๊ตฌ๋ณ„๋˜๋Š” ์ด๋Ÿฌํ•œ 4๋‹จ๊ณ„๋ฅผ ๋‹จ์ผ ์•„ํ‚คํ…์ฒ˜๋กœ ํ†ตํ•ฉํ•˜์—ฌ End to End learning์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

3.1 Implementation Details

์•„ํ‚คํ…์ณ ๊ตฌํ˜„์„ ์œ„ํ•ด MXNet ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜์—์„œ๋Š” STSN ์•„ํ‚คํ…์ฒ˜, Training ๋ฐ ์ถ”๋ก  ์ ˆ์ฐจ์™€ ๊ด€๋ จ๋œ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  • Architecture. ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ์˜ ๊ฒฝ์šฐ ResNet-101 ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” Deformable CNN์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง ๋ธ”๋ก์€ ๊ฐ๊ฐ 1024๊ฐœ์˜ ์ถœ๋ ฅ ์ฑ„๋„์„ ๊ฐ€์ง„ 4๊ฐœ์˜ 3 ร— 3 ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ (x, y) ์˜คํ”„์…‹์„ ์˜ˆ์ธกํ•˜๋Š” 4๊ฐœ์˜ 3x3 ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠน์„ฑ ์ง‘๊ณ„ ๊ฐ€์ค‘์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์„œ๋ธŒ๋„คํŠธ์›Œํฌ S(x)๋ฅผ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ๊ฐ 512, 512 ๋ฐ 2048๊ฐœ์˜ ์ถœ๋ ฅ ์ฑ„๋„์ด ์žˆ๋Š” 1 ร— 1, 3 ร— 3 ๋ฐ 1 ร— 1 ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด ์‹œํ€€์Šค๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Detection ๋„คํŠธ์›Œํฌ๋Š” ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ R-FCN ์„ค๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌํ˜„๋˜๋ฉฐ, 7 ร— 7 ๊ทธ๋ฃน์œผ๋กœ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ์œ„์น˜ ๊ฐ์ง€ ROI ํ’€๋ง์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • Training. STSN ๋ชจ๋ธ์€ ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ๋กœ ResNet-101 ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” Deformable CNN ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์— ์™„์ „ํžˆ ๋ฏธ๋ถ„๋  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ End to End learning์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. Training์„ ์œ„ํ•ด ๊ธฐ์ค€ ํ”„๋ ˆ์ž„ ์ด์ „์— ํ•˜๋‚˜์˜ ์ง€์› ํ”„๋ ˆ์ž„๊ณผ ์ฐธ์กฐ ํ”„๋ ˆ์ž„ ์ดํ›„์— ํ•˜๋‚˜์˜ ์ง€์› ํ”„๋ ˆ์ž„์„ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Training์—์„œ ๋” ๋งŽ์€ ์ง€์› ํ”„๋ ˆ์ž„์„ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•ด์„œ ๋” ๋†’์€ ์ •ํ™•๋„๋กœ ์ด์–ด์ง€์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‚˜๋จธ์ง€ Training ์—์„œ๋Š” ๋‘ ๋‹จ๊ณ„๋กœ ๋ชจ๋ธ์„ Trainingํ•ฉ๋‹ˆ๋‹ค. ๋จผ์ € Imagenet VID ๋ฐ์ดํ„ฐ ์„ธํŠธ์™€ ๊ฒน์น˜๋Š” 30๊ฐœ ๊ฐ์ฒด ํด๋ž˜์Šค์˜ ์ฃผ์„์„ ์‚ฌ์šฉํ•˜์—ฌ Imagenet DET ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ์ „์ฒด ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. Imagenet DET ๋ฐ์ดํ„ฐ ์„ธํŠธ์—๋Š” ์ด๋ฏธ์ง€๋งŒ ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ์ด ๊ฒฝ์šฐ ์˜๋ฏธ ์žˆ๋Š” ์ง€์› ํ”„๋ ˆ์ž„์„ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฏธ์ง€์˜ ๊ฒฝ์šฐ ์ฐธ์กฐ ํ”„๋ ˆ์ž„์„ ์ง€์› ํ”„๋ ˆ์ž„์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„ ์ „์ฒด ๋ชจ๋ธ์€ 4๊ฐœ์˜ Tesla K40 GPU์—์„œ 120,000๋ฒˆ ๋ฐ˜๋ณต ํ•™์Šต๋˜๋ฉฐ ๊ฐ GPU๋Š” ๋‹จ์ผ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜๋ฅผ ๋ณด์œ ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ ์€ ์ฒ˜์Œ 80K ๋ฐ ๋งˆ์ง€๋ง‰ 40K ๋ฐ˜๋ณต์— ๋Œ€ํ•ด ๊ฐ๊ฐ 0.001 ๋ฐ 0.0001๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ฒ˜์Œ 40K ๋ฐ ๋งˆ์ง€๋ง‰ 20K ๋ฐ˜๋ณต์— ๋Œ€ํ•ด ๊ฐ๊ฐ 0.001 ๋ฐ 0.0001์˜ ํ•™์Šต๋ฅ ๋กœ 60K ๋ฐ˜๋ณต์— ๋Œ€ํ•ด Imagenet VID ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์ „์ฒด ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. Training์˜ ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ ์šฐ๋ฆฌ๋Š” ์ฐธ์กฐ ํ”„๋ ˆ์ž„์˜ ํŠน์ • ์ด์›ƒ ๋‚ด์—์„œ ์ง€์› ํ”„๋ ˆ์ž„์„ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค

  • Inference. ์ถ”๋ก ํ•˜๋Š” ๋™์•ˆ T = 27์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ฐธ์กฐ ํ”„๋ ˆ์ž„ ์ „ํ›„์— K = 13๊ฐœ์˜ ์ง€์› ํ”„๋ ˆ์ž„์„ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. GPU ๋ฉ”๋ชจ๋ฆฌ ๋ฌธ์ œ๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๋จผ์ € ๊ฐ ์ด๋ฏธ์ง€์˜ ๋ฐฑ๋ณธ ๋„คํŠธ์›Œํฌ์—์„œ ๊ธฐ๋Šฅ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ์ถ”์ถœํ•œ ๋‹ค์Œ ์ด๋Ÿฌํ•œ ๊ธฐ๋Šฅ์„ ๋ฉ”๋ชจ๋ฆฌ์— ์บ์‹œํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ด ๋ชจ๋“  ๊ธฐ๋Šฅ์„ ์‹œ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง ๋ธ”๋ก์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์ž„๊ณ„๊ฐ’์ด 0.3์ธ ํ‘œ์ค€ NMS๋ฅผ ์ ์šฉํ•˜์—ฌ ํƒ์ง€๋ฅผ ์„ธ๋ถ„ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๋น„๋””์˜ค์˜ ์ฒซ ๋ฒˆ์งธ ๋ฐ ๋งˆ์ง€๋ง‰ K = 13๊ฐœ ํ”„๋ ˆ์ž„์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋น„๋””์˜ค ์‹œ์ž‘๊ณผ ๋์„ ๋„˜์–ด ์ธ์ ‘ ํ”„๋ ˆ์ž„์„ ์ƒ˜ํ”Œ๋งํ•ด์•ผ ํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ๊ฒฝ๊ณ„ ๊ฒฝ์šฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋น„๋””์˜ค์˜ ์‹œ์ž‘์„ ์ฒซ ๋ฒˆ์งธ ํ”„๋ ˆ์ž„์˜ K ๋ณต์‚ฌ๋ณธ์œผ๋กœ ์ฑ„์›๋‹ˆ๋‹ค.

4. Experiment & Result

Experimental setup

์‹คํ—˜์—๋Š” 3,862 ๋ฐ 555๊ฐœ์˜ ๊ต์œก ๋ฐ ํ…Œ์ŠคํŠธ ๋น„๋””์˜ค ํด๋ฆฝ์ด ์žˆ๋Š” ImageNet VID ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ฐ€์ง€๊ณ  ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ฐ ๋น„๋””์˜ค์—๋Š” Bounding Box๊ฐ€ ํ‘œ์‹œ๋˜๋ฉฐ, ๊ฐ ๋น„๋””์˜ค์˜ ํ”„๋ ˆ์ž„์€ 25 - 30fps๋กœ ์ถ”์ถœ๋ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์„ธํŠธ์—๋Š” ImageNet DET ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ์žˆ๋Š” 200๊ฐœ ๋ฒ”์ฃผ์˜ ํ•˜์œ„ ์ง‘ํ•ฉ์ธ 30๊ฐœ ๊ฐœ์ฒด ๋ฒ”์ฃผ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

Result

Quantitative Results

STSN์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ๋‘ ๊ฐ€์ง€ ์ตœ์‹  ๋ฐฉ๋ฒ•์ธ FGFA์™€ D&T์™€ ์„ฑ๋Šฅ ๋น„๊ตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํšจ๊ณผ์ ์ธ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๊ฐ ์•„ํ‚คํ…์ฒ˜์— ์ฐธ์กฐ ํ”„๋ ˆ์ž„๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ(SSN)๊ณผ ์‹œ๊ณต๊ฐ„ ์ƒ˜ํ”Œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ ์šฉํ–ˆ๊ณ , ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€ ๋น„๊ต๋ฅผ ์œ„ํ•ด ์‹œ๊ฐ„์  ํ›„์ฒ˜๋ฆฌ๊ฐ€ ์ถœ๋ ฅ์— ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ 1์—์„œ D&T ๋ฐ STSN์€ CNN ์ถœ๋ ฅ์„ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฐ˜๋ฉด D&T+ ๋ฐ STSN+๋Š” ์‹œ๊ฐ„์  ํ›„์ฒ˜๋ฆฌ(Seq NMS, object-tube linking ๋“ฑ)๋ฅผ CNN ์ถœ๋ ฅ์— ์ ์šฉํ•œ ๊ฒฝ์šฐ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์šฐ๋ฆฌ๋Š” ๋ช‡ ๊ฐ€์ง€ ๊ธฐ์ค€์— ๋”ฐ๋ผ ๊ฐ ๋ฐฉ๋ฒ•์„ ํ‰๊ฐ€ํ•˜๋Š” ํ‘œ 1์— ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  • ํ‘œ 1์˜ ์ฒซ ๋ฒˆ์งธ ํ–‰์—๋Š” ์ฃผ์–ด์ง„ ๋ฐฉ๋ฒ•์ด ๋ณ„๋„์˜ ํ๋ฆ„ ๋„คํŠธ์›Œํฌ๋ฅผ Training/Prediction ํŒŒ์ดํ”„๋ผ์ธ์— ํ†ตํ•ฉํ•ด์•ผ ํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๋‚˜์—ดํ•ฉ๋‹ˆ๋‹ค. ์ด์ƒ์ ์œผ๋กœ๋Š” Optical Flow ์˜ˆ์ธก์„ ์œ„ํ•ด ๋งค์šฐ ๋ณต์žกํ•œ ํ๋ฆ„ ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ค๊ณ„ํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋‹จ๊ณ„๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  • ์™ธ๋ถ€ Optical Flow ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ Pre-training์ด ํ•„์š”ํ•œ์ง€ ์—ฌ๋ถ€๋„ ๋‚˜์—ดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ „์ฒด Training ํŒŒ์ดํ”„๋ผ์ธ์— ๋” ๋งŽ์€ ์—ฐ์‚ฐ์„ ํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  • ์ฃผ์–ด์ง„ ๋ฐฉ๋ฒ•์ด ์™ธ๋ถ€ ์‹œ๊ฐ„ ์‚ฌํ›„ ์ฒ˜๋ฆฌ ๋‹จ๊ณ„๋ฅผ ์‚ฌ์šฉํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ๋‚˜์—ดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋‹จ๊ณ„๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ Training/Prediction ํŒŒ์ดํ”„๋ผ์ธ์„ ๋” ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ๋•Œ๋ฌธ์— ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  • IoU(Intersection Over Union) ์ž„๊ณ„๊ฐ’ 0.5์—์„œ ํ‘œ์ค€ mAP(ํ‰๊ท  ํ‰๊ท  ์ •๋ฐ€๋„) ๋ฉ”ํŠธ๋ฆญ์— ๋”ฐ๋ผ ๊ฐ ๋ฐฉ๋ฒ•์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

image-20211023061319879

ํ‘œ 1์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • STSN์ด ์ตœ์‹  FGFA ๋ฐฉ๋ฒ•(78.9 ๋Œ€ 78.8)๋ณด๋‹ค ๋” ๋‚˜์€ ์ •๋Ÿ‰์  ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. FGFA์™€ ๋น„๊ตํ•˜์—ฌ ์ •ํ™•๋„ ํ–ฅ์ƒ์ด ์ˆ˜์น˜์ ์œผ๋กœ ํฌ๊ฒŒ ๋†’์ง€๋Š” ์•Š์œผ๋‚˜, FGFA์™€ ๋‹ฌ๋ฆฌ STSN์ด ์ง์ ‘์ ์ธ Optical Flow Supervision ์—†์ด ์‹œ๊ฐ„์  ๋Œ€์‘์„ ํ•™์Šตํ•˜์—ฌ FGFA๋ฅผ ๋Šฅ๊ฐ€ํ•œ์ ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋น„๋””์˜ค Object Detection์—์„œ์˜ End to End learning์˜ ์ด์ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • STSN์„ D&T์˜ ๊ฒฝ์šฐ์—๋Š” ์‹œ๊ฐ„์  ํ›„์ฒ˜๋ฆฌ(์˜ˆ: Seq-NMS, object-tube linking ๋“ฑ)๊ฐ€ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š” ์„ค์ •์—์„œ STSN์ด D&T ๊ธฐ์ค€์„ ๋ณด๋‹ค ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. (78.9 ๋Œ€ 75.8). ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” STSN์ด ๊ฐ•๋ ฅํ•œ ์‹œ๊ณต๊ฐ„ ๊ธฐ๋Šฅ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ณ  ์‹œ๊ฐ„ ๊ฒฝ๊ณผ์— ๋”ฐ๋ผ ๊ฒฝ๊ณ„ ์ƒ์ž ๊ฐ์ง€๋ฅผ ์—ฐ๊ฒฐํ•˜๋Š” ์‹œ๊ฐ„์  ํ›„์ฒ˜๋ฆฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์—†์ด๋„ ๊ฒฌ๊ณ ํ•œ ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

  • ๋˜ํ•œ ์‹œ๊ฐ„์  ํ›„์ฒ˜๋ฆฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ Seq-NMS ๋ฅผ ํ†ตํ•ฉํ•˜๋ฉด STSN์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋”์šฑ ํ–ฅ์ƒ๋จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์„ ํ†ตํ•ด ์œ ์‚ฌํ•œ Viterbi ๊ธฐ๋ฐ˜ ์ž„์‹œ ํ›„์ฒ˜๋ฆฌ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋Š” D&T+๋ฅผ ๋Šฅ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (80.4 ๋Œ€ 79.8)

Ablation Studies

image-20211023061319879

Optimal Number of Supporting Frames. ๊ทธ๋ฆผ 3์˜ ์™ผ์ชฝ ๊ทธ๋ž˜ํ”„๋Š” ์ง€์› ํ”„๋ ˆ์ž„ ์ˆ˜๊ฐ€ ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€ ์ •ํ™•๋„์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ง€์› ํ”„๋ ˆ์ž„์„ ์ถ”๊ฐ€ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๊ณ„์† ํ–ฅ์ƒ๋˜๊ณ  T = 27์—์„œ ์ •์ฒด๋ฉ๋‹ˆ๋‹ค.

Increasing the Temporal Stride. ์ง€์› ํ”„๋ ˆ์ž„์„ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ์‹œ๊ฐ„ ๋ณดํญ k๊ฐ€ STSN์˜ ์„ฑ๋Šฅ์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์กฐ์‚ฌ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” k = 2 ๋ฐ k = 4์˜ ์‹œ๊ฐ„์  ๋ณดํญ์ด ๊ฐ๊ฐ 79.0 ๋ฐ 77.9์˜ mAP ์ ์ˆ˜๋ฅผ ์‚ฐ์ถœํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ k = 2์—์„œ๋Š” ์›๋ž˜์˜ 78.9mAP ์ ์ˆ˜๋ณด๋‹ค ์•ฝ๊ฐ„ ํ–ฅ์ƒ๋œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ k๋ฅผ ๋” ํฐ ๊ฐ’์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด ์ •ํ™•๋„๊ฐ€ ๊ฐ์†Œํ•˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Feature Aggregation Weight Analysis. ๊ฐ ์ง€์ง€ ํ”„๋ ˆ์ž„์ด ์ตœ์ข… ๋ฌผ์ฒด ๊ฐ์ง€์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ•˜๋Š”์ง€ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ k ๊ฐ’์— ๋Œ€ํ•œ ํ‰๊ท  ๋ฌด๊ฒŒ ํฌ๊ธฐ $w_{t,t+k}(p)$๋ฅผ ์‹œ๊ฐํ™”ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ทธ๋ฆผ 3์˜ ์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„์— ๋‚˜์™€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๊ฐ€์ค‘์น˜ ํฌ๊ธฐ๋Š” ๊ฐœ์ฒด์˜ ์ค‘์‹ฌ์— ์žˆ๋Š” ์  p์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ตœ์ข… ๊ฐ์ฒด ๊ฐ์ง€ ์˜ˆ์ธก์— ๊ฐ€์žฅ ํฐ ์˜ํ–ฅ์€ ๊ธฐ์ค€ ํ”„๋ ˆ์ž„(k = โˆ’1, 0, 1)์— ๊ฐ€๊นŒ์šด ์ง€์› ํ”„๋ ˆ์ž„์—์„œ ๋น„๋กฏ๋œ๋‹ค๋Š” ๊ฒฐ๋ก ์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ฐธ์กฐ ํ”„๋ ˆ์ž„์—์„œ ๋” ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ๋Š” ์ง€์› ํ”„๋ ˆ์ž„(์˜ˆ: k = -9, 9)์กฐ์ฐจ๋„ 0์ด ์•„๋‹Œ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€๋ฉฐ ์ตœ์ข… ๊ฐ์ฒด ๊ฐ์ง€ ์˜ˆ์ธก์— ์ƒ๋‹นํžˆ ์˜ํ–ฅ์„ ์ค๋‹ˆ๋‹ค.

Qualitative Results

STSN์ด ์ฃผ์–ด์ง„ ๋น„๋””์˜ค์˜ ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•˜๋Š”์ง€ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๊ทธ๋ฆผ 4์—์„œ STSN ์ƒ˜ํ”Œ๋ง ๋ธ”๋ก์— ์˜ํ•ด ์˜ˆ์ธก๋œ ํ‰๊ท  ์˜คํ”„์…‹์„ ์‹œ๊ฐํ™” ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์˜คํ”„์…‹์€ STSN์ด ์ฐธ์กฐ ํ”„๋ ˆ์ž„์—์„œ ๊ฐœ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜์–ด์•ผ ํ•˜๋Š” ์ง€์› ํ”„๋ ˆ์ž„์˜ ๊ฐœ์ฒด ์ˆ˜์ค€ ์ •๋ณด๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ฐธ์กฐ ํ”„๋ ˆ์ž„์˜ ๋…น์ƒ‰ ์‚ฌ๊ฐํ˜•์€ ํ•ฉ์„ฑ๊ณฑ ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•˜๋ ค๋Š” ํ”ฝ์…€์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ง€์ง€ ํ”„๋ ˆ์ž„์˜ ๋นจ๊ฐ„์ƒ‰ ์‚ฌ๊ฐํ˜•์€ ํ‰๊ท  ์˜คํ”„์…‹์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด๋Š” ์ง€์ง€ ํ”„๋ ˆ์ž„์—์„œ ์ƒ˜ํ”Œ๋งํ•ด์•ผ ํ•˜๋Š” ํŠน์ง•์ ์„ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋…ธ๋ž€์ƒ‰ ํ™”์‚ดํ‘œ๋Š” ๊ธฐ์ค€ ์ขŒํ‘œ๊ณ„์™€ ์ง€์ง€ ์ขŒํ‘œ๊ณ„ ์‚ฌ์ด์˜ ๋ฌผ์ฒด์˜ ์›€์ง์ž„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ฐธ์กฐ ํ”„๋ ˆ์ž„๊ณผ ์ง€์› ํ”„๋ ˆ์ž„ ์‚ฌ์ด์˜ ์ƒ๋Œ€์ ์œผ๋กœ ํฐ ์›€์ง์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  STSN์€ ์ •ํ™•ํžˆ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฐ์ฒด ์ค‘์‹ฌ ์ฃผ๋ณ€์˜ ์ง€์› ํ”„๋ ˆ์ž„์—์„œ ํŠน์ง•์„ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ๊ฐ์ฒด๊ฐ€ ์ฐธ์กฐ ํ”„๋ ˆ์ž„์—์„œ ํ๋ฆฌ๊ฑฐ๋‚˜ ๊ฐ€๋ ค์ง„ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด๋”๋ผ๋„ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

image-20211023061319879

๋˜ํ•œ ๊ทธ๋ฆผ 4์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ช…์‹œ์  Optical Flow ๊ฐ๋… ์—†์ด๋„ STSN์ด ๊ฐ์ฒด์˜ ์›€์ง์ž„์„ ์ •ํ™•ํ•˜๊ฒŒ ์บก์ฒ˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

image-20211023061319879

๊ทธ๋ฆผ 5์—์„œ๋Š” STSN์„ ์‚ฌ์šฉํ•˜์—ฌ ์ฃผ์–ด์ง„ ๋น„๋””์˜ค์—์„œ ๊ฐœ์ฒด๋ฅผ ์ถ”์ ํ•˜๋Š” ๋ช‡ ๊ฐ€์ง€ ์˜ˆ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 5์—์„œ ์šฐ๋ฆฌ๋Š” ๊ฐ ์‹œํ€€์Šค์—์„œ ์ƒ๋Œ€์ ์œผ๋กœ ํฐ ์›€์ง์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  STSN์ด ๋ชจ๋“  ์ง€์› ํ”„๋ ˆ์ž„์—์„œ ๊ฐ์ฒด ์ฃผ๋ณ€์˜ ํŠน์ง•์„ ์ •ํ™•ํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค.

image-20211023061319879

๊ทธ๋ฆผ 6์—์„œ๋Š” ์ •์  SSN ๊ธฐ์ค€์„ ์˜ ๊ฐœ์ฒด ํƒ์ง€์™€ ์ „์ฒด STSN ๋ชจ๋ธ์˜ ๊ฐœ์ฒด ํƒ์ง€๋„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ๋ชจ๋“  ๊ฒฝ์šฐ์— ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋ฉด STSN์ด ์ •์  ๊ธฐ์ค€์„ ์—์„œ ๋ฐœ์ƒํ•œ ์‹ค์ˆ˜๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ทธ๋ฆผ 6์˜ ์„ธ ๋ฒˆ์งธ ํ–‰์—์„œ ์ •์  SSN ๊ธฐ์ค€์„ ์€ ์ฐธ์กฐ ํ”„๋ ˆ์ž„์˜ ๊ฐœ์ฒด๋ฅผ ์ƒˆ๋กœ ์ž˜๋ชป ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋„๋งˆ๋ฑ€์˜ ๋จธ๋ฆฌ๊ฐ€ ๊ฐ€๋ ค์ ธ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ STSN์€ ์ง€์ง€ ํ”„๋ ˆ์ž„์„ ๋ณด๊ณ  ๋„๋งˆ๋ฑ€ ๋ชธ์ฒด์™€ ๋จธ๋ฆฌ ์ฃผ์œ„๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ์ด ์‹ค์ˆ˜๋ฅผ ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค(๊ทธ๋ฆผ 6์˜ 3ํ–‰, 1์—ด ์ฐธ์กฐ). Occlusion ๋ฐ Motion Blur์˜ ๊ฒฝ์šฐ์—๋„ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

5. Conclusion

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋น„๋””์˜ค ์ •๋ณด๋ฅผ ์ด์šฉํ•ด Object Detection๋ฅผ ํ•˜๋Š” ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜์ธ STSN(Spatiotemporal Sampling Network)์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๊ฐ€ ๊ธฐ์—ฌํ•˜๋Š” ์‚ฌํ•ญ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ๊ณต๊ฐ„๊ณผ ์‹œ๊ฐ„์— ๊ฑธ์ณ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ์ปจ๋ณผ๋ฃจ์…˜๋ฅผ ์ด์šฉํ•ด ๋ชจ๋ธ ์„ค๊ณ„๋ฅผ ๋” ๊ฐ„๋‹จํ•˜๊ฒŒ ํ•œ ์ 

  • Optical Flow์— ๋”ฐ๋ฅธ Training ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š์€ ์ 

  • ๊ธฐ์กด ์—ฐ๊ตฌ์— ๋น„ํ•ด ๋” ๋†’์€ ๋น„๋””์˜ค ๊ฐ์ฒด ๊ฐ์ง€ ์„ฑ๋Šฅ ํš๋“ํ•œ ์ 

๊ฒฐ๋ก ์ ์œผ๋กœ, ๋ณธ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋กœ ๋น„๋””์˜ค ์ •๋ณด๋ฅผ ์ด์šฉํ•œ Object Detection ๋ชจ๋ธ์˜ End to End Learning์„ ๋” ์‰ฝ๊ฒŒ ํ•  ์ˆ˜์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ถ”ํ›„ ์ง„ํ–‰๋  ์—ฐ๊ตฌ์—์„œ๋Š” ๋” ๋ณต์žกํ•œ ์‹œ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง ๋ธ”๋ก์„ ์‹คํ—˜ํ•˜๋Š” ๋‚ด์šฉ์ด ๋‹ด๊ธธ ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

์˜ค๋Š˜์˜ ๊ตํ›ˆ (Take home message)

์ผ๋ฐ˜์ ์œผ๋กœ ๋น„๋””์˜ค ์ •๋ณด๋ฅผ ์ด์šฉํ•ด Object Detection์„ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์€ ๋งŽ์€ ์ œ์•ฝ ์‚ฌํ•ญ์ด ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•  ๋•Œ Optical Flow๋ฅผ ํ•ด์„ํ•ด์•ผ ํ•˜๋Š” ๋“ฑ์˜ ๋ณต์žกํ•œ ๋‹จ๊ณ„๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

๊ณต๊ฐ„๊ณผ ์‹œ๊ฐ„์— ๊ฑธ์ณ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ์ปจ๋ณผ๋ฃจ์…˜์„ ํ™œ์šฉํ•˜๋ฉด ์ œ์•ฝ ์‚ฌํ•ญ์„ ๊ทน๋ณตํ•˜๋ฉด์„œ๋„ End to End Learning์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋” ๋‚˜์€ ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Author / Reviewer information

Author

ํ•œ์ •๋ฏผ (Han Jungmin)

  • Affiliation : Ph.D. student, Robotics Program, KAIST (Advisor: Dong-Soo Kwon)

  • Research Interest : Flexible Endoscopic Surgery Robot System, Surgical Navigation

  • Contact information

    • Personal E-mail : hanjungmin@kaist.ac.kr

    • Related Website Link

      • Telerobotics and Control Laboratory, KAIST : http://robot.kaist.ac.kr/

      • EasyEndo Surgical Inc. : https://www.easyendosurgical.com/

Reviewer

  1. Korean name (English name): Affiliation / Contact information

  2. Korean name (English name): Affiliation / Contact information

  3. ...

Reference & Additional materials

  1. Citation of this paper

    1. Bertasius, Gedas, Lorenzo Torresani, and Jianbo Shi. "Object detection in video with spatiotemporal sampling networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

  2. Official (unofficial) GitHub repository

    1. None

  3. Citation of related work

    1. Kang, K., Li, H., Yan, J., Zeng, X., Yang, B., Xiao, T., Zhang, C., Wang, Z., Wang, R., Wang, X., Ouyang, W.: T-CNN: tubelets with convolutional neural networks for object detection from videos. IEEE TCSVT 2017 (2017)

    2. Kang, K., Ouyang, W., Li, H., Wang, X.: Object detection from video tubelets with convolutional neural networks. CoRR abs/1604.04053 (2016)

    3. Han, W., Khorrami, P., Paine, T.L., Ramachandran, P., Babaeizadeh, M., Shi, H., Li, J., Yan, S., Huang, T.S.: Seq-nms for video object detection. CoRR abs/1602.08465 (2016)

    4. Feichtenhofer, C., Pinz, A., Zisserman, A.: Detect to track and track to detect. In: International Conference on Computer Vision (ICCV). (2017)

    5. Zhu, X., Wang, Y., Dai, J., Yuan, L., Wei, Y.: Flow-guided feature aggregation for video object detection. In: International Conference on Computer Vision (ICCV). (2017)

  4. Other useful materials

    1. Presentation Video Clip: https://www.youtube.com/watch?v=EZg3LT1OSi4

    2. Author Information (Gedas Bertasius) : https://scholar.google.co.kr/citations?hl=ko&user=8FWkjw8AAAAJ&view_op=list_works&sortby=pubdate

Last updated

Was this helpful?