STSN [Kor]

(Description) Gedas Bertasius et al. / Object Detection in Video with Spatiotemporal Sampling Networks / ECCV 2018 Poster

English version of this article is available.

1. Problem definition

ė³ø ė…¼ė¬øģ˜ ģ—°źµ¬ģ—ģ„œėŠ” ė¹„ė””ģ˜¤ė„¼ ģ“ģš©ķ•œ 물첓 감지 방법에 ėŒ€ķ•“ģ„œ ė‹¤ė£¹ė‹ˆė‹¤. 최근 ėŖ‡ ė…„ ė™ģ•ˆ 딄 ģ»Øė³¼ė£Øģ…˜ ė„¤ķŠøģ›Œķ¬ėŠ” ģ“ėÆøģ§€ģ—ģ„œ ź°ģ²“ė„¼ ź°ģ§€ķ•˜ėŠ” ė¶„ģ•¼ģ—ģ„œėŠ” ė§Žģ€ ė°œģ „ģ„ ģ“ė£Øģ–“ ģ™”ģŠµė‹ˆė‹¤. ķ•˜ģ§€ė§Œ ė¹„ė””ģ˜¤ė„¼ ģ“ģš©ķ•œ ė¶„ģ•¼ģ—ģ„œėŠ” ėŖØģ…˜ ėø”ėŸ¬ź°€ ė°œģƒķ•˜ź±°ė‚˜, ė¹„ė””ģ˜¤ ģ˜ģƒģ˜ ķ¬ģ»¤ģŠ¤ź°€ ė§žģ§€ ģ•Šź±°ė‚˜, ė¬¼ģ²“ģ˜ ķ˜•ģƒģ— ė³€ķ˜•ģ“ ģžˆź±°ė‚˜, ģ–“ė”˜ź°€ģ— ģ˜ķ•“ ź°€ė ¤ģ§€ź²Œ ė˜ėŠ” ģƒķ™© ė•Œė¬øģ— ź°ģ²“ė„¼ ź°ģ§€ķ•˜ėŠ” ė° ė§Žģ€ ģ–“ė ¤ģ›€ģ„ 가지고 ģžˆģ—ˆģŠµė‹ˆė‹¤.

image-20211023061319879

ķ•˜ģ§€ė§Œ ė¹„ė””ģ˜¤ ģ •ė³“ėŠ” 기본적으딜 ģ“ėÆøģ§€ ģ •ė³“ģ—ėŠ” ģ—†ėŠ” ė§Žģ€ 정볓가 ģžˆźø° ė•Œė¬øģ— ģ“ėÆøģ§€ģ—ģ„œ ź°ģ²“ė„¼ ź°ģ§€ķ•˜ėŠ” ź²ƒė³“ė‹¤ ė” ź°•ė „ķ•˜ź²Œ ķ™œģš©ė  수 ģžˆģŠµė‹ˆė‹¤. ė¹„ė””ģ˜¤ 정볓 ė‚“ ź°ģ²“ė„¼ ź°ģ§€ķ•˜źø° ģœ„ķ•“ģ„œėŠ” ė¹„ė””ģ˜¤ģ— ķ¬ķ•Øė˜ģ–“ ģžˆėŠ” ģ‹œź°„ģ— ė”°ė¼ ė³€ķ™”ė˜ėŠ” 정볓넼 효과적으딜 ķ™œģš©ķ•  수 ģžˆėŠ” ėŖØėøģ„ ģ„¤ź³„ķ•˜ėŠ” ź²ƒģ“ ģ¤‘ģš”ķ•©ė‹ˆė‹¤.

ģ“ģ „ ģ—°źµ¬ģ—ģ„œėŠ” ģ‹œź°„ģ— ė”°ė¼ ģ¼ź“€ėœ ź°ģ²“ ķƒģ§€ė„¼ ķ•˜ėŠ” 단계넼 ė§Œė“¤ź³  ė¹„ė””ģ˜¤ģ—ģ„œ ģ“ėŸ¬ķ•œ ģ‹œź°„ 정볓넼 ķ™œģš©ķ•˜ėŠ” ė°©ė²•ģ„ ģ‚¬ģš© ķ•˜ģ˜€ģœ¼ė‚˜, ģ“ėŸ¬ķ•œ ė°©ė²•ģ€ ķ•˜ė‚˜ģ˜ ģ‹ ź²½ė§ģœ¼ė”œ ģ²˜ė¦¬ķ•˜ėŠ” End to End Learningģ“ ė¶ˆź°€ėŠ„ ķ–ˆģŠµė‹ˆė‹¤. 최근 ģ—°źµ¬ģ—ģ„œėŠ” End to End Learningģ“ ź°€ėŠ„ķ•˜ė„ė” flow-based aggregation ė„¤ķŠøģ›Œķ¬ė„¼ ė„ģž…ķ–ˆėŠ”ė°, ģ“ ė°©ė²•ģ€ Optical Flowģ„ ķ™œģš©ķ•˜ģ—¬ ģ‹œź°„ģ— 따넸 ėŒ€ģ‘ ꓀계넼 ģ°¾ģ€ ė‹¤ģŒ ģ‹œź°„ ėŒ€ģ‘ ꓀계에 걸쳐 ķŠ¹ģ§•ģ„ ģ§‘ź³„ķ•˜ģ—¬ ģøģ ‘ ķ”„ė ˆģž„ģ—ģ„œģ˜ ź°ģ²“ 감지넼 ź°€ėŠ„ķ•˜ź²Œ ķ•˜ģ§€ė§Œ 물첓 감지넼 ģˆ˜ķ–‰ķ•˜ėŠ” 것 ģ™øģ—ė„ ģ›€ģ§ģž„ģ„ ģ˜ˆģø”ķ•“ģ•¼ ķ•œė‹¤ėŠ” ė‹Øģ ģ“ ģžˆģŠµė‹ˆė‹¤.

ģ“ėŸ¬ķ•œ 사전 ģ—°źµ¬ė“¤ģ„ 통핓 ė°ķ˜€ģ§„ ėŖØėøģ„ ģ„¤ź³„ķ•˜ėŠ”ė° ģžˆģ–“ ė§žė‹„ėœØė¦“ 수 ģžˆėŠ” ė¶ˆė¦¬ķ•œ ģƒķ™©ģ„ 정리핓볓멓 ė‹¤ģŒź³¼ ź°™ģŠµė‹ˆė‹¤.

  1. ķšØź³¼ģ ģø ė„¤ķŠøģ›Œķ¬ ģ•„ķ‚¤ķ…ģ²˜ė„¼ ģ„¤ź³„ķ•˜ėŠ” ź²ƒģ“ ź·øė ‡ź²Œ ź°„ė‹Øķ•˜ģ§€ ģ•ŠģŠµė‹ˆė‹¤.

  2. ėŖØėøģ„ Trainingķ•˜ėŠ” ė° ė§Žģ€ ģ–‘ģ˜ Flow Dataź°€ ķ•„ģš”ķ•˜ė©°, ģ–»źø°ė„ 얓렵고 ė¹„ģš©ģ“ ė§Žģ“ 들 수 ģžˆģŠµė‹ˆė‹¤.

  3. Flow ė„¤ķŠøģ›Œķ¬ ė° Detection ė„¤ķŠøģ›Œķ¬ė„¼ 각각 ėŖØėøė”œ ė§Œė“œėŠ” ź²ƒģ€ ģ„œė”œ 다넸 손실 ķ•Øģˆ˜, ė„¤ķŠøģ›Œķ¬ė§ˆė‹¤ 다넸 Training 절차 등과 ź°™ģ€ ģ–“ė ¤ģš“ ģž‘ģ—…ģ„ ģˆ˜ė°˜ķ•  수 ģžˆģŠµė‹ˆė‹¤.

2. Motivation

2.1 ģ“ėÆøģ§€ė„¼ ģ“ģš©ķ•œ Object Detection

ģ“ėÆøģ§€ė„¼ ģ“ģš©ķ•œ ź°ģ²“ ź°ģ§€ėŠ” 주딜 심층 CNNģ„ ķ™œģš©ķ•˜ģ—¬ ź°œė°œė˜ģ—ˆģŠµė‹ˆė‹¤.

  • ģµœģ“ˆģ˜ 심층 CNN ź°ģ²“ 감지 ģ‹œģŠ¤ķ…œ 중 ķ•˜ė‚˜ėŠ” R-CNN으딜 먼저 ź°ģ²“ė„¼ ģ¶”ģ¶œķ•œ ė‹¤ģŒ CNNģ„ ģ‚¬ģš©ķ•˜ģ—¬ 각 ź°ģ²“ė„¼ ė¶„ė„˜ķ•˜ėŠ” 2단계 ķŒŒģ“ķ”„ė¼ģøģ„ ķ¬ķ•Øķ–ˆģŠµė‹ˆė‹¤. 계산 ė¶€ė‹“ģ„ ģ¤„ģ“źø° ģœ„ķ•“ 다넸 ģ—°źµ¬ģ—ģ„œėŠ” ROI ķ’€ė§ģ„ ķ™œģš©ķ•˜ģ—¬ 볓다 ķšØģœØģ ģø ķ•™ģŠµģ„ ģœ ė„ķ–ˆģŠµė‹ˆė‹¤. ė˜ķ•œ, ź°ģ²“ 감지 ķŒŒģ“ķ”„ė¼ģøģ„ ķ†µķ•©ķ•˜źø° ģœ„ķ•“ Faster R-CNN ģ—°źµ¬ģ—ģ„œėŠ” 전첓 ģ‹œģŠ¤ķ…œģ“ End to End ķ•™ģŠµģ“ ź°€ėŠ„ķ•˜ė„ė” ė‹¤ģ–‘ķ•œ ģ˜ģ—­ ģ œģ•ˆ ė°©ė²•ģ„ 다넸 ė„¤ķŠøģ›Œķ¬ė”œ ėŒ€ģ²“ķ–ˆģŠµė‹ˆė‹¤.

  • ģ“ģ–“ģ§„ 또 다넸 ģ—°źµ¬ģ—ģ„œėŠ” Faster R-CNNģ„ ģ„±ėŠ„ģ€ 약간 ź°ģ†Œķ•˜ģ§€ė§Œ ģ‹¤ģ‹œź°„ģœ¼ė”œ 실행될 수 ģžˆė„ė” ķ•˜ėŠ” 연구넼 ģ§„ķ–‰ ķ–ˆģŠµė‹ˆė‹¤. ė˜ķ•œ 최근 ģ—°źµ¬ģ—ģ„œ ģœ„ģ¹˜ 감지 ROI ķ’€ė§ģ„ ė„ģž…ķ•˜ģ—¬ ģ“ģ „ģ˜ 물첓 감지 ģ‹œģŠ¤ķ…œģ— 비핓 감지 ķšØģœØģ„±ģ„ 크게 ķ–„ģƒģ‹œģ¼°ģŠµė‹ˆė‹¤.

  • ė§ˆģ§€ė§‰ģœ¼ė”œ 최근 두 가지 ė°©ė²•ģø Mask R-CNNź³¼ Deformable CNNģ€ ź°ģ²“ 감지 결과넼 ė”ģš± ź°œģ„ ķ–ˆģœ¼ė©° ź°ģ²“ 감지 ė¶„ģ•¼ģ—ģ„œģ˜ ģµœģ‹ ģ˜ ģ„±ėŠ„ģ„ 볓여주고 ģžˆģŠµė‹ˆė‹¤. Mask-RCNNģ€ 각 ꓀심 ģ˜ģ—­ģ— ėŒ€ķ•œ 마스크넼 ģ˜ˆģø”ķ•˜ėŠ” 추가 분기넼 ģ‚¬ģš©ķ•˜ėŠ” 반멓 Deformable CNNģ€ ė³€ķ˜• ź°€ėŠ„ķ•œ ģ»Øė³¼ė£Øģ…˜ģ„ ģ‚¬ģš©ķ•˜ģ—¬ ė„¤ķŠøģ›Œķ¬ź°€ ģž…ė „ģ— ėŒ€ķ•œ 수용 ķ•„ė“œė„¼ ģ°Øė³„ģ ģœ¼ė”œ ģ”°ģ ˆķ•˜ź³  ź°ģ²“ģ˜ ė³€ķ˜•ģ„ 볓다 ź°•ė „ķ•˜ź²Œ ėŖØėøė§ķ•  수 ģžˆģŠµė‹ˆė‹¤.

image-20211023061319879

2.2 ė¹„ė””ģ˜¤ė„¼ ģ“ģš©ķ•œ Object Detection

ImageNet VID ģ±Œė¦°ģ§€ź°€ ė„ģž…ė  ė•Œź¹Œģ§€ ė¹„ė””ģ˜¤ ź°ģ²“ 감지에 ėŒ€ķ•œ ėŒ€ź·œėŖØ ė²¤ģ¹˜ė§ˆķ¬ź°€ ģ—†ģ—ˆģŠµė‹ˆė‹¤. ė”°ė¼ģ„œ STSNź³¼ 비교할 수 ģžˆėŠ” ģ“ģ „ ģ—°źµ¬ėŠ” ź±°ģ˜ ģ—†ģ—ˆģŠµė‹ˆė‹¤.

  • T-CNN[1, 2]ģ€ 먼저 Optical Flowģ„ ģ˜ˆģø”ķ•œ ė‹¤ģŒ ķė¦„ģ— ė”°ė¼ ģ“ėÆøģ§€ 레벨 ģ˜ˆģø”ģ„ ģ „ķŒŒķ•˜ź³  ė§ˆģ§€ė§‰ģœ¼ė”œ 추적 ģ•Œź³ ė¦¬ģ¦˜ģ„ ģ‚¬ģš©ķ•˜ģ—¬ ģ‹œź°„ģ ģœ¼ė”œ ģ¼ź“€ėœ ė†’ģ€ ģ‹ ė¢°ė„ ķƒģ§€ė„¼ ģ„ ķƒķ•˜ėŠ” 것과 ź“€ė Øėœ ė¹„ė””ģ˜¤ ź°ģ²“ ķƒģ§€ ķŒŒģ“ķ”„ė¼ģøģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤.

  • Seq-NMS[3]ėŠ” ģøģ ‘ķ•œ ķ”„ė ˆģž„ģ— 걸쳐 경계 ģƒģž 감지 ģ¤‘ģ²©ģ—ģ„œ ģ‹œź°„ ź·øėž˜ķ”„ė„¼ źµ¬ģ„±ķ•œ ė‹¤ģŒ ė™ģ  ķ”„ė”œź·øėž˜ė°ģ„ ģ‚¬ģš©ķ•˜ģ—¬ 전첓 감지 ģ ģˆ˜ź°€ ź°€ģž„ ė†’ģ€ 경계 ģƒģž ģ‹œķ€€ģŠ¤ė„¼ ģ„ ķƒķ•©ė‹ˆė‹¤. Leeź°€ ģ œģ•ˆķ•œ ė°©ė²•ģ€ ė¹„ė””ģ˜¤ ź°ģ²“ 감지 ģž‘ģ—…ģ„ 다중 ź°ģ²“ 추적 문제딜 ģ·Øźø‰ķ•©ė‹ˆė‹¤.

  • ė§ˆģ§€ė§‰ģœ¼ė”œ Feichtenhoferź°€ ģ œģ•ˆķ•œ 방법[4]ģ€ ķƒģ§€ ė° 추적 문제넼 ź³µė™ģœ¼ė”œ ķ•“ź²°ķ•œ ė‹¤ģŒ Viterbi ģ•Œź³ ė¦¬ģ¦˜ģ„ ģ ģš©ķ•˜ģ—¬ ģ‹œź°„ģ— ė”°ė¼ ķƒģ§€ė„¼ ģ—°ź²°ķ•˜ėŠ” ConvNet ģ•„ķ‚¤ķ…ģ²˜ė„¼ ģ œģ•ˆķ•©ė‹ˆė‹¤.

우리 ģž‘ģ—…ź³¼ ź°€ģž„ ģœ ģ‚¬ķ•œ ģ ‘ź·¼ ė°©ģ‹ģ€ Zhu[5]ģ˜ ģ—°źµ¬ģž…ė‹ˆė‹¤. Zhuģ˜ ģ—°źµ¬ģ—ģ„œėŠ” Optical Flow넼 ź³µė™ģœ¼ė”œ ģ¶”ģ •ķ•˜ź³  ė¹„ė””ģ˜¤ģ—ģ„œ ė¬¼ģ²“ė„ ź°ģ§€ķ•˜ėŠ” End to End learning ė„¤ķŠøģ›Œķ¬ė„¼ ģ œģ•ˆķ–ˆģŠµė‹ˆė‹¤. ģ“ėŠ” 예츔된 Optical Flowģ„ ģ‚¬ģš©ķ•˜ģ—¬ ģøģ ‘ ķ”„ė ˆģž„ģ˜ źø°ėŠ„ģ„ ģ •ė ¬ķ•Øģœ¼ė”œģØ ģˆ˜ķ–‰ė©ė‹ˆė‹¤. ģ§‘ź³„ėœ źø°ėŠ„ģ€ ķƒģ§€ ė„¤ķŠøģ›Œķ¬ģ— ėŒ€ķ•œ ģž…ė „ģœ¼ė”œ ģ œź³µė©ė‹ˆė‹¤.

Idea

ė³ø ė…¼ė¬øģ—ģ„œėŠ” 공간과 ģ‹œź°„ģ— 걸쳐 ė³€ķ˜• ź°€ėŠ„ķ•œ ģ»Øė³¼ė£Øģ…˜ģ„ ģ‚¬ģš©ķ•˜ģ—¬ ė¹„ė””ģ˜¤ģ—ģ„œ 물첓 감지넼 ģœ„ķ•œ ģ‹œź°„ 정볓넼 ķ™œģš©ķ•˜ėŠ” ź°„ė‹Øķ•˜ģ§€ė§Œ ķšØź³¼ģ ģø STSN(Spatiotemporal Sampling Network)ģ„ ģ†Œź°œķ•©ė‹ˆė‹¤. STSNģ€ 주얓진 ė¹„ė””ģ˜¤ ķ”„ė ˆģž„ģ—ģ„œ ź°ģ²“ 감지 ģ •ķ™•ė„ź°€ ģµœėŒ€ķ™”ė˜ė„ė” 주변 ė¹„ė””ģ˜¤ ķ”„ė ˆģž„ģ—ģ„œ ģœ ģš©ķ•œ ķŠ¹ģ§•ģ ģ„ ź³µź°„ģ ģœ¼ė”œ ģƒ˜ķ”Œė§ķ•˜ėŠ” ė°©ė²•ģ„ ķ•™ģŠµķ•©ė‹ˆė‹¤. ģ“ė„¼ ģœ„ķ•“ ģš°ė¦¬ėŠ” bounding box딜 ė ˆģ“ėø”ģ“ ģ§€ģ •ėœ ėŒ€ź·œėŖØ ė¹„ė””ģ˜¤ ķ”„ė ˆģž„ ģ„øķŠøģ— ėŒ€ķ•“ STSN End to End learningģ„ ģ‹¤ģ‹œķ•©ė‹ˆė‹¤. ģ“ė„¼ 통핓 ė³µģž”ķ•œ Flow ė„¤ķŠøģ›Œķ¬ ģ„¤ź³„ė‚˜ ėŒ€ėŸ‰ģ˜ Flow ė°ģ“ķ„°ģ— ėŒ€ķ•œ Training ģ—†ģ“ ImageNet VID ė°ģ“ķ„° ģ„øķŠøė”œ ė¹„źµķ–ˆģ„ ė•Œ ģµœģ‹  źø°ģˆ ģ— 비핓 ė” ė‚˜ģ€ ģ •ķ™•ė„ė”œ ģ“ģ–“ģ§„ė‹¤ėŠ” ź²ƒģ„ ė³“ģ˜€ģŠµė‹ˆė‹¤.

STSNģ€ Zhuź°€ ģ œģ•ˆķ•œ 방법과 ź°™ģ€ Optical Flow CNNģ„ ģ‚¬ģš©ķ•˜ėŠ” 방법볓다 ė‹¤ģŒź³¼ ź°™ģ“ ģœ ė¦¬ķ•©ė‹ˆė‹¤.

  1. 사전 Training된 Optical Flow CNNģ“ ķ•­ģƒ 새딜욓 ė°ģ“ķ„° ģ„øķŠøė”œ ģ¼ė°˜ķ™”ė˜ėŠ” ź²ƒģ€ ģ•„ė‹ˆėÆ€ė”œ ė¹„ė””ģ˜¤ ź°ģ²“ 감지 ģ„±ėŠ„ģ„ ė°©ķ•“ķ•  수 ģžˆģŠµė‹ˆė‹¤. ģ“ģ— ė°˜ķ•“ STSNģ€ ķ•™ģŠµ ź°€ėŠ„ķ•œ ģ‹œź³µź°„ ģƒ˜ķ”Œė§ ėŖØė“ˆģ„ 가지고 ģžˆģ–“ 물첓 감지 ė ˆģ“ėø”ģ„ źµ¬ė³„ķ•˜ģ—¬ ķ•™ģŠµķ•˜ėÆ€ė”œ ģ“ 문제넼 ź²Ŗģ§€ ģ•ŠģŠµė‹ˆė‹¤.

  2. STSNģ€ ė¹„ė””ģ˜¤ 개첓 감지넼 ģœ„ķ•“ ķ•˜ė‚˜ģ˜ ģ‹ ź²½ė§ģœ¼ė”œ ģ²˜ė¦¬ķ•˜ėŠ” End to End Learningģ„ ķ•  수 ģžˆģŠµė‹ˆė‹¤. ģ“ģ— 비핓 Optical Flow에 ģ˜ģ”“ķ•˜ėŠ” ė°©ė²•ģ€ Optical Flow CNNģ„ Trainingķ•˜źø° ģœ„ķ•“ 추가 단계가 ķ•„ģš”ķ•˜ėÆ€ė”œ Training ģ ˆģ°Øź°€ ė” ė³µģž”ķ•˜ź³  źøøģ–“ģ§‘ė‹ˆė‹¤.

3. Method

STSNģ—ģ„œ ė¹„ė””ģ˜¤ģ—ģ„œ 물첓넼 ź°ģ§€ķ•˜źø° ģœ„ķ•“ ģ‹œź°„ 정볓넼 ķ†µķ•©ķ•˜ėŠ” ė„¤ķŠøģ›Œķ¬ ģ•„ķ‚¤ķ…ģ²˜ź°€ 설계 ė˜ģ—ˆģŠµė‹ˆė‹¤. ģ“ ėŖØėøģ—ģ„œėŠ” ė¹„ė””ģ˜¤ 기준 ģ‹œź°„ tģ—ģ„œģ˜ 기준 ķ”„ė ˆģž„ $I_t$ģ—ģ„œ ģøź·¼ ķ”„ė ˆģž„ $I_{t+k}$ģ˜ ź°ģ²“ 정볓넼 감지에 ķ™œģš©ķ•Øģœ¼ė”œģØ ė” 효율적으딜 ź°ģ²“ė„¼ ķƒģ§€ķ•  수 ģžˆė„ė” ķ•˜ģ˜€ģŠµė‹ˆė‹¤.

Itāˆ’K,Itāˆ’(Kāˆ’1),...,Itāˆ’1,It+1,...,It+(Kāˆ’1),It+K{I_{t-K}, I_{t-(K-1)}, . . . , I_{tāˆ’1}, I_{t+1}, . . . , I_{t+(Kāˆ’1)}, I_{t+K}}

그림 1ź³¼ ź°™ģ“ ģ“ėÆøģ§€ģ— ė¹„ģ •ģƒģ ģø ķ¬ģ¦ˆģ˜ ź°œģ²“ź°€ ķ¬ķ•Øė˜ģ–“ ģžˆź±°ė‚˜ Occlusionģ“ ģžˆėŠ” 경우, 핓당 ģ“ėÆøģ§€ ķ”„ė ˆģž„ź³¼ ģ‹œź°„ģƒģœ¼ė”œ ģøģ ‘ķ•“ģžˆėŠ” ķ”„ė ˆģž„ģ— 비교적 ėŖ…ķ™•ķ•˜ź²Œ ė³“ģ“ėŠ” ė™ģ¼ķ•œ ź°œģ²“ź°€ 비교적 ķ‘œģ¤€ģ ģø ķ¬ģ¦ˆė”œ ķ¬ķ•Øė˜ģ–“ ģžˆė‹¤ė©“, 개첓넼 ė” ģž˜ 감지할 수 ģžˆė„ė” ź°€ź¹Œģš“ ķ”„ė ˆģž„ģ˜ 정볓넼 ķ™œģš©ķ•  수 ģžˆģŠµė‹ˆė‹¤. ė³ø ė…¼ė¬øģ—ģ„œėŠ” ź°ģ²“ 감지넼 ķ–„ģƒģ‹œķ‚¤źø° ģœ„ķ•“ Kź°œģ˜ ģ„ ķ–‰ ķ”„ė ˆģž„ź³¼ Kź°œģ˜ ķ›„ģ† ķ”„ė ˆģž„ģ„ ģ°øģ”° ķ• ģˆ˜ ģžˆėŠ” 2K 지원 ķ”„ė ˆģž„ģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤.

image-20211023061319879

STSN ė„¤ķŠøģ›Œķ¬ ģ•„ķ‚¤ķ…ģ²˜ģ˜ ķ”„ė”œģ„øģ‹± ė‹Øź³„ėŠ” 크게 4ė‹Øź³„ė”œ ģš”ģ•½ķ•  수 ģžˆģŠµė‹ˆė‹¤.

  1. Backbone Architecture. 백본 ģ»Øė³¼ė£Øģ…˜ ė„¤ķŠøģ›Œķ¬ėŠ” 각 ė¹„ė””ģ˜¤ ķ”„ė ˆģž„ģ— ėŒ€ķ•œ ź°ģ²“ ģˆ˜ģ¤€ źø°ėŠ„ģ„ ź°œė³„ģ ģœ¼ė”œ ź³„ģ‚°ķ•©ė‹ˆė‹¤.

  2. Spatiotemporal Feature Sampling. ģ‹œź³µź°„ ģƒ˜ķ”Œė§ ė©”ģ»¤ė‹ˆģ¦˜ģ€ 주얓진 ė¹„ė””ģ˜¤ģ—ģ„œ ģ‹œź°„ 정볓넼 ė§¤ė„ėŸ½ź²Œ ķ†µķ•©ķ•˜ėŠ” ģ—­ķ• ģ„ ķ•©ė‹ˆė‹¤. ģ“ ģƒ˜ķ”Œė§ ė©”ģ»¤ė‹ˆģ¦˜ģ€ Predicted Offsets, Supporting Tensor넼 ģž…ė „ģœ¼ė”œ ģ‚¬ģš©ķ•˜ź³  새딜 ģƒ˜ķ”Œė§ėœ 피쳐 ķ…ģ„œė„¼ ģ¶œė „ķ•˜ėŠ” ė³€ķ˜• ź°€ėŠ„ķ•œ 4ź°œģ˜ ģ»Øė³¼ė£Øģ…˜ ė ˆģ“ģ–“ė„¼ ģ‚¬ģš©ķ•˜ģ—¬ źµ¬ķ˜„ė©ė‹ˆė‹¤. ģžģ„øķ•œ ģ„¤ėŖ…ģ€ 그림 2에 ė‚˜ģ™€ ģžˆģŠµė‹ˆė‹¤. (그림 2ģ—ėŠ” 2개만 ķ‘œģ‹œėØ)

  3. Feature Aggregation. 각 ė¹„ė””ģ˜¤ ķ”„ė ˆģž„ģ—ģ„œ ģƒ˜ķ”Œė§ėœ ķŠ¹ģ§•ģ€ 픽셀당 ź°€ģ¤‘ģ¹˜ ķ•©ģ‚°ģ„ ģ‚¬ģš©ķ•˜ģ—¬ ģ°øģ”° ķ”„ė ˆģž„ģ— ėŒ€ķ•œ ė‹Øģ¼ ķŠ¹ģ§• ķ…ģ„œė”œ ģ‹œź°„ģ ģœ¼ė”œ ģ§‘ź³„ė©ė‹ˆė‹¤.

  4. **Object Detection.**ķŠ¹ģ§• ķ…ģ„œėŠ” 주얓진 ģ°øģ”° ķ”„ė ˆģž„ģ— ėŒ€ķ•œ ģµœģ¢… ź°ģ²“ ķƒģ§€ 결과넼 ģƒģ„±ķ•˜źø° ģœ„ķ•“ ķƒģ§€ ė„¤ķŠøģ›Œķ¬ģ— ėŒ€ķ•œ ģž…ė „ģœ¼ė”œ ģ œź³µė©ė‹ˆė‹¤.

ģš°ė¦¬ģ˜ Object Detection ģ„ ģœ„ķ•œ ķ”„ė ˆģž„ģ›Œķ¬ėŠ” ź°œė…ģ ģœ¼ė”œ źµ¬ė³„ė˜ėŠ” ģ“ėŸ¬ķ•œ 4단계넼 ė‹Øģ¼ ģ•„ķ‚¤ķ…ģ²˜ė”œ ķ†µķ•©ķ•˜ģ—¬ End to End learningģ„ ģ œź³µķ•©ė‹ˆė‹¤.

3.1 Implementation Details

ģ•„ķ‚¤ķ…ģ³ źµ¬ķ˜„ģ„ ģœ„ķ•“ MXNet ė¼ģ“ėøŒėŸ¬ė¦¬ė„¼ ģ‚¬ģš©ķ–ˆģŠµė‹ˆė‹¤. ģ•„ėž˜ģ—ģ„œėŠ” STSN ģ•„ķ‚¤ķ…ģ²˜, Training ė° 추딠 ģ ˆģ°Øģ™€ ź“€ė Øėœ 세부 정볓넼 ģ œź³µķ•©ė‹ˆė‹¤.

  • Architecture. 백본 ė„¤ķŠøģ›Œķ¬ģ˜ 경우 ResNet-101 ģ•„ķ‚¤ķ…ģ²˜ė„¼ 기반으딜 ķ•˜ėŠ” Deformable CNNģ„ ģ±„ķƒķ–ˆģŠµė‹ˆė‹¤. ģ‹œź³µź°„ ģƒ˜ķ”Œė§ ėø”ė”ģ€ 각각 1024ź°œģ˜ 출렄 ģ±„ė„ģ„ 가진 4ź°œģ˜ 3 Ɨ 3 ė³€ķ˜• ź°€ėŠ„ķ•œ ģ»Øė³¼ė£Øģ…˜ ė ˆģ“ģ–“ė”œ źµ¬ģ„±ė©ė‹ˆė‹¤. ė˜ķ•œ (x, y) ģ˜¤ķ”„ģ…‹ģ„ ģ˜ˆģø”ķ•˜ėŠ” 4ź°œģ˜ 3x3 ģ»Øė³¼ė£Øģ…˜ ė ˆģ“ģ–“ė„ ģžˆģŠµė‹ˆė‹¤. ķŠ¹ģ„± 집계 ź°€ģ¤‘ģ¹˜ė„¼ ģ˜ˆģø”ķ•˜ėŠ” ģ„œėøŒė„¤ķŠøģ›Œķ¬ S(x)넼 źµ¬ķ˜„ķ•˜źø° ģœ„ķ•“ 각각 512, 512 ė° 2048ź°œģ˜ 출렄 ģ±„ė„ģ“ ģžˆėŠ” 1 Ɨ 1, 3 Ɨ 3 ė° 1 Ɨ 1 ģ»Øė³¼ė£Øģ…˜ ė ˆģ“ģ–“ ģ‹œķ€€ģŠ¤ė„¼ ģ‚¬ģš©ķ•©ė‹ˆė‹¤. Detection ė„¤ķŠøģ›Œķ¬ėŠ” ė³€ķ˜• ź°€ėŠ„ķ•œ R-FCN 설계넼 기반으딜 źµ¬ķ˜„ė˜ė©°, 7 Ɨ 7 그룹으딜 ė³€ķ˜• ź°€ėŠ„ķ•œ ģœ„ģ¹˜ 감지 ROI ķ’€ė§ģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤.

  • Training. STSN ėŖØėøģ€ 백본 ė„¤ķŠøģ›Œķ¬ė”œ ResNet-101 ģ•„ķ‚¤ķ…ģ²˜ė„¼ 기반으딜 ķ•˜ėŠ” Deformable CNN ėŖØėøģ„ ģ‚¬ģš©ķ•˜ģ˜€źø° ė•Œė¬øģ— ģ™„ģ „ķžˆ 미분될 수 ģžˆģœ¼ėÆ€ė”œ End to End learningģ“ ź°€ėŠ„ķ•©ė‹ˆė‹¤. Trainingģ„ ģœ„ķ•“ 기준 ķ”„ė ˆģž„ ģ“ģ „ģ— ķ•˜ė‚˜ģ˜ 지원 ķ”„ė ˆģž„ź³¼ ģ°øģ”° ķ”„ė ˆģž„ ģ“ķ›„ģ— ķ•˜ė‚˜ģ˜ 지원 ķ”„ė ˆģž„ģ„ ė¬“ģž‘ģœ„ė”œ ģƒ˜ķ”Œė§ķ•©ė‹ˆė‹¤. ģš°ė¦¬ėŠ” Trainingģ—ģ„œ ė” ė§Žģ€ 지원 ķ”„ė ˆģž„ģ„ ģ‚¬ģš©ķ•œė‹¤ź³  ķ•“ģ„œ ė” ė†’ģ€ ģ •ķ™•ė„ė”œ ģ“ģ–“ģ§€ģ§€ ģ•ŠėŠ”ė‹¤ėŠ” ź²ƒģ„ ź“€ģ°°ķ–ˆģŠµė‹ˆė‹¤. ė‚˜ėØøģ§€ Training ģ—ģ„œėŠ” 두 ė‹Øź³„ė”œ ėŖØėøģ„ Trainingķ•©ė‹ˆė‹¤. 먼저 Imagenet VID ė°ģ“ķ„° ģ„øķŠøģ™€ ź²¹ģ¹˜ėŠ” 30개 ź°ģ²“ ķ“ėž˜ģŠ¤ģ˜ ģ£¼ģ„ģ„ ģ‚¬ģš©ķ•˜ģ—¬ Imagenet DET ė°ģ“ķ„° ģ„øķŠøģ— ėŒ€ķ•œ 전첓 ėŖØėøģ„ 사전 ķ•™ģŠµķ•©ė‹ˆė‹¤. Imagenet DET ė°ģ“ķ„° ģ„øķŠøģ—ėŠ” ģ“ėÆøģ§€ė§Œ ķ¬ķ•Øė˜ģ–“ ģžˆģœ¼ėÆ€ė”œ ģ“ 경우 ģ˜ėÆø ģžˆėŠ” 지원 ķ”„ė ˆģž„ģ„ ģƒ˜ķ”Œė§ķ•  수 ģ—†ģŠµė‹ˆė‹¤. ė”°ė¼ģ„œ ģ“ėÆøģ§€ģ˜ 경우 ģ°øģ”° ķ”„ė ˆģž„ģ„ 지원 ķ”„ė ˆģž„ģœ¼ė”œ ģ‚¬ģš©ķ•©ė‹ˆė‹¤. ź·ø 후 전첓 ėŖØėøģ€ 4ź°œģ˜ Tesla K40 GPUģ—ģ„œ 120,000번 반복 ķ•™ģŠµė˜ė©° 각 GPUėŠ” ė‹Øģ¼ ėÆøė‹ˆ 배치넼 ė³“ģœ ķ•©ė‹ˆė‹¤. ķ•™ģŠµė„ ģ€ ģ²˜ģŒ 80K ė° ė§ˆģ§€ė§‰ 40K ė°˜ė³µģ— ėŒ€ķ•“ 각각 0.001 ė° 0.0001딜 ģ„¤ģ •ė©ė‹ˆė‹¤. 그런 ė‹¤ģŒ ģ²˜ģŒ 40K ė° ė§ˆģ§€ė§‰ 20K ė°˜ė³µģ— ėŒ€ķ•“ 각각 0.001 ė° 0.0001ģ˜ ķ•™ģŠµė„ ė”œ 60K ė°˜ė³µģ— ėŒ€ķ•“ Imagenet VID ė°ģ“ķ„° ģ„øķŠøģ˜ 전첓 ėŖØėøģ„ 미세 ģ”°ģ •ķ•©ė‹ˆė‹¤. Trainingģ˜ 두 번째 ė‹Øź³„ģ—ģ„œ ģš°ė¦¬ėŠ” ģ°øģ”° ķ”„ė ˆģž„ģ˜ ķŠ¹ģ • ģ“ģ›ƒ ė‚“ģ—ģ„œ 지원 ķ”„ė ˆģž„ģ„ ė¬“ģž‘ģœ„ė”œ ģƒ˜ķ”Œė§ķ•©ė‹ˆė‹¤

  • Inference. ģ¶”ė” ķ•˜ėŠ” ė™ģ•ˆ T = 27ģ„ ģ‚¬ģš©ķ•©ė‹ˆė‹¤. 즉, ģ°øģ”° ķ”„ė ˆģž„ 전후에 K = 13ź°œģ˜ 지원 ķ”„ė ˆģž„ģ„ ź³ ė ¤ķ•©ė‹ˆė‹¤. GPU 메모리 문제넼 ķ”¼ķ•˜źø° ģœ„ķ•“ 먼저 각 ģ“ėÆøģ§€ģ˜ 백본 ė„¤ķŠøģ›Œķ¬ģ—ģ„œ źø°ėŠ„ģ„ ź°œė³„ģ ģœ¼ė”œ ģ¶”ģ¶œķ•œ ė‹¤ģŒ ģ“ėŸ¬ķ•œ źø°ėŠ„ģ„ 메모리에 ģŗģ‹œķ•©ė‹ˆė‹¤. 그런 ė‹¤ģŒ ģ“ ėŖØė“  źø°ėŠ„ģ„ ģ‹œź³µź°„ ģƒ˜ķ”Œė§ ėø”ė”ģ— ģž…ė „ķ•©ė‹ˆė‹¤. ė§ˆģ§€ė§‰ģœ¼ė”œ ģž„ź³„ź°’ģ“ 0.3ģø ķ‘œģ¤€ NMS넼 ģ ģš©ķ•˜ģ—¬ ķƒģ§€ė„¼ ģ„øė¶„ķ™”ķ•©ė‹ˆė‹¤. ė¹„ė””ģ˜¤ģ˜ 첫 번째 ė° ė§ˆģ§€ė§‰ K = 13개 ķ”„ė ˆģž„ģ„ ģ²˜ė¦¬ķ•˜źø° ģœ„ķ•“ ė¹„ė””ģ˜¤ ģ‹œģž‘ź³¼ ėģ„ ė„˜ģ–“ ģøģ ‘ ķ”„ė ˆģž„ģ„ ģƒ˜ķ”Œė§ķ•“ģ•¼ ķ•˜ėŠ” 두 가지 경계 경우넼 ģ²˜ė¦¬ķ•˜źø° ģœ„ķ•“ ė¹„ė””ģ˜¤ģ˜ ģ‹œģž‘ģ„ 첫 번째 ķ”„ė ˆģž„ģ˜ K ė³µģ‚¬ė³øģœ¼ė”œ ģ±„ģ›ė‹ˆė‹¤.

4. Experiment & Result

Experimental setup

ģ‹¤ķ—˜ģ—ėŠ” 3,862 ė° 555ź°œģ˜ 교윔 ė° ķ…ŒģŠ¤ķŠø ė¹„ė””ģ˜¤ ķ“ė¦½ģ“ ģžˆėŠ” ImageNet VID ė°ģ“ķ„° ģ„øķŠøė„¼ 가지고 ė¹„ė””ģ˜¤ ź°ģ²“ 감지에 ėŒ€ķ•œ ģ„±ėŠ„ģ„ ķ‰ź°€ķ•˜ģ˜€ģŠµė‹ˆė‹¤. 각 ė¹„ė””ģ˜¤ģ—ėŠ” Bounding Boxź°€ ķ‘œģ‹œė˜ė©°, 각 ė¹„ė””ģ˜¤ģ˜ ķ”„ė ˆģž„ģ€ 25 - 30fps딜 ģ¶”ģ¶œė©ė‹ˆė‹¤. ė°ģ“ķ„° ģ„øķŠøģ—ėŠ” ImageNet DET ė°ģ“ķ„° ģ„øķŠøģ— ģžˆėŠ” 200개 ė²”ģ£¼ģ˜ ķ•˜ģœ„ ģ§‘ķ•©ģø 30개 개첓 범주가 ķ¬ķ•Øė˜ģ–“ ģžˆģŠµė‹ˆė‹¤.

Result

Quantitative Results

STSNģ˜ 효과넼 ķ‰ź°€ķ•˜źø° ģœ„ķ•“ ģš°ė¦¬ėŠ” 두 가지 ģµœģ‹  ė°©ė²•ģø FGFA와 D&T와 ģ„±ėŠ„ ė¹„źµķ•˜ģ˜€ģŠµė‹ˆė‹¤. ķšØź³¼ģ ģø 비교넼 ģœ„ķ•“ 각 ģ•„ķ‚¤ķ…ģ²˜ģ— ģ°øģ”° ķ”„ė ˆģž„ė§Œ ģ‚¬ģš©ķ•˜ģ—¬ ģ˜ˆģø”ķ•˜ėŠ” ėŖØėø(SSN)ź³¼ ģ‹œź³µź°„ ģƒ˜ķ”Œ ė©”ģ»¤ė‹ˆģ¦˜ģ„ ģ ģš©ķ–ˆź³ , ė¹„ė””ģ˜¤ ź°ģ²“ 감지 비교넼 ģœ„ķ•“ ģ‹œź°„ģ  ķ›„ģ²˜ė¦¬ź°€ ģ¶œė „ģ— ģ ģš©ė˜ģ—ˆģŠµė‹ˆė‹¤. ķ‘œ 1ģ—ģ„œ D&T ė° STSNģ€ CNN ģ¶œė „ģ„ ģ‚¬ģš©ķ•œ 경우넼 ė‚˜ķƒ€ė‚“ėŠ” 반멓 D&T+ ė° STSN+ėŠ” ģ‹œź°„ģ  ķ›„ģ²˜ė¦¬(Seq NMS, object-tube linking 등)넼 CNN ģ¶œė „ģ— ģ ģš©ķ•œ 경우넼 ė‚˜ķƒ€ėƒ…ė‹ˆė‹¤.

그리고 ģš°ė¦¬ėŠ” ėŖ‡ 가지 기준에 ė”°ė¼ 각 ė°©ė²•ģ„ ķ‰ź°€ķ•˜ėŠ” ķ‘œ 1에 결과넼 ģ œģ‹œ ķ•˜ģ˜€ģŠµė‹ˆė‹¤.

  • ķ‘œ 1ģ˜ 첫 번째 ķ–‰ģ—ėŠ” 주얓진 ė°©ė²•ģ“ ė³„ė„ģ˜ ķė¦„ ė„¤ķŠøģ›Œķ¬ė„¼ Training/Prediction ķŒŒģ“ķ”„ė¼ģøģ— 통합핓야 ķ•˜ėŠ”ģ§€ 여부넼 ė‚˜ģ—“ķ•©ė‹ˆė‹¤. ģ“ģƒģ ģœ¼ė”œėŠ” Optical Flow ģ˜ˆģø”ģ„ ģœ„ķ•“ 매우 ė³µģž”ķ•œ ķė¦„ ė„¤ķŠøģ›Œķ¬ ģ•„ķ‚¤ķ…ģ²˜ė„¼ 설계핓야 ķ•˜źø° ė•Œė¬øģ— ģ“ 단계넼 ģ œź±°ķ•˜ėŠ” ź²ƒģ“ ģœ ė¦¬ķ•©ė‹ˆė‹¤.

  • 외부 Optical Flow ė°ģ“ķ„°ģ— ėŒ€ķ•œ Pre-trainingģ“ ķ•„ģš”ķ•œģ§€ ģ—¬ė¶€ė„ ė‚˜ģ—“ķ•©ė‹ˆė‹¤. ģ“ėŠ” 전첓 Training ķŒŒģ“ķ”„ė¼ģøģ— ė” ė§Žģ€ ģ—°ģ‚°ģ„ ķ•˜ė„ė” ė§Œė“­ė‹ˆė‹¤.

  • 주얓진 ė°©ė²•ģ“ 외부 ģ‹œź°„ 사후 처리 단계넼 ģ‚¬ģš©ķ•˜ėŠ”ģ§€ 여부넼 ė‚˜ģ—“ķ•©ė‹ˆė‹¤. ģ“ėŸ¬ķ•œ ė‹Øź³„ėŠ” ģ¼ė°˜ģ ģœ¼ė”œ Training/Prediction ķŒŒģ“ķ”„ė¼ģøģ„ ė” ė³µģž”ķ•˜ź²Œ ė§Œė“¤źø° ė•Œė¬øģ— ģ œź±°ķ•˜ėŠ” ź²ƒģ“ ģœ ė¦¬ķ•©ė‹ˆė‹¤.

  • IoU(Intersection Over Union) ģž„ź³„ź°’ 0.5ģ—ģ„œ ķ‘œģ¤€ mAP(ķ‰ź·  ķ‰ź·  ģ •ė°€ė„) ė©”ķŠøė¦­ģ— ė”°ė¼ 각 ė°©ė²•ģ„ ķ‰ź°€ķ•©ė‹ˆė‹¤.

image-20211023061319879

ķ‘œ 1ģ˜ 결과넼 ė°”ķƒ•ģœ¼ė”œ ė‹¤ģŒź³¼ ź°™ģ€ ź²°ė” ģ„ 낓릓 수 ģžˆģŠµė‹ˆė‹¤.

  • STSNģ“ ģµœģ‹  FGFA 방법(78.9 ėŒ€ 78.8)볓다 ė” ė‚˜ģ€ ģ •ėŸ‰ģ  결과넼 ė³“ģ˜€ģŠµė‹ˆė‹¤. FGFA와 ė¹„źµķ•˜ģ—¬ ģ •ķ™•ė„ ķ–„ģƒģ“ 수치적으딜 크게 ė†’ģ§€ėŠ” ģ•Šģœ¼ė‚˜, FGFA와 달리 STSNģ“ ģ§ģ ‘ģ ģø Optical Flow Supervision ģ—†ģ“ ģ‹œź°„ģ  ėŒ€ģ‘ģ„ ķ•™ģŠµķ•˜ģ—¬ FGFA넼 ėŠ„ź°€ķ•œģ ģ„ ķ™•ģøķ–ˆģŠµė‹ˆė‹¤. ģ“ėŸ¬ķ•œ ź²°ź³¼ėŠ” ė¹„ė””ģ˜¤ Object Detectionģ—ģ„œģ˜ End to End learningģ˜ ģ“ģ ģ„ ė³“ģ—¬ģ¤ė‹ˆė‹¤.

  • STSNģ„ D&Tģ˜ ź²½ģš°ģ—ėŠ” ģ‹œź°„ģ  ķ›„ģ²˜ė¦¬(예: Seq-NMS, object-tube linking 등)ź°€ ģ‚¬ģš©ė˜ģ§€ ģ•ŠėŠ” ģ„¤ģ •ģ—ģ„œ STSNģ“ D&T 기준선볓다 ģƒė‹¹ķ•œ ģ„±ėŠ„ģ„ ė°œķœ˜ķ•Øģ„ ė³“ģ—¬ģ¤ė‹ˆė‹¤. (78.9 ėŒ€ 75.8). ģ“ėŸ¬ķ•œ ź²°ź³¼ėŠ” STSNģ“ ź°•ė „ķ•œ ģ‹œź³µź°„ źø°ėŠ„ģ„ ķ•™ģŠµķ•  수 ģžˆź³  ģ‹œź°„ 경과에 ė”°ė¼ 경계 ģƒģž 감지넼 ģ—°ź²°ķ•˜ėŠ” ģ‹œź°„ģ  ķ›„ģ²˜ė¦¬ ģ•Œź³ ė¦¬ģ¦˜ ģ—†ģ“ė„ ź²¬ź³ ķ•œ ė¹„ė””ģ˜¤ ź°ģ²“ 감지 결과넼 ģƒģ„±ķ•  수 ģžˆģŒģ„ ė‚˜ķƒ€ėƒ…ė‹ˆė‹¤.

  • ė˜ķ•œ ģ‹œź°„ģ  ķ›„ģ²˜ė¦¬ ģ•Œź³ ė¦¬ģ¦˜ Seq-NMS 넼 ķ†µķ•©ķ•˜ė©“ STSNģ˜ 결과가 ė”ģš± ķ–„ģƒėØģ„ ė³“ģ—¬ģ¤ė‹ˆė‹¤. ģ“ėŸ¬ķ•œ ė°©ģ‹ģ„ 통핓 ģœ ģ‚¬ķ•œ Viterbi 기반 ģž„ģ‹œ ķ›„ģ²˜ė¦¬ ė°©ģ‹ģ„ ģ‚¬ģš©ķ•˜ėŠ” D&T+넼 ėŠ„ź°€ķ•  수 ģžˆģŠµė‹ˆė‹¤. (80.4 ėŒ€ 79.8)

Ablation Studies

image-20211023061319879

Optimal Number of Supporting Frames. 그림 3ģ˜ 왼쪽 ź·øėž˜ķ”„ėŠ” 지원 ķ”„ė ˆģž„ ģˆ˜ź°€ ė¹„ė””ģ˜¤ ź°ģ²“ 감지 ģ •ķ™•ė„ģ— ģ–“ė–¤ ģ˜ķ–„ģ„ ėÆøģ¹˜ėŠ”ģ§€ ė³“ģ—¬ģ¤ė‹ˆė‹¤. 지원 ķ”„ė ˆģž„ģ„ ģ¶”ź°€ķ•˜ė©“ ģ„±ėŠ„ģ“ ź³„ģ† ķ–„ģƒė˜ź³  T = 27ģ—ģ„œ ģ •ģ²“ė©ė‹ˆė‹¤.

Increasing the Temporal Stride. 지원 ķ”„ė ˆģž„ģ„ ģƒ˜ķ”Œė§ķ•˜ėŠ” ģ‹œź°„ ė³“ķ­ kź°€ STSNģ˜ ģ„±ėŠ„ģ— ģ–“ė–¤ ģ˜ķ–„ģ„ ėÆøģ¹˜ėŠ”ģ§€ 씰사 ķ•˜ģ˜€ģŠµė‹ˆė‹¤. ģš°ė¦¬ėŠ” k = 2 ė° k = 4ģ˜ ģ‹œź°„ģ  ė³“ķ­ģ“ 각각 79.0 ė° 77.9ģ˜ mAP 점수넼 ģ‚°ģ¶œķ•˜ėŠ” ź²ƒģ„ ķ™•ģøķ•˜ģ˜€ģŠµė‹ˆė‹¤. ė”°ė¼ģ„œ k = 2ģ—ģ„œėŠ” ģ›ėž˜ģ˜ 78.9mAP ģ ģˆ˜ė³“ė‹¤ 약간 ķ–„ģƒėœ 결과넼 ė³“ģ˜€ģŠµė‹ˆė‹¤. ź·øėŸ¬ė‚˜ k넼 ė” 큰 ź°’ģœ¼ė”œ ģ¦ź°€ģ‹œķ‚¤ė©“ ģ •ķ™•ė„ź°€ ź°ģ†Œķ•˜ėŠ” ź²½ķ–„ģ„ ė³“ģ˜€ģŠµė‹ˆė‹¤.

Feature Aggregation Weight Analysis. 각 지지 ķ”„ė ˆģž„ģ“ ģµœģ¢… 물첓 감지에 ģ–¼ė§ˆė‚˜ źø°ģ—¬ķ•˜ėŠ”ģ§€ ė¶„ģ„ķ•˜źø° ģœ„ķ•“ ė‹¤ģ–‘ķ•œ k 값에 ėŒ€ķ•œ ķ‰ź·  묓게 크기 $w_{t,t+k}(p)$넼 ģ‹œź°ķ™”ķ•˜ģ˜€ģŠµė‹ˆė‹¤. ģ“ėŠ” 그림 3ģ˜ 오넸쪽 ź·øėž˜ķ”„ģ— ė‚˜ģ™€ ģžˆģŠµė‹ˆė‹¤. ģ“ 경우 ź°€ģ¤‘ģ¹˜ ķ¬źø°ėŠ” ź°œģ²“ģ˜ 중심에 ģžˆėŠ” 점 p에 ķ•“ė‹¹ķ•©ė‹ˆė‹¤. ģ“ė„¼ 통핓 ģµœģ¢… ź°ģ²“ 감지 ģ˜ˆģø”ģ— ź°€ģž„ 큰 ģ˜ķ–„ģ€ 기준 ķ”„ė ˆģž„(k = āˆ’1, 0, 1)에 ź°€ź¹Œģš“ 지원 ķ”„ė ˆģž„ģ—ģ„œ ė¹„ė”Æėœė‹¤ėŠ” ź²°ė” ģ„ 낓릓 수 ģžˆģŠµė‹ˆė‹¤. ź·øėŸ¬ė‚˜ ģ°øģ”° ķ”„ė ˆģž„ģ—ģ„œ ė” 멀리 ė–Øģ–“ģ ø ģžˆėŠ” 지원 ķ”„ė ˆģž„(예: k = -9, 9)ģ”°ģ°Øė„ 0ģ“ ģ•„ė‹Œ ź°€ģ¤‘ģ¹˜ė„¼ 가지며 ģµœģ¢… ź°ģ²“ 감지 ģ˜ˆģø”ģ— ģƒė‹¹ķžˆ ģ˜ķ–„ģ„ ģ¤ė‹ˆė‹¤.

Qualitative Results

STSNģ“ 주얓진 ė¹„ė””ģ˜¤ģ˜ ģ‹œź°„ 정볓넼 ģ–“ė–»ź²Œ ķ™œģš©ķ•˜ėŠ”ģ§€ ģ“ķ•“ķ•˜źø° ģœ„ķ•“ 그림 4ģ—ģ„œ STSN ģƒ˜ķ”Œė§ ėø”ė”ģ— ģ˜ķ•“ 예츔된 ķ‰ź·  ģ˜¤ķ”„ģ…‹ģ„ ģ‹œź°ķ™” ķ•˜ģ˜€ģŠµė‹ˆė‹¤. ģ“ėŸ¬ķ•œ ģ˜¤ķ”„ģ…‹ģ€ STSNģ“ ģ°øģ”° ķ”„ė ˆģž„ģ—ģ„œ 개첓넼 ź°ģ§€ķ•˜ėŠ” ė° ģ‚¬ģš©ė˜ģ–“ģ•¼ ķ•˜ėŠ” 지원 ķ”„ė ˆģž„ģ˜ 개첓 ģˆ˜ģ¤€ 정볓넼 ź²°ģ •ķ•˜ėŠ” ė° ģ‚¬ģš©ė©ė‹ˆė‹¤. ģ°øģ”° ķ”„ė ˆģž„ģ˜ ė…¹ģƒ‰ ģ‚¬ź°ķ˜•ģ€ 합성곱 ģ¶œė „ģ„ ź³„ģ‚°ķ•˜ė ¤ėŠ” ķ”½ģ…€ģ„ ė‚˜ķƒ€ėƒ…ė‹ˆė‹¤. 지지 ķ”„ė ˆģž„ģ˜ ė¹Øź°„ģƒ‰ ģ‚¬ź°ķ˜•ģ€ ķ‰ź·  ģ˜¤ķ”„ģ…‹ģ„ ė‚˜ķƒ€ė‚“ė©°, ģ“ėŠ” 지지 ķ”„ė ˆģž„ģ—ģ„œ ģƒ˜ķ”Œė§ķ•“ģ•¼ ķ•˜ėŠ” ķŠ¹ģ§•ģ ģ„ ź²°ģ •ķ•˜ėŠ” ė° ģ‚¬ģš©ė©ė‹ˆė‹¤. ė…øėž€ģƒ‰ ķ™”ģ‚“ķ‘œėŠ” 기준 ģ¢Œķ‘œź³„ģ™€ 지지 ģ¢Œķ‘œź³„ ģ‚¬ģ“ģ˜ ė¬¼ģ²“ģ˜ ģ›€ģ§ģž„ģ„ ė‚˜ķƒ€ėƒ…ė‹ˆė‹¤. ģ°øģ”° ķ”„ė ˆģž„ź³¼ 지원 ķ”„ė ˆģž„ ģ‚¬ģ“ģ˜ ģƒėŒ€ģ ģœ¼ė”œ 큰 ģ›€ģ§ģž„ģ—ė„ ė¶ˆźµ¬ķ•˜ź³  STSNģ€ ģ •ķ™•ķžˆ ģš°ė¦¬ź°€ ģ›ķ•˜ėŠ” ź°ģ²“ 중심 ģ£¼ė³€ģ˜ 지원 ķ”„ė ˆģž„ģ—ģ„œ ķŠ¹ģ§•ģ„ ģƒ˜ķ”Œė§ķ•©ė‹ˆė‹¤. ģ“ėŸ¬ķ•œ ģ‹œź³µź°„ ģƒ˜ķ”Œė§ģ„ 통핓 ź°ģ²“ź°€ ģ°øģ”° ķ”„ė ˆģž„ģ—ģ„œ ķė¦¬ź±°ė‚˜ 가려진 것처럼 ė³“ģ“ė”ė¼ė„ ź°ģ²“ė„¼ 감지할 수 ģžˆģŠµė‹ˆė‹¤.

image-20211023061319879

ė˜ķ•œ 그림 4ģ˜ 결과넼 기반으딜 ėŖ…ģ‹œģ  Optical Flow ź°ė… ģ—†ģ“ė„ STSNģ“ ź°ģ²“ģ˜ ģ›€ģ§ģž„ģ„ ģ •ķ™•ķ•˜ź²Œ ģŗ”ģ²˜ķ•˜ėŠ” ė°©ė²•ģ„ ķ•™ģŠµķ•˜ėŠ” ź²ƒģ„ ꓀찰할 수 ģžˆģŠµė‹ˆė‹¤.

image-20211023061319879

그림 5ģ—ģ„œėŠ” STSNģ„ ģ‚¬ģš©ķ•˜ģ—¬ 주얓진 ė¹„ė””ģ˜¤ģ—ģ„œ 개첓넼 ģ¶”ģ ķ•˜ėŠ” ėŖ‡ 가지 예넼 ė³“ģ—¬ģ¤ė‹ˆė‹¤. 그림 5ģ—ģ„œ ģš°ė¦¬ėŠ” 각 ģ‹œķ€€ģŠ¤ģ—ģ„œ ģƒėŒ€ģ ģœ¼ė”œ 큰 ģ›€ģ§ģž„ģ—ė„ ė¶ˆźµ¬ķ•˜ź³  STSNģ“ ėŖØė“  지원 ķ”„ė ˆģž„ģ—ģ„œ ź°ģ²“ ģ£¼ė³€ģ˜ ķŠ¹ģ§•ģ„ ģ •ķ™•ķ•˜ź²Œ ģƒ˜ķ”Œė§ķ•œė‹¤ėŠ” ź²ƒģ„ ź“€ģ°°ķ–ˆģŠµė‹ˆė‹¤.

image-20211023061319879

그림 6ģ—ģ„œėŠ” 정적 SSN źø°ģ¤€ģ„ ģ˜ 개첓 ķƒģ§€ģ™€ 전첓 STSN ėŖØėøģ˜ 개첓 ķƒģ§€ė„ ė³“ģ—¬ģ¤ė‹ˆė‹¤. ģ“ ėŖØė“  ź²½ģš°ģ— ģ‹œź°„ 정볓넼 ķ†µķ•©ķ•˜ė©“ STSNģ“ 정적 źø°ģ¤€ģ„ ģ—ģ„œ ė°œģƒķ•œ ģ‹¤ģˆ˜ė„¼ ģˆ˜ģ •ķ•˜ėŠ” ė° ė„ģ›€ģ“ ė©ė‹ˆė‹¤. 예넼 들얓, 그림 6ģ˜ 세 번째 ķ–‰ģ—ģ„œ 정적 SSN źø°ģ¤€ģ„ ģ€ ģ°øģ”° ķ”„ė ˆģž„ģ˜ 개첓넼 새딜 ģž˜ėŖ» ģ§€ģ •ķ•©ė‹ˆė‹¤. ģ“ėŠ” ė„ė§ˆė±€ģ˜ 머리가 가려져 ė°œģƒķ•©ė‹ˆė‹¤. ź·øėŸ¬ė‚˜ STSNģ€ 지지 ķ”„ė ˆģž„ģ„ 볓고 ė„ė§ˆė±€ 몸첓와 머리 ģ£¼ģœ„ė„¼ ģƒ˜ķ”Œė§ķ•˜ģ—¬ ģ“ ģ‹¤ģˆ˜ė„¼ ģˆ˜ģ •ķ•©ė‹ˆė‹¤(그림 6ģ˜ 3ķ–‰, 1ģ—“ ģ°øģ”°). Occlusion ė° Motion Blurģ˜ ź²½ģš°ģ—ė„ ģœ ģ‚¬ķ•œ 결과가 ė°œģƒķ•©ė‹ˆė‹¤.

5. Conclusion

ė³ø ė…¼ė¬øģ—ģ„œėŠ” ė¹„ė””ģ˜¤ 정볓넼 ģ“ģš©ķ•“ Object Detection넼 ķ•˜ėŠ” 새딜욓 ģ•„ķ‚¤ķ…ģ²˜ģø STSN(Spatiotemporal Sampling Network)ģ„ ģ œģ•ˆķ–ˆģŠµė‹ˆė‹¤. ė³ø 연구가 źø°ģ—¬ķ•˜ėŠ” ģ‚¬ķ•­ģ€ ė‹¤ģŒź³¼ ź°™ģŠµė‹ˆė‹¤.

  • 공간과 ģ‹œź°„ģ— 걸쳐 ė³€ķ˜• ź°€ėŠ„ķ•œ ģ»Øė³¼ė£Øģ…˜ė„¼ ģ“ģš©ķ•“ ėŖØėø 설계넼 ė” ź°„ė‹Øķ•˜ź²Œ ķ•œ 점

  • Optical Flow에 따넸 Training ė°ģ“ķ„°ź°€ ķ•„ģš”ķ•˜ģ§€ ģ•Šģ€ 점

  • 기씓 연구에 비핓 ė” ė†’ģ€ ė¹„ė””ģ˜¤ ź°ģ²“ 감지 ģ„±ėŠ„ ķšė“ķ•œ 점

결딠적으딜, ė³ø 연구 결과딜 ė¹„ė””ģ˜¤ 정볓넼 ģ“ģš©ķ•œ Object Detection ėŖØėøģ˜ End to End Learningģ„ ė” ģ‰½ź²Œ ķ•  ģˆ˜ģžˆź²Œ ė˜ģ—ˆģŠµė‹ˆė‹¤. 추후 진행될 ģ—°źµ¬ģ—ģ„œėŠ” ė” ė³µģž”ķ•œ ģ‹œź³µź°„ ģƒ˜ķ”Œė§ ėø”ė”ģ„ ģ‹¤ķ—˜ķ•˜ėŠ” ė‚“ģš©ģ“ ė‹“źøø ģ˜ˆģ •ģž…ė‹ˆė‹¤.

ģ˜¤ėŠ˜ģ˜ źµķ›ˆ (Take home message)

ģ¼ė°˜ģ ģœ¼ė”œ ė¹„ė””ģ˜¤ 정볓넼 ģ“ģš©ķ•“ Object Detectionģ„ ģ§„ķ–‰ķ•˜ėŠ” ź²ƒģ€ ė§Žģ€ ģ œģ•½ ģ‚¬ķ•­ģ“ ģžˆģœ¼ė©°, ėŖØėøģ„ 설계할 ė•Œ Optical Flow넼 ķ•“ģ„ķ•“ģ•¼ ķ•˜ėŠ” ė“±ģ˜ ė³µģž”ķ•œ 단계넼 ģš”źµ¬ķ•©ė‹ˆė‹¤.

공간과 ģ‹œź°„ģ— 걸쳐 ė³€ķ˜• ź°€ėŠ„ķ•œ ģ»Øė³¼ė£Øģ…˜ģ„ ķ™œģš©ķ•˜ė©“ ģ œģ•½ ģ‚¬ķ•­ģ„ ź·¹ė³µķ•˜ė©“ģ„œė„ End to End Learningģ„ ķ•  수 ģžˆėŠ” ė” ė‚˜ģ€ ģ„±ėŠ„ģ˜ ėŖØėøģ„ ģ–»ģ„ 수 ģžˆģŠµė‹ˆė‹¤.

Author / Reviewer information

Author

ķ•œģ •ėÆ¼ (Han Jungmin)

  • Affiliation : Ph.D. student, Robotics Program, KAIST (Advisor: Dong-Soo Kwon)

  • Research Interest : Flexible Endoscopic Surgery Robot System, Surgical Navigation

  • Contact information

    • Personal E-mail : hanjungmin@kaist.ac.kr

    • Related Website Link

      • Telerobotics and Control Laboratory, KAIST : http://robot.kaist.ac.kr/

      • EasyEndo Surgical Inc. : https://www.easyendosurgical.com/

Reviewer

  1. Korean name (English name): Affiliation / Contact information

  2. Korean name (English name): Affiliation / Contact information

  3. ...

Reference & Additional materials

  1. Citation of this paper

    1. Bertasius, Gedas, Lorenzo Torresani, and Jianbo Shi. "Object detection in video with spatiotemporal sampling networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

  2. Official (unofficial) GitHub repository

    1. None

  3. Citation of related work

    1. Kang, K., Li, H., Yan, J., Zeng, X., Yang, B., Xiao, T., Zhang, C., Wang, Z., Wang, R., Wang, X., Ouyang, W.: T-CNN: tubelets with convolutional neural networks for object detection from videos. IEEE TCSVT 2017 (2017)

    2. Kang, K., Ouyang, W., Li, H., Wang, X.: Object detection from video tubelets with convolutional neural networks. CoRR abs/1604.04053 (2016)

    3. Han, W., Khorrami, P., Paine, T.L., Ramachandran, P., Babaeizadeh, M., Shi, H., Li, J., Yan, S., Huang, T.S.: Seq-nms for video object detection. CoRR abs/1602.08465 (2016)

    4. Feichtenhofer, C., Pinz, A., Zisserman, A.: Detect to track and track to detect. In: International Conference on Computer Vision (ICCV). (2017)

    5. Zhu, X., Wang, Y., Dai, J., Yuan, L., Wei, Y.: Flow-guided feature aggregation for video object detection. In: International Conference on Computer Vision (ICCV). (2017)

  4. Other useful materials

    1. Presentation Video Clip: https://www.youtube.com/watch?v=EZg3LT1OSi4

    2. Author Information (Gedas Bertasius) : https://scholar.google.co.kr/citations?hl=ko&user=8FWkjw8AAAAJ&view_op=list_works&sortby=pubdate

Last updated

Was this helpful?