STSN [Kor]
(Description) Gedas Bertasius et al. / Object Detection in Video with Spatiotemporal Sampling Networks / ECCV 2018 Poster
English version of this article is available.
1. Problem definition
ė³ø ė ¼ė¬øģ ģ°źµ¬ģģė ė¹ėģ¤ė„¼ ģ“ģ©ķ 물첓 ź°ģ§ ė°©ė²ģ ėķ“ģ ė¤ė£¹ėė¤. ģµź·¼ ėŖ ė ėģ ė„ ģ»Øė³¼ė£Øģ ė¤ķøģķ¬ė ģ“미ģ§ģģ ź°ģ²“넼 ź°ģ§ķė ė¶ģ¼ģģė ė§ģ ė°ģ ģ ģ“ė£Øģ“ ģģµėė¤. ķģ§ė§ ė¹ėģ¤ė„¼ ģ“ģ©ķ ė¶ģ¼ģģė ėŖØģ ėøė¬ź° ė°ģķź±°ė, ė¹ėģ¤ ģģģ ķ¬ģ»¤ģ¤ź° ė§ģ§ ģź±°ė, 물첓ģ ķģģ ė³ķģ“ ģź±°ė, ģ“ėź°ģ ģķ“ ź°ė ¤ģ§ź² ėė ģķ© ėė¬øģ ź°ģ²“넼 ź°ģ§ķė ė° ė§ģ ģ“ė ¤ģģ ź°ģ§ź³ ģģģµėė¤.

ķģ§ė§ ė¹ėģ¤ ģ ė³“ė źø°ė³øģ ģ¼ė” ģ“ėÆøģ§ ģ 볓ģė ģė ė§ģ ģ ė³“ź° ģźø° ė문ģ ģ“미ģ§ģģ ź°ģ²“넼 ź°ģ§ķė ź²ė³“ė¤ ė ź°ė „ķź² ķģ©ė ģ ģģµėė¤. ė¹ėģ¤ ģ 볓 ė“ ź°ģ²“넼 ź°ģ§ķźø° ģķ“ģė ė¹ėģ¤ģ ķ¬ķØėģ“ ģė ģź°ģ ė°ė¼ ė³ķėė ģ 볓넼 ķØź³¼ģ ģ¼ė” ķģ©ķ ģ ģė ėŖØėøģ ģ¤ź³ķė ź²ģ“ ģ¤ģķ©ėė¤.
ģ“ģ ģ°źµ¬ģģė ģź°ģ ė°ė¼ ģ¼ź“ė ź°ģ²“ ķģ§ė„¼ ķė ėØź³ė„¼ ė§ė¤ź³ ė¹ėģ¤ģģ ģ“ė¬ķ ģź° ģ 볓넼 ķģ©ķė ė°©ė²ģ ģ¬ģ© ķģģ¼ė, ģ“ė¬ķ ė°©ė²ģ ķėģ ģ ź²½ė§ģ¼ė” ģ²ė¦¬ķė End to End Learningģ“ ė¶ź°ė„ ķģµėė¤. ģµź·¼ ģ°źµ¬ģģė End to End Learningģ“ ź°ė„ķėė” flow-based aggregation ė¤ķøģķ¬ė„¼ ėģ ķėė°, ģ“ ė°©ė²ģ Optical Flowģ ķģ©ķģ¬ ģź°ģ ė°ė„ø ėģ ź“ź³ė„¼ ģ°¾ģ ė¤ģ ģź° ėģ ź“ź³ģ ź±øģ³ ķ¹ģ§ģ ģ§ź³ķģ¬ ģøģ ķė ģģģģ ź°ģ²“ ź°ģ§ė„¼ ź°ė„ķź² ķģ§ė§ 물첓 ź°ģ§ė„¼ ģķķė ź² ģøģė ģģ§ģģ ģģø”ķ“ģ¼ ķė¤ė ėØģ ģ“ ģģµėė¤.
ģ“ė¬ķ ģ¬ģ ģ°źµ¬ė¤ģ ķµķ“ ė°ķģ§ ėŖØėøģ ģ¤ź³ķėė° ģģ“ ė§ė„ėØė¦“ ģ ģė ė¶ė¦¬ķ ģķ©ģ ģ 리ķ“볓멓 ė¤ģź³¼ ź°ģµėė¤.
ķØź³¼ģ ģø ė¤ķøģķ¬ ģķ¤ķ ģ²ė„¼ ģ¤ź³ķė ź²ģ“ ź·øė ź² ź°ėØķģ§ ģģµėė¤.
ėŖØėøģ Trainingķė ė° ė§ģ ģģ Flow Dataź° ķģķė©°, ģ»źø°ė ģ“ė µź³ ė¹ģ©ģ“ ė§ģ“ ė¤ ģ ģģµėė¤.
Flow ė¤ķøģķ¬ ė° Detection ė¤ķøģķ¬ė„¼ ź°ź° ėŖØėøė” ė§ėė ź²ģ ģė” ė¤ė„ø ģģ¤ ķØģ, ė¤ķøģķ¬ė§ė¤ ė¤ė„ø Training ģ ģ°Ø ė±ź³¼ ź°ģ ģ“ė ¤ģ“ ģģ ģ ģė°ķ ģ ģģµėė¤.
2. Motivation
Related work
2.1 ģ“미ģ§ė„¼ ģ“ģ©ķ Object Detection
ģ“미ģ§ė„¼ ģ“ģ©ķ ź°ģ²“ ź°ģ§ė ģ£¼ė” ģ¬ģøµ CNNģ ķģ©ķģ¬ ź°ė°ėģģµėė¤.
ģµģ“ģ ģ¬ģøµ CNN ź°ģ²“ ź°ģ§ ģģ¤ķ ģ¤ ķėė R-CNNģ¼ė” ėØ¼ģ ź°ģ²“넼 ģ¶ģ¶ķ ė¤ģ CNNģ ģ¬ģ©ķģ¬ ź° ź°ģ²“넼 ė¶ė„ķė 2ėØź³ ķģ“ķė¼ģøģ ķ¬ķØķģµėė¤. ź³ģ° ė¶ė“ģ ģ¤ģ“źø° ģķ“ ė¤ė„ø ģ°źµ¬ģģė ROI ķė§ģ ķģ©ķģ¬ ė³“ė¤ ķØģØģ ģø ķģµģ ģ ėķģµėė¤. ėķ, ź°ģ²“ ź°ģ§ ķģ“ķė¼ģøģ ķµķ©ķźø° ģķ“ Faster R-CNN ģ°źµ¬ģģė ģ 첓 ģģ¤ķ ģ“ End to End ķģµģ“ ź°ė„ķėė” ė¤ģķ ģģ ģ ģ ė°©ė²ģ ė¤ė„ø ė¤ķøģķ¬ė” ė첓ķģµėė¤.
ģ“ģ“ģ§ ė ė¤ė„ø ģ°źµ¬ģģė Faster R-CNNģ ģ±ė„ģ ģ½ź° ź°ģķģ§ė§ ģ¤ģź°ģ¼ė” ģ¤ķė ģ ģėė” ķė ģ°źµ¬ė„¼ ģ§ķ ķģµėė¤. ėķ ģµź·¼ ģ°źµ¬ģģ ģģ¹ ź°ģ§ ROI ķė§ģ ėģ ķģ¬ ģ“ģ ģ 물첓 ź°ģ§ ģģ¤ķ ģ ė¹ķ“ ź°ģ§ ķØģØģ±ģ ķ¬ź² ķ„ģģģ¼°ģµėė¤.
ė§ģ§ė§ģ¼ė” ģµź·¼ ė ź°ģ§ ė°©ė²ģø Mask R-CNNź³¼ Deformable CNNģ ź°ģ²“ ź°ģ§ 결과넼 ėģ± ź°ģ ķģ¼ė©° ź°ģ²“ ź°ģ§ ė¶ģ¼ģģģ ģµģ ģ ģ±ė„ģ 볓ģ¬ģ£¼ź³ ģģµėė¤. Mask-RCNNģ ź° ź“ģ¬ ģģģ ėķ ė§ģ¤ķ¬ė„¼ ģģø”ķė ģ¶ź° ė¶źø°ė„¼ ģ¬ģ©ķė ė°ė©“ Deformable CNNģ ė³ķ ź°ė„ķ 컨볼루ģ ģ ģ¬ģ©ķģ¬ ė¤ķøģķ¬ź° ģ ė „ģ ėķ ģģ© ķė넼 ģ°Øė³ģ ģ¼ė” ģ”°ģ ķź³ ź°ģ²“ģ ė³ķģ ė³“ė¤ ź°ė „ķź² ėŖØėøė§ķ ģ ģģµėė¤.

2.2 ė¹ėģ¤ė„¼ ģ“ģ©ķ Object Detection
ImageNet VID ģ±ė¦°ģ§ź° ėģ ė ėź¹ģ§ ė¹ėģ¤ ź°ģ²“ ź°ģ§ģ ėķ ėź·ėŖØ 벤ģ¹ė§ķ¬ź° ģģģµėė¤. ė°ė¼ģ STSNź³¼ ė¹źµķ ģ ģė ģ“ģ ģ°źµ¬ė ź±°ģ ģģģµėė¤.
T-CNN[1, 2]ģ 먼ģ Optical Flowģ ģģø”ķ ė¤ģ ķė¦ģ ė°ė¼ ģ“ėÆøģ§ ė 벨 ģģø”ģ ģ ķķź³ ė§ģ§ė§ģ¼ė” ģ¶ģ ģź³ 리ģ¦ģ ģ¬ģ©ķģ¬ ģź°ģ ģ¼ė” ģ¼ź“ė ėģ ģ 뢰ė ķģ§ė„¼ ģ ķķė ź²ź³¼ ź“ė Øė ė¹ėģ¤ ź°ģ²“ ķģ§ ķģ“ķė¼ģøģ ģ¬ģ©ķ©ėė¤.
Seq-NMS[3]ė ģøģ ķ ķė ģģ ź±øģ³ ź²½ź³ ģģ ź°ģ§ ģ¤ģ²©ģģ ģź° ź·øėķ넼 구ģ±ķ ė¤ģ ėģ ķė”ź·øėė°ģ ģ¬ģ©ķģ¬ ģ 첓 ź°ģ§ ģ ģź° ź°ģ„ ėģ ź²½ź³ ģģ ģķģ¤ė„¼ ģ ķķ©ėė¤. Leeź° ģ ģķ ė°©ė²ģ ė¹ėģ¤ ź°ģ²“ ź°ģ§ ģģ ģ ė¤ģ¤ ź°ģ²“ ģ¶ģ 문ģ ė” ģ·Øźøķ©ėė¤.
ė§ģ§ė§ģ¼ė” Feichtenhoferź° ģ ģķ ė°©ė²[4]ģ ķģ§ ė° ģ¶ģ 문ģ 넼 ź³µėģ¼ė” ķ“ź²°ķ ė¤ģ Viterbi ģź³ 리ģ¦ģ ģ ģ©ķģ¬ ģź°ģ ė°ė¼ ķģ§ė„¼ ģ°ź²°ķė ConvNet ģķ¤ķ ģ²ė„¼ ģ ģķ©ėė¤.
ģ°ė¦¬ ģģ ź³¼ ź°ģ„ ģ ģ¬ķ ģ ź·¼ ė°©ģģ Zhu[5]ģ ģ°źµ¬ģ ėė¤. Zhuģ ģ°źµ¬ģģė Optical Flow넼 ź³µėģ¼ė” ģ¶ģ ķź³ ė¹ėģ¤ģģ ė¬¼ģ²“ė ź°ģ§ķė End to End learning ė¤ķøģķ¬ė„¼ ģ ģķģµėė¤. ģ“ė ģģø”ė Optical Flowģ ģ¬ģ©ķģ¬ ģøģ ķė ģģ źø°ė„ģ ģ ė ¬ķØģ¼ė”ģØ ģķė©ėė¤. ģ§ź³ė źø°ė„ģ ķģ§ ė¤ķøģķ¬ģ ėķ ģ ė „ģ¼ė” ģ ź³µė©ėė¤.
Idea
ė³ø ė ¼ė¬øģģė ź³µź°ź³¼ ģź°ģ ź±øģ³ ė³ķ ź°ė„ķ 컨볼루ģ ģ ģ¬ģ©ķģ¬ ė¹ėģ¤ģģ 물첓 ź°ģ§ė„¼ ģķ ģź° ģ 볓넼 ķģ©ķė ź°ėØķģ§ė§ ķØź³¼ģ ģø STSN(Spatiotemporal Sampling Network)ģ ģź°ķ©ėė¤. STSNģ 주ģ“ģ§ ė¹ėģ¤ ķė ģģģ ź°ģ²“ ź°ģ§ ģ ķėź° ģµėķėėė” ģ£¼ė³ ė¹ėģ¤ ķė ģģģ ģ ģ©ķ ķ¹ģ§ģ ģ ź³µź°ģ ģ¼ė” ģķė§ķė ė°©ė²ģ ķģµķ©ėė¤. ģ“넼 ģķ“ ģ°ė¦¬ė bounding boxė” ė ģ“ėøģ“ ģ§ģ ė ėź·ėŖØ ė¹ėģ¤ ķė ģ ģøķøģ ėķ“ STSN End to End learningģ ģ¤ģķ©ėė¤. ģ“넼 ķµķ“ ė³µģ”ķ Flow ė¤ķøģķ¬ ģ¤ź³ė ėėģ Flow ė°ģ“ķ°ģ ėķ Training ģģ“ ImageNet VID ė°ģ“ķ° ģøķøė” ė¹źµķģ ė ģµģ źø°ģ ģ ė¹ķ“ ė ėģ ģ ķėė” ģ“ģ“ģ§ė¤ė ź²ģ 볓ģģµėė¤.
STSNģ Zhuź° ģ ģķ ė°©ė²ź³¼ ź°ģ Optical Flow CNNģ ģ¬ģ©ķė ė°©ė²ė³“ė¤ ė¤ģź³¼ ź°ģ“ ģ 리ķ©ėė¤.
ģ¬ģ Trainingė Optical Flow CNNģ“ ķģ ģė”ģ“ ė°ģ“ķ° ģøķøė” ģ¼ė°ķėė ź²ģ ģėėÆė” ė¹ėģ¤ ź°ģ²“ ź°ģ§ ģ±ė„ģ ė°©ķ“ķ ģ ģģµėė¤. ģ“ģ ė°ķ“ STSNģ ķģµ ź°ė„ķ ģź³µź° ģķė§ ėŖØėģ ź°ģ§ź³ ģģ“ ė¬¼ģ²“ ź°ģ§ ė ģ“ėøģ 구ė³ķģ¬ ķģµķėÆė” ģ“ ė¬øģ 넼 ź²Ŗģ§ ģģµėė¤.
STSNģ ė¹ėģ¤ ź°ģ²“ ź°ģ§ė„¼ ģķ“ ķėģ ģ ź²½ė§ģ¼ė” ģ²ė¦¬ķė End to End Learningģ ķ ģ ģģµėė¤. ģ“ģ ė¹ķ“ Optical Flowģ ģ씓ķė ė°©ė²ģ Optical Flow CNNģ Trainingķźø° ģķ“ ģ¶ź° ėØź³ź° ķģķėÆė” Training ģ ģ°Øź° ė ė³µģ”ķź³ źøøģ“ģ§ėė¤.
3. Method
STSNģģ ė¹ėģ¤ģģ 물첓넼 ź°ģ§ķźø° ģķ“ ģź° ģ 볓넼 ķµķ©ķė ė¤ķøģķ¬ ģķ¤ķ ģ²ź° ģ¤ź³ ėģģµėė¤. ģ“ ėŖØėøģģė ė¹ėģ¤ źø°ģ¤ ģź° tģģģ źø°ģ¤ ķė ģ $I_t$ģģ ģøź·¼ ķė ģ $I_{t+k}$ģ ź°ģ²“ ģ 볓넼 ź°ģ§ģ ķģ©ķØģ¼ė”ģØ ė ķØģØģ ģ¼ė” ź°ģ²“넼 ķģ§ķ ģ ģėė” ķģģµėė¤.
그림 1ź³¼ ź°ģ“ ģ“미ģ§ģ ė¹ģ ģģ ģø ķ¬ģ¦ģ ź°ģ²“ź° ķ¬ķØėģ“ ģź±°ė Occlusionģ“ ģė ź²½ģ°, ķ“ė¹ ģ“ėÆøģ§ ķė ģź³¼ ģź°ģģ¼ė” ģøģ ķ“ģė ķė ģģ ė¹źµģ ėŖ ķķź² 볓ģ“ė ėģ¼ķ ź°ģ²“ź° ė¹źµģ ķģ¤ģ ģø ķ¬ģ¦ė” ķ¬ķØėģ“ ģė¤ė©“, ź°ģ²“넼 ė ģ ź°ģ§ķ ģ ģėė” ź°ź¹ģ“ ķė ģģ ģ 볓넼 ķģ©ķ ģ ģģµėė¤. ė³ø ė ¼ė¬øģģė ź°ģ²“ ź°ģ§ė„¼ ķ„ģģķ¤źø° ģķ“ Kź°ģ ģ ķ ķė ģź³¼ Kź°ģ ķģ ķė ģģ ģ°øģ”° ķ ģ ģė 2K ģ§ģ ķė ģģ ģ¬ģ©ķ©ėė¤.

STSN ė¤ķøģķ¬ ģķ¤ķ ģ²ģ ķė”ģøģ± ėØź³ė ķ¬ź² 4ėØź³ė” ģģ½ķ ģ ģģµėė¤.
Backbone Architecture. 백본 컨볼루ģ ė¤ķøģķ¬ė ź° ė¹ėģ¤ ķė ģģ ėķ ź°ģ²“ ģģ¤ źø°ė„ģ ź°ė³ģ ģ¼ė” ź³ģ°ķ©ėė¤.
Spatiotemporal Feature Sampling. ģź³µź° ģķė§ ė©ģ»¤ėģ¦ģ 주ģ“ģ§ ė¹ėģ¤ģģ ģź° ģ 볓넼 매ėė½ź² ķµķ©ķė ģķ ģ ķ©ėė¤. ģ“ ģķė§ ė©ģ»¤ėģ¦ģ Predicted Offsets, Supporting Tensor넼 ģ ė „ģ¼ė” ģ¬ģ©ķź³ ģė” ģķė§ė ķ¼ģ³ ķ ģ넼 ģ¶ė „ķė ė³ķ ź°ė„ķ 4ź°ģ 컨볼루ģ ė ģ“ģ“넼 ģ¬ģ©ķģ¬ źµ¬ķė©ėė¤. ģģøķ ģ¤ėŖ ģ ź·øė¦¼ 2ģ ėģ ģģµėė¤. (그림 2ģė 2ź°ė§ ķģėØ)
Feature Aggregation. ź° ė¹ėģ¤ ķė ģģģ ģķė§ė ķ¹ģ§ģ ķ½ģ ė¹ ź°ģ¤ģ¹ ķ©ģ°ģ ģ¬ģ©ķģ¬ ģ°øģ”° ķė ģģ ėķ ėØģ¼ ķ¹ģ§ ķ ģė” ģź°ģ ģ¼ė” ģ§ź³ė©ėė¤.
**Object Detection.**ķ¹ģ§ ķ ģė 주ģ“ģ§ ģ°øģ”° ķė ģģ ėķ ģµģ¢ ź°ģ²“ ķģ§ ź²°ź³¼ė„¼ ģģ±ķźø° ģķ“ ķģ§ ė¤ķøģķ¬ģ ėķ ģ ė „ģ¼ė” ģ ź³µė©ėė¤.
ģ°ė¦¬ģ Object Detection ģ ģķ ķė ģģķ¬ė ź°ė ģ ģ¼ė” 구ė³ėė ģ“ė¬ķ 4ėØź³ė„¼ ėØģ¼ ģķ¤ķ ģ²ė” ķµķ©ķģ¬ End to End learningģ ģ ź³µķ©ėė¤.
3.1 Implementation Details
ģķ¤ķ ģ³ źµ¬ķģ ģķ“ MXNet ė¼ģ“ėøė¬ė¦¬ė„¼ ģ¬ģ©ķģµėė¤. ģėģģė STSN ģķ¤ķ ģ², Training ė° ģ¶ė” ģ ģ°Øģ ź“ė Øė ģøė¶ ģ 볓넼 ģ ź³µķ©ėė¤.
Architecture. 백본 ė¤ķøģķ¬ģ ź²½ģ° ResNet-101 ģķ¤ķ ģ²ė„¼ źø°ė°ģ¼ė” ķė Deformable CNNģ ģ±ķķģµėė¤. ģź³µź° ģķė§ ėøė”ģ ź°ź° 1024ź°ģ ģ¶ė „ ģ±ėģ ź°ģ§ 4ź°ģ 3 Ć 3 ė³ķ ź°ė„ķ 컨볼루ģ ė ģ“ģ“ė” źµ¬ģ±ė©ėė¤. ėķ (x, y) ģ¤ķģ ģ ģģø”ķė 4ź°ģ 3x3 컨볼루ģ ė ģ“ģ“ė ģģµėė¤. ķ¹ģ± ģ§ź³ ź°ģ¤ģ¹ė„¼ ģģø”ķė ģėøė¤ķøģķ¬ S(x)넼 구ķķźø° ģķ“ ź°ź° 512, 512 ė° 2048ź°ģ ģ¶ė „ ģ±ėģ“ ģė 1 Ć 1, 3 Ć 3 ė° 1 Ć 1 컨볼루ģ ė ģ“ģ“ ģķģ¤ė„¼ ģ¬ģ©ķ©ėė¤. Detection ė¤ķøģķ¬ė ė³ķ ź°ė„ķ R-FCN ģ¤ź³ė„¼ źø°ė°ģ¼ė” 구ķėė©°, 7 Ć 7 그룹ģ¼ė” ė³ķ ź°ė„ķ ģģ¹ ź°ģ§ ROI ķė§ģ ģ¬ģ©ķ©ėė¤.
Training. STSN ėŖØėøģ 백본 ė¤ķøģķ¬ė” ResNet-101 ģķ¤ķ ģ²ė„¼ źø°ė°ģ¼ė” ķė Deformable CNN ėŖØėøģ ģ¬ģ©ķģźø° ė문ģ ģģ ķ 미ė¶ė ģ ģģ¼ėÆė” End to End learningģ“ ź°ė„ķ©ėė¤. Trainingģ ģķ“ źø°ģ¤ ķė ģ ģ“ģ ģ ķėģ ģ§ģ ķė ģź³¼ ģ°øģ”° ķė ģ ģ“ķģ ķėģ ģ§ģ ķė ģģ 묓ģģė” ģķė§ķ©ėė¤. ģ°ė¦¬ė Trainingģģ ė ė§ģ ģ§ģ ķė ģģ ģ¬ģ©ķė¤ź³ ķ“ģ ė ėģ ģ ķėė” ģ“ģ“ģ§ģ§ ģėė¤ė ź²ģ ź“ģ°°ķģµėė¤. ėėØøģ§ Training ģģė ė ėØź³ė” ėŖØėøģ Trainingķ©ėė¤. 먼ģ Imagenet VID ė°ģ“ķ° ģøķøģ ź²¹ģ¹ė 30ź° ź°ģ²“ ķ“ėģ¤ģ 주ģģ ģ¬ģ©ķģ¬ Imagenet DET ė°ģ“ķ° ģøķøģ ėķ ģ 첓 ėŖØėøģ ģ¬ģ ķģµķ©ėė¤. Imagenet DET ė°ģ“ķ° ģøķøģė ģ“미ģ§ė§ ķ¬ķØėģ“ ģģ¼ėÆė” ģ“ ź²½ģ° ģ미 ģė ģ§ģ ķė ģģ ģķė§ķ ģ ģģµėė¤. ė°ė¼ģ ģ“미ģ§ģ ź²½ģ° ģ°øģ”° ķė ģģ ģ§ģ ķė ģģ¼ė” ģ¬ģ©ķ©ėė¤. ź·ø ķ ģ 첓 ėŖØėøģ 4ź°ģ Tesla K40 GPUģģ 120,000ė² ė°ė³µ ķģµėė©° ź° GPUė ėØģ¼ 미ė ė°°ģ¹ė„¼ 볓ģ ķ©ėė¤. ķģµė„ ģ ģ²ģ 80K ė° ė§ģ§ė§ 40K ė°ė³µģ ėķ“ ź°ź° 0.001 ė° 0.0001ė” ģ¤ģ ė©ėė¤. ź·øė° ė¤ģ ģ²ģ 40K ė° ė§ģ§ė§ 20K ė°ė³µģ ėķ“ ź°ź° 0.001 ė° 0.0001ģ ķģµė„ ė” 60K ė°ė³µģ ėķ“ Imagenet VID ė°ģ“ķ° ģøķøģ ģ 첓 ėŖØėøģ ėÆøģø ģ”°ģ ķ©ėė¤. Trainingģ ė ė²ģ§ø ėØź³ģģ ģ°ė¦¬ė ģ°øģ”° ķė ģģ ķ¹ģ ģ“ģ ė“ģģ ģ§ģ ķė ģģ 묓ģģė” ģķė§ķ©ėė¤
Inference. ģ¶ė” ķė ėģ T = 27ģ ģ¬ģ©ķ©ėė¤. ģ¦, ģ°øģ”° ķė ģ ģ ķģ K = 13ź°ģ ģ§ģ ķė ģģ ź³ ė ¤ķ©ėė¤. GPU ė©ėŖØė¦¬ 문ģ 넼 ķ¼ķźø° ģķ“ ėØ¼ģ ź° ģ“미ģ§ģ 백본 ė¤ķøģķ¬ģģ źø°ė„ģ ź°ė³ģ ģ¼ė” ģ¶ģ¶ķ ė¤ģ ģ“ė¬ķ źø°ė„ģ ė©ėŖØė¦¬ģ ģŗģķ©ėė¤. ź·øė° ė¤ģ ģ“ ėŖØė źø°ė„ģ ģź³µź° ģķė§ ėøė”ģ ģ ė „ķ©ėė¤. ė§ģ§ė§ģ¼ė” ģź³ź°ģ“ 0.3ģø ķģ¤ NMS넼 ģ ģ©ķģ¬ ķģ§ė„¼ ģøė¶ķķ©ėė¤. ė¹ėģ¤ģ 첫 ė²ģ§ø ė° ė§ģ§ė§ K = 13ź° ķė ģģ ģ²ė¦¬ķźø° ģķ“ ė¹ėģ¤ ģģź³¼ ėģ ėģ“ ģøģ ķė ģģ ģķė§ķ“ģ¼ ķė ė ź°ģ§ ź²½ź³ ź²½ģ°ė„¼ ģ²ė¦¬ķźø° ģķ“ ė¹ėģ¤ģ ģģģ 첫 ė²ģ§ø ķė ģģ K ė³µģ¬ė³øģ¼ė” ģ±ģėė¤.
4. Experiment & Result
Experimental setup
ģ¤ķģė 3,862 ė° 555ź°ģ źµģ” ė° ķ ģ¤ķø ė¹ėģ¤ ķ“ė¦½ģ“ ģė ImageNet VID ė°ģ“ķ° ģøķøė„¼ ź°ģ§ź³ ė¹ėģ¤ ź°ģ²“ ź°ģ§ģ ėķ ģ±ė„ģ ķź°ķģģµėė¤. ź° ė¹ėģ¤ģė Bounding Boxź° ķģėė©°, ź° ė¹ėģ¤ģ ķė ģģ 25 - 30fpsė” ģ¶ģ¶ė©ėė¤. ė°ģ“ķ° ģøķøģė ImageNet DET ė°ģ“ķ° ģøķøģ ģė 200ź° ė²ģ£¼ģ ķģ ģ§ķ©ģø 30ź° ź°ģ²“ ė²ģ£¼ź° ķ¬ķØėģ“ ģģµėė¤.
Result
Quantitative Results
STSNģ ķØź³¼ė„¼ ķź°ķźø° ģķ“ ģ°ė¦¬ė ė ź°ģ§ ģµģ ė°©ė²ģø FGFAģ D&Tģ ģ±ė„ ė¹źµķģģµėė¤. ķØź³¼ģ ģø ė¹źµė„¼ ģķ“ ź° ģķ¤ķ ģ²ģ ģ°øģ”° ķė ģė§ ģ¬ģ©ķģ¬ ģģø”ķė ėŖØėø(SSN)ź³¼ ģź³µź° ģķ ė©ģ»¤ėģ¦ģ ģ ģ©ķź³ , ė¹ėģ¤ ź°ģ²“ ź°ģ§ ė¹źµė„¼ ģķ“ ģź°ģ ķģ²ė¦¬ź° ģ¶ė „ģ ģ ģ©ėģģµėė¤. ķ 1ģģ D&T ė° STSNģ CNN ģ¶ė „ģ ģ¬ģ©ķ ź²½ģ°ė„¼ ėķė“ė ė°ė©“ D&T+ ė° STSN+ė ģź°ģ ķģ²ė¦¬(Seq NMS, object-tube linking ė±)넼 CNN ģ¶ė „ģ ģ ģ©ķ ź²½ģ°ė„¼ ėķė ėė¤.
ź·øė¦¬ź³ ģ°ė¦¬ė ėŖ ź°ģ§ źø°ģ¤ģ ė°ė¼ ź° ė°©ė²ģ ķź°ķė ķ 1ģ ź²°ź³¼ė„¼ ģ ģ ķģģµėė¤.
ķ 1ģ 첫 ė²ģ§ø ķģė 주ģ“ģ§ ė°©ė²ģ“ ė³ėģ ķė¦ ė¤ķøģķ¬ė„¼ Training/Prediction ķģ“ķė¼ģøģ ķµķ©ķ“ģ¼ ķėģ§ ģ¬ė¶ė„¼ ėģ“ķ©ėė¤. ģ“ģģ ģ¼ė”ė Optical Flow ģģø”ģ ģķ“ ė§¤ģ° ė³µģ”ķ ķė¦ ė¤ķøģķ¬ ģķ¤ķ ģ²ė„¼ ģ¤ź³ķ“ģ¼ ķźø° ė문ģ ģ“ ėØź³ė„¼ ģ ź±°ķė ź²ģ“ ģ 리ķ©ėė¤.
ģøė¶ Optical Flow ė°ģ“ķ°ģ ėķ Pre-trainingģ“ ķģķģ§ ģ¬ė¶ė ėģ“ķ©ėė¤. ģ“ė ģ 첓 Training ķģ“ķė¼ģøģ ė ė§ģ ģ°ģ°ģ ķėė” ė§ėėė¤.
주ģ“ģ§ ė°©ė²ģ“ ģøė¶ ģź° ģ¬ķ ģ²ė¦¬ ėØź³ė„¼ ģ¬ģ©ķėģ§ ģ¬ė¶ė„¼ ėģ“ķ©ėė¤. ģ“ė¬ķ ėØź³ė ģ¼ė°ģ ģ¼ė” Training/Prediction ķģ“ķė¼ģøģ ė ė³µģ”ķź² ė§ė¤źø° ė문ģ ģ ź±°ķė ź²ģ“ ģ 리ķ©ėė¤.
IoU(Intersection Over Union) ģź³ź° 0.5ģģ ķģ¤ mAP(ķź· ķź· ģ ė°ė) ė©ķøė¦ģ ė°ė¼ ź° ė°©ė²ģ ķź°ķ©ėė¤.

ķ 1ģ ź²°ź³¼ė„¼ ė°ķģ¼ė” ė¤ģź³¼ ź°ģ ź²°ė” ģ ė“릓 ģ ģģµėė¤.
STSNģ“ ģµģ FGFA ė°©ė²(78.9 ė 78.8)ė³“ė¤ ė ėģ ģ ėģ ź²°ź³¼ė„¼ 볓ģģµėė¤. FGFAģ ė¹źµķģ¬ ģ ķė ķ„ģģ“ ģģ¹ģ ģ¼ė” ķ¬ź² ėģ§ė ģģ¼ė, FGFAģ ė¬ė¦¬ STSNģ“ ģ§ģ ģ ģø Optical Flow Supervision ģģ“ ģź°ģ ėģģ ķģµķģ¬ FGFA넼 ė„ź°ķģ ģ ķģøķģµėė¤. ģ“ė¬ķ ź²°ź³¼ė ė¹ėģ¤ Object Detectionģģģ End to End learningģ ģ“ģ ģ 볓ģ¬ģ¤ėė¤.
STSNģ D&Tģ ź²½ģ°ģė ģź°ģ ķģ²ė¦¬(ģ: Seq-NMS, object-tube linking ė±)ź° ģ¬ģ©ėģ§ ģė ģ¤ģ ģģ STSNģ“ D&T źø°ģ¤ģ ė³“ė¤ ģė¹ķ ģ±ė„ģ ė°ķķØģ 볓ģ¬ģ¤ėė¤. (78.9 ė 75.8). ģ“ė¬ķ ź²°ź³¼ė STSNģ“ ź°ė „ķ ģź³µź° źø°ė„ģ ķģµķ ģ ģź³ ģź° 경과ģ ė°ė¼ ź²½ź³ ģģ ź°ģ§ė„¼ ģ°ź²°ķė ģź°ģ ķģ²ė¦¬ ģź³ ė¦¬ģ¦ ģģ“ė ź²¬ź³ ķ ė¹ėģ¤ ź°ģ²“ ź°ģ§ 결과넼 ģģ±ķ ģ ģģģ ėķė ėė¤.
ėķ ģź°ģ ķģ²ė¦¬ ģź³ ė¦¬ģ¦ Seq-NMS 넼 ķµķ©ķė©“ STSNģ ź²°ź³¼ź° ėģ± ķ„ģėØģ 볓ģ¬ģ¤ėė¤. ģ“ė¬ķ ė°©ģģ ķµķ“ ģ ģ¬ķ Viterbi źø°ė° ģģ ķģ²ė¦¬ ė°©ģģ ģ¬ģ©ķė D&T+넼 ė„ź°ķ ģ ģģµėė¤. (80.4 ė 79.8)
Ablation Studies

Optimal Number of Supporting Frames. 그림 3ģ ģ¼ģŖ½ ź·øėķė ģ§ģ ķė ģ ģź° ė¹ėģ¤ ź°ģ²“ ź°ģ§ ģ ķėģ ģ“ė¤ ģķ„ģ 미ģ¹ėģ§ ė³“ģ¬ģ¤ėė¤. ģ§ģ ķė ģģ ģ¶ź°ķė©“ ģ±ė„ģ“ ź³ģ ķ„ģėź³ T = 27ģģ ģ 첓ė©ėė¤.
Increasing the Temporal Stride. ģ§ģ ķė ģģ ģķė§ķė ģź° 볓ķ kź° STSNģ ģ±ė„ģ ģ“ė¤ ģķ„ģ 미ģ¹ėģ§ ģ”°ģ¬ ķģģµėė¤. ģ°ė¦¬ė k = 2 ė° k = 4ģ ģź°ģ 볓ķģ“ ź°ź° 79.0 ė° 77.9ģ mAP ģ ģ넼 ģ°ģ¶ķė ź²ģ ķģøķģģµėė¤. ė°ė¼ģ k = 2ģģė ģėģ 78.9mAP ģ ģė³“ė¤ ģ½ź° ķ„ģė ź²°ź³¼ė„¼ 볓ģģµėė¤. ź·øė¬ė k넼 ė ķ° ź°ģ¼ė” ģ¦ź°ģķ¤ė©“ ģ ķėź° ź°ģķė ź²½ķ„ģ 볓ģģµėė¤.
Feature Aggregation Weight Analysis. ź° ģ§ģ§ ķė ģģ“ ģµģ¢ 물첓 ź°ģ§ģ ģ¼ė§ė źø°ģ¬ķėģ§ ė¶ģķźø° ģķ“ ė¤ģķ k ź°ģ ėķ ķź· ė¬“ź² ķ¬źø° $w_{t,t+k}(p)$넼 ģź°ķķģģµėė¤. ģ“ė ź·øė¦¼ 3ģ ģ¤ė„øģŖ½ ź·øėķģ ėģ ģģµėė¤. ģ“ ź²½ģ° ź°ģ¤ģ¹ ķ¬źø°ė ź°ģ²“ģ ģ¤ģ¬ģ ģė ģ pģ ķ“ė¹ķ©ėė¤. ģ“넼 ķµķ“ ģµģ¢ ź°ģ²“ ź°ģ§ ģģø”ģ ź°ģ„ ķ° ģķ„ģ źø°ģ¤ ķė ģ(k = ā1, 0, 1)ģ ź°ź¹ģ“ ģ§ģ ķė ģģģ ė¹ė”Æėė¤ė ź²°ė” ģ ė“릓 ģ ģģµėė¤. ź·øė¬ė ģ°øģ”° ķė ģģģ ė ė©ė¦¬ ėØģ“ģ ø ģė ģ§ģ ķė ģ(ģ: k = -9, 9)ģ”°ģ°Øė 0ģ“ ģė ź°ģ¤ģ¹ė„¼ ź°ģ§ė©° ģµģ¢ ź°ģ²“ ź°ģ§ ģģø”ģ ģė¹ķ ģķ„ģ ģ¤ėė¤.
Qualitative Results
STSNģ“ ģ£¼ģ“ģ§ ė¹ėģ¤ģ ģź° ģ 볓넼 ģ“ė»ź² ķģ©ķėģ§ ģ“ķ“ķźø° ģķ“ ź·øė¦¼ 4ģģ STSN ģķė§ ėøė”ģ ģķ“ ģģø”ė ķź· ģ¤ķģ ģ ģź°ķ ķģģµėė¤. ģ“ė¬ķ ģ¤ķģ ģ STSNģ“ ģ°øģ”° ķė ģģģ ź°ģ²“넼 ź°ģ§ķė ė° ģ¬ģ©ėģ“ģ¼ ķė ģ§ģ ķė ģģ ź°ģ²“ ģģ¤ ģ 볓넼 ź²°ģ ķė ė° ģ¬ģ©ė©ėė¤. ģ°øģ”° ķė ģģ ė ¹ģ ģ¬ź°ķģ ķ©ģ±ź³± ģ¶ė „ģ ź³ģ°ķė ¤ė ķ½ģ ģ ėķė ėė¤. ģ§ģ§ ķė ģģ 빨ź°ģ ģ¬ź°ķģ ķź· ģ¤ķģ ģ ėķė“ė©°, ģ“ė ģ§ģ§ ķė ģģģ ģķė§ķ“ģ¼ ķė ķ¹ģ§ģ ģ ź²°ģ ķė ė° ģ¬ģ©ė©ėė¤. ė øėģ ķģ“ķė źø°ģ¤ ģ¢ķź³ģ ģ§ģ§ ģ¢ķź³ ģ¬ģ“ģ 물첓ģ ģģ§ģģ ėķė ėė¤. ģ°øģ”° ķė ģź³¼ ģ§ģ ķė ģ ģ¬ģ“ģ ģėģ ģ¼ė” ķ° ģģ§ģģė ė¶źµ¬ķź³ STSNģ ģ ķķ ģ°ė¦¬ź° ģķė ź°ģ²“ ģ¤ģ¬ 주ė³ģ ģ§ģ ķė ģģģ ķ¹ģ§ģ ģķė§ķ©ėė¤. ģ“ė¬ķ ģź³µź° ģķė§ģ ķµķ“ ź°ģ²“ź° ģ°øģ”° ķė ģģģ ķė¦¬ź±°ė ź°ė ¤ģ§ ź²ģ²ė¼ 볓ģ“ėė¼ė ź°ģ²“넼 ź°ģ§ķ ģ ģģµėė¤.

ėķ ź·øė¦¼ 4ģ ź²°ź³¼ė„¼ źø°ė°ģ¼ė” ėŖ ģģ Optical Flow ź°ė ģģ“ė STSNģ“ ź°ģ²“ģ ģģ§ģģ ģ ķķź² ģŗ”ģ²ķė ė°©ė²ģ ķģµķė ź²ģ ź“ģ°°ķ ģ ģģµėė¤.

그림 5ģģė STSNģ ģ¬ģ©ķģ¬ ģ£¼ģ“ģ§ ė¹ėģ¤ģģ ź°ģ²“넼 ģ¶ģ ķė ėŖ ź°ģ§ ģ넼 볓ģ¬ģ¤ėė¤. 그림 5ģģ ģ°ė¦¬ė ź° ģķģ¤ģģ ģėģ ģ¼ė” ķ° ģģ§ģģė ė¶źµ¬ķź³ STSNģ“ ėŖØė ģ§ģ ķė ģģģ ź°ģ²“ 주ė³ģ ķ¹ģ§ģ ģ ķķź² ģķė§ķė¤ė ź²ģ ź“ģ°°ķģµėė¤.

그림 6ģģė ģ ģ SSN źø°ģ¤ģ ģ ź°ģ²“ ķģ§ģ ģ 첓 STSN ėŖØėøģ ź°ģ²“ ķģ§ė 볓ģ¬ģ¤ėė¤. ģ“ ėŖØė ź²½ģ°ģ ģź° ģ 볓넼 ķµķ©ķė©“ STSNģ“ ģ ģ źø°ģ¤ģ ģģ ė°ģķ ģ¤ģ넼 ģģ ķė ė° ėģģ“ ė©ėė¤. ģ넼 ė¤ģ“, 그림 6ģ ģø ė²ģ§ø ķģģ ģ ģ SSN źø°ģ¤ģ ģ ģ°øģ”° ķė ģģ ź°ģ²“넼 ģė” ģėŖ» ģ§ģ ķ©ėė¤. ģ“ė ėė§ė±ģ ėØøė¦¬ź° ź°ė ¤ģ ø ė°ģķ©ėė¤. ź·øė¬ė STSNģ ģ§ģ§ ķė ģģ ė³“ź³ ėė§ė± 몸첓ģ 머리 주ģ넼 ģķė§ķģ¬ ģ“ ģ¤ģ넼 ģģ ķ©ėė¤(그림 6ģ 3ķ, 1ģ“ ģ°øģ”°). Occlusion ė° Motion Blurģ ź²½ģ°ģė ģ ģ¬ķ ź²°ź³¼ź° ė°ģķ©ėė¤.
5. Conclusion
ė³ø ė ¼ė¬øģģė ė¹ėģ¤ ģ 볓넼 ģ“ģ©ķ“ Object Detection넼 ķė ģė”ģ“ ģķ¤ķ ģ²ģø STSN(Spatiotemporal Sampling Network)ģ ģ ģķģµėė¤. ė³ø ģ°źµ¬ź° źø°ģ¬ķė ģ¬ķģ ė¤ģź³¼ ź°ģµėė¤.
ź³µź°ź³¼ ģź°ģ ź±øģ³ ė³ķ ź°ė„ķ 컨볼루ģ 넼 ģ“ģ©ķ“ ėŖØėø ģ¤ź³ė„¼ ė ź°ėØķź² ķ ģ
Optical Flowģ ė°ė„ø Training ė°ģ“ķ°ź° ķģķģ§ ģģ ģ
기씓 ģ°źµ¬ģ ė¹ķ“ ė ėģ ė¹ėģ¤ ź°ģ²“ ź°ģ§ ģ±ė„ ķėķ ģ
ź²°ė” ģ ģ¼ė”, ė³ø ģ°źµ¬ ź²°ź³¼ė” ė¹ėģ¤ ģ 볓넼 ģ“ģ©ķ Object Detection ėŖØėøģ End to End Learningģ ė ģ½ź² ķ ģģź² ėģģµėė¤. ģ¶ķ ģ§ķė ģ°źµ¬ģģė ė ė³µģ”ķ ģź³µź° ģķė§ ėøė”ģ ģ¤ķķė ė“ģ©ģ“ ė“źøø ģģ ģ ėė¤.
ģ¤ėģ źµķ (Take home message)
ģ¼ė°ģ ģ¼ė” ė¹ėģ¤ ģ 볓넼 ģ“ģ©ķ“ Object Detectionģ ģ§ķķė ź²ģ ė§ģ ģ ģ½ ģ¬ķģ“ ģģ¼ė©°, ėŖØėøģ ģ¤ź³ķ ė Optical Flow넼 ķ“ģķ“ģ¼ ķė ė±ģ ė³µģ”ķ ėØź³ė„¼ ģźµ¬ķ©ėė¤.
ź³µź°ź³¼ ģź°ģ ź±øģ³ ė³ķ ź°ė„ķ 컨볼루ģ ģ ķģ©ķė©“ ģ ģ½ ģ¬ķģ ź·¹ė³µķė©“ģė End to End Learningģ ķ ģ ģė ė ėģ ģ±ė„ģ ėŖØėøģ ģ»ģ ģ ģģµėė¤.
Author / Reviewer information
Author
ķģ 민 (Han Jungmin)
Affiliation : Ph.D. student, Robotics Program, KAIST (Advisor: Dong-Soo Kwon)
Research Interest : Flexible Endoscopic Surgery Robot System, Surgical Navigation
Contact information
Personal E-mail : hanjungmin@kaist.ac.kr
Related Website Link
Telerobotics and Control Laboratory, KAIST : http://robot.kaist.ac.kr/
EasyEndo Surgical Inc. : https://www.easyendosurgical.com/
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Citation of this paper
Bertasius, Gedas, Lorenzo Torresani, and Jianbo Shi. "Object detection in video with spatiotemporal sampling networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
Official (unofficial) GitHub repository
None
Citation of related work
Kang, K., Li, H., Yan, J., Zeng, X., Yang, B., Xiao, T., Zhang, C., Wang, Z., Wang, R., Wang, X., Ouyang, W.: T-CNN: tubelets with convolutional neural networks for object detection from videos. IEEE TCSVT 2017 (2017)
Kang, K., Ouyang, W., Li, H., Wang, X.: Object detection from video tubelets with convolutional neural networks. CoRR abs/1604.04053 (2016)
Han, W., Khorrami, P., Paine, T.L., Ramachandran, P., Babaeizadeh, M., Shi, H., Li, J., Yan, S., Huang, T.S.: Seq-nms for video object detection. CoRR abs/1602.08465 (2016)
Feichtenhofer, C., Pinz, A., Zisserman, A.: Detect to track and track to detect. In: International Conference on Computer Vision (ICCV). (2017)
Zhu, X., Wang, Y., Dai, J., Yuan, L., Wei, Y.: Flow-guided feature aggregation for video object detection. In: International Conference on Computer Vision (ICCV). (2017)
Other useful materials
Presentation Video Clip: https://www.youtube.com/watch?v=EZg3LT1OSi4
Author Information (Gedas Bertasius) : https://scholar.google.co.kr/citations?hl=ko&user=8FWkjw8AAAAJ&view_op=list_works&sortby=pubdate
Last updated
Was this helpful?