STSN [Kor]
(Description) Gedas Bertasius et al. / Object Detection in Video with Spatiotemporal Sampling Networks / ECCV 2018 Poster
English version of this article is available.
1. Problem definition
λ³Έ λ Όλ¬Έμ μ°κ΅¬μμλ λΉλμ€λ₯Ό μ΄μ©ν 물체 κ°μ§ λ°©λ²μ λν΄μ λ€λ£Ήλλ€. μ΅κ·Ό λͺ λ λμ λ₯ 컨볼루μ λ€νΈμν¬λ μ΄λ―Έμ§μμ κ°μ²΄λ₯Ό κ°μ§νλ λΆμΌμμλ λ§μ λ°μ μ μ΄λ£¨μ΄ μμ΅λλ€. νμ§λ§ λΉλμ€λ₯Ό μ΄μ©ν λΆμΌμμλ λͺ¨μ λΈλ¬κ° λ°μνκ±°λ, λΉλμ€ μμμ ν¬μ»€μ€κ° λ§μ§ μκ±°λ, 물체μ νμμ λ³νμ΄ μκ±°λ, μ΄λκ°μ μν΄ κ°λ €μ§κ² λλ μν© λλ¬Έμ κ°μ²΄λ₯Ό κ°μ§νλ λ° λ§μ μ΄λ €μμ κ°μ§κ³ μμμ΅λλ€.

νμ§λ§ λΉλμ€ μ 보λ κΈ°λ³Έμ μΌλ‘ μ΄λ―Έμ§ μ 보μλ μλ λ§μ μ λ³΄κ° μκΈ° λλ¬Έμ μ΄λ―Έμ§μμ κ°μ²΄λ₯Ό κ°μ§νλ κ²λ³΄λ€ λ κ°λ ₯νκ² νμ©λ μ μμ΅λλ€. λΉλμ€ μ 보 λ΄ κ°μ²΄λ₯Ό κ°μ§νκΈ° μν΄μλ λΉλμ€μ ν¬ν¨λμ΄ μλ μκ°μ λ°λΌ λ³νλλ μ 보λ₯Ό ν¨κ³Όμ μΌλ‘ νμ©ν μ μλ λͺ¨λΈμ μ€κ³νλ κ²μ΄ μ€μν©λλ€.
μ΄μ μ°κ΅¬μμλ μκ°μ λ°λΌ μΌκ΄λ κ°μ²΄ νμ§λ₯Ό νλ λ¨κ³λ₯Ό λ§λ€κ³ λΉλμ€μμ μ΄λ¬ν μκ° μ 보λ₯Ό νμ©νλ λ°©λ²μ μ¬μ© νμμΌλ, μ΄λ¬ν λ°©λ²μ νλμ μ κ²½λ§μΌλ‘ μ²λ¦¬νλ End to End Learningμ΄ λΆκ°λ₯ νμ΅λλ€. μ΅κ·Ό μ°κ΅¬μμλ End to End Learningμ΄ κ°λ₯νλλ‘ flow-based aggregation λ€νΈμν¬λ₯Ό λμ νλλ°, μ΄ λ°©λ²μ Optical Flowμ νμ©νμ¬ μκ°μ λ°λ₯Έ λμ κ΄κ³λ₯Ό μ°Ύμ λ€μ μκ° λμ κ΄κ³μ κ±Έμ³ νΉμ§μ μ§κ³νμ¬ μΈμ νλ μμμμ κ°μ²΄ κ°μ§λ₯Ό κ°λ₯νκ² νμ§λ§ 물체 κ°μ§λ₯Ό μννλ κ² μΈμλ μμ§μμ μμΈ‘ν΄μΌ νλ€λ λ¨μ μ΄ μμ΅λλ€.
μ΄λ¬ν μ¬μ μ°κ΅¬λ€μ ν΅ν΄ λ°νμ§ λͺ¨λΈμ μ€κ³νλλ° μμ΄ λ§λ₯λ¨λ¦΄ μ μλ λΆλ¦¬ν μν©μ μ 리ν΄λ³΄λ©΄ λ€μκ³Ό κ°μ΅λλ€.
ν¨κ³Όμ μΈ λ€νΈμν¬ μν€ν μ²λ₯Ό μ€κ³νλ κ²μ΄ κ·Έλ κ² κ°λ¨νμ§ μμ΅λλ€.
λͺ¨λΈμ Trainingνλ λ° λ§μ μμ Flow Dataκ° νμνλ©°, μ»κΈ°λ μ΄λ ΅κ³ λΉμ©μ΄ λ§μ΄ λ€ μ μμ΅λλ€.
Flow λ€νΈμν¬ λ° Detection λ€νΈμν¬λ₯Ό κ°κ° λͺ¨λΈλ‘ λ§λλ κ²μ μλ‘ λ€λ₯Έ μμ€ ν¨μ, λ€νΈμν¬λ§λ€ λ€λ₯Έ Training μ μ°¨ λ±κ³Ό κ°μ μ΄λ €μ΄ μμ μ μλ°ν μ μμ΅λλ€.
2. Motivation
Related work
2.1 μ΄λ―Έμ§λ₯Ό μ΄μ©ν Object Detection
μ΄λ―Έμ§λ₯Ό μ΄μ©ν κ°μ²΄ κ°μ§λ μ£Όλ‘ μ¬μΈ΅ CNNμ νμ©νμ¬ κ°λ°λμμ΅λλ€.
μ΅μ΄μ μ¬μΈ΅ CNN κ°μ²΄ κ°μ§ μμ€ν μ€ νλλ R-CNNμΌλ‘ λ¨Όμ κ°μ²΄λ₯Ό μΆμΆν λ€μ CNNμ μ¬μ©νμ¬ κ° κ°μ²΄λ₯Ό λΆλ₯νλ 2λ¨κ³ νμ΄νλΌμΈμ ν¬ν¨νμ΅λλ€. κ³μ° λΆλ΄μ μ€μ΄κΈ° μν΄ λ€λ₯Έ μ°κ΅¬μμλ ROI νλ§μ νμ©νμ¬ λ³΄λ€ ν¨μ¨μ μΈ νμ΅μ μ λνμ΅λλ€. λν, κ°μ²΄ κ°μ§ νμ΄νλΌμΈμ ν΅ν©νκΈ° μν΄ Faster R-CNN μ°κ΅¬μμλ μ 체 μμ€ν μ΄ End to End νμ΅μ΄ κ°λ₯νλλ‘ λ€μν μμ μ μ λ°©λ²μ λ€λ₯Έ λ€νΈμν¬λ‘ λ체νμ΅λλ€.
μ΄μ΄μ§ λ λ€λ₯Έ μ°κ΅¬μμλ Faster R-CNNμ μ±λ₯μ μ½κ° κ°μνμ§λ§ μ€μκ°μΌλ‘ μ€νλ μ μλλ‘ νλ μ°κ΅¬λ₯Ό μ§ν νμ΅λλ€. λν μ΅κ·Ό μ°κ΅¬μμ μμΉ κ°μ§ ROI νλ§μ λμ νμ¬ μ΄μ μ 물체 κ°μ§ μμ€ν μ λΉν΄ κ°μ§ ν¨μ¨μ±μ ν¬κ² ν₯μμμΌ°μ΅λλ€.
λ§μ§λ§μΌλ‘ μ΅κ·Ό λ κ°μ§ λ°©λ²μΈ Mask R-CNNκ³Ό Deformable CNNμ κ°μ²΄ κ°μ§ κ²°κ³Όλ₯Ό λμ± κ°μ νμΌλ©° κ°μ²΄ κ°μ§ λΆμΌμμμ μ΅μ μ μ±λ₯μ 보μ¬μ£Όκ³ μμ΅λλ€. Mask-RCNNμ κ° κ΄μ¬ μμμ λν λ§μ€ν¬λ₯Ό μμΈ‘νλ μΆκ° λΆκΈ°λ₯Ό μ¬μ©νλ λ°λ©΄ Deformable CNNμ λ³ν κ°λ₯ν 컨볼루μ μ μ¬μ©νμ¬ λ€νΈμν¬κ° μ λ ₯μ λν μμ© νλλ₯Ό μ°¨λ³μ μΌλ‘ μ‘°μ νκ³ κ°μ²΄μ λ³νμ λ³΄λ€ κ°λ ₯νκ² λͺ¨λΈλ§ν μ μμ΅λλ€.

2.2 λΉλμ€λ₯Ό μ΄μ©ν Object Detection
ImageNet VID μ±λ¦°μ§κ° λμ λ λκΉμ§ λΉλμ€ κ°μ²΄ κ°μ§μ λν λκ·λͺ¨ λ²€μΉλ§ν¬κ° μμμ΅λλ€. λ°λΌμ STSNκ³Ό λΉκ΅ν μ μλ μ΄μ μ°κ΅¬λ κ±°μ μμμ΅λλ€.
T-CNN[1, 2]μ λ¨Όμ Optical Flowμ μμΈ‘ν λ€μ νλ¦μ λ°λΌ μ΄λ―Έμ§ λ 벨 μμΈ‘μ μ ννκ³ λ§μ§λ§μΌλ‘ μΆμ μκ³ λ¦¬μ¦μ μ¬μ©νμ¬ μκ°μ μΌλ‘ μΌκ΄λ λμ μ λ’°λ νμ§λ₯Ό μ ννλ κ²κ³Ό κ΄λ ¨λ λΉλμ€ κ°μ²΄ νμ§ νμ΄νλΌμΈμ μ¬μ©ν©λλ€.
Seq-NMS[3]λ μΈμ ν νλ μμ κ±Έμ³ κ²½κ³ μμ κ°μ§ μ€μ²©μμ μκ° κ·Έλνλ₯Ό ꡬμ±ν λ€μ λμ νλ‘κ·Έλλ°μ μ¬μ©νμ¬ μ 체 κ°μ§ μ μκ° κ°μ₯ λμ κ²½κ³ μμ μνμ€λ₯Ό μ νν©λλ€. Leeκ° μ μν λ°©λ²μ λΉλμ€ κ°μ²΄ κ°μ§ μμ μ λ€μ€ κ°μ²΄ μΆμ λ¬Έμ λ‘ μ·¨κΈν©λλ€.
λ§μ§λ§μΌλ‘ Feichtenhoferκ° μ μν λ°©λ²[4]μ νμ§ λ° μΆμ λ¬Έμ λ₯Ό 곡λμΌλ‘ ν΄κ²°ν λ€μ Viterbi μκ³ λ¦¬μ¦μ μ μ©νμ¬ μκ°μ λ°λΌ νμ§λ₯Ό μ°κ²°νλ ConvNet μν€ν μ²λ₯Ό μ μν©λλ€.
μ°λ¦¬ μμ κ³Ό κ°μ₯ μ μ¬ν μ κ·Ό λ°©μμ Zhu[5]μ μ°κ΅¬μ λλ€. Zhuμ μ°κ΅¬μμλ Optical Flowλ₯Ό 곡λμΌλ‘ μΆμ νκ³ λΉλμ€μμ 물체λ κ°μ§νλ End to End learning λ€νΈμν¬λ₯Ό μ μνμ΅λλ€. μ΄λ μμΈ‘λ Optical Flowμ μ¬μ©νμ¬ μΈμ νλ μμ κΈ°λ₯μ μ λ ¬ν¨μΌλ‘μ¨ μνλ©λλ€. μ§κ³λ κΈ°λ₯μ νμ§ λ€νΈμν¬μ λν μ λ ₯μΌλ‘ μ 곡λ©λλ€.
Idea
λ³Έ λ Όλ¬Έμμλ 곡κ°κ³Ό μκ°μ κ±Έμ³ λ³ν κ°λ₯ν 컨볼루μ μ μ¬μ©νμ¬ λΉλμ€μμ 물체 κ°μ§λ₯Ό μν μκ° μ 보λ₯Ό νμ©νλ κ°λ¨νμ§λ§ ν¨κ³Όμ μΈ STSN(Spatiotemporal Sampling Network)μ μκ°ν©λλ€. STSNμ μ£Όμ΄μ§ λΉλμ€ νλ μμμ κ°μ²΄ κ°μ§ μ νλκ° μ΅λνλλλ‘ μ£Όλ³ λΉλμ€ νλ μμμ μ μ©ν νΉμ§μ μ 곡κ°μ μΌλ‘ μνλ§νλ λ°©λ²μ νμ΅ν©λλ€. μ΄λ₯Ό μν΄ μ°λ¦¬λ bounding boxλ‘ λ μ΄λΈμ΄ μ§μ λ λκ·λͺ¨ λΉλμ€ νλ μ μΈνΈμ λν΄ STSN End to End learningμ μ€μν©λλ€. μ΄λ₯Ό ν΅ν΄ 볡μ‘ν Flow λ€νΈμν¬ μ€κ³λ λλμ Flow λ°μ΄ν°μ λν Training μμ΄ ImageNet VID λ°μ΄ν° μΈνΈλ‘ λΉκ΅νμ λ μ΅μ κΈ°μ μ λΉν΄ λ λμ μ νλλ‘ μ΄μ΄μ§λ€λ κ²μ 보μμ΅λλ€.
STSNμ Zhuκ° μ μν λ°©λ²κ³Ό κ°μ Optical Flow CNNμ μ¬μ©νλ λ°©λ²λ³΄λ€ λ€μκ³Ό κ°μ΄ μ 리ν©λλ€.
μ¬μ Trainingλ Optical Flow CNNμ΄ νμ μλ‘μ΄ λ°μ΄ν° μΈνΈλ‘ μΌλ°νλλ κ²μ μλλ―λ‘ λΉλμ€ κ°μ²΄ κ°μ§ μ±λ₯μ λ°©ν΄ν μ μμ΅λλ€. μ΄μ λ°ν΄ STSNμ νμ΅ κ°λ₯ν μκ³΅κ° μνλ§ λͺ¨λμ κ°μ§κ³ μμ΄ λ¬Όμ²΄ κ°μ§ λ μ΄λΈμ ꡬλ³νμ¬ νμ΅νλ―λ‘ μ΄ λ¬Έμ λ₯Ό κ²ͺμ§ μμ΅λλ€.
STSNμ λΉλμ€ κ°μ²΄ κ°μ§λ₯Ό μν΄ νλμ μ κ²½λ§μΌλ‘ μ²λ¦¬νλ End to End Learningμ ν μ μμ΅λλ€. μ΄μ λΉν΄ Optical Flowμ μμ‘΄νλ λ°©λ²μ Optical Flow CNNμ TrainingνκΈ° μν΄ μΆκ° λ¨κ³κ° νμνλ―λ‘ Training μ μ°¨κ° λ 볡μ‘νκ³ κΈΈμ΄μ§λλ€.
3. Method
STSNμμ λΉλμ€μμ 물체λ₯Ό κ°μ§νκΈ° μν΄ μκ° μ 보λ₯Ό ν΅ν©νλ λ€νΈμν¬ μν€ν μ²κ° μ€κ³ λμμ΅λλ€. μ΄ λͺ¨λΈμμλ λΉλμ€ κΈ°μ€ μκ° tμμμ κΈ°μ€ νλ μ $I_t$μμ μΈκ·Ό νλ μ $I_{t+k}$μ κ°μ²΄ μ 보λ₯Ό κ°μ§μ νμ©ν¨μΌλ‘μ¨ λ ν¨μ¨μ μΌλ‘ κ°μ²΄λ₯Ό νμ§ν μ μλλ‘ νμμ΅λλ€.
κ·Έλ¦Ό 1κ³Ό κ°μ΄ μ΄λ―Έμ§μ λΉμ μμ μΈ ν¬μ¦μ κ°μ²΄κ° ν¬ν¨λμ΄ μκ±°λ Occlusionμ΄ μλ κ²½μ°, ν΄λΉ μ΄λ―Έμ§ νλ μκ³Ό μκ°μμΌλ‘ μΈμ ν΄μλ νλ μμ λΉκ΅μ λͺ ννκ² λ³΄μ΄λ λμΌν κ°μ²΄κ° λΉκ΅μ νμ€μ μΈ ν¬μ¦λ‘ ν¬ν¨λμ΄ μλ€λ©΄, κ°μ²΄λ₯Ό λ μ κ°μ§ν μ μλλ‘ κ°κΉμ΄ νλ μμ μ 보λ₯Ό νμ©ν μ μμ΅λλ€. λ³Έ λ Όλ¬Έμμλ κ°μ²΄ κ°μ§λ₯Ό ν₯μμν€κΈ° μν΄ Kκ°μ μ ν νλ μκ³Ό Kκ°μ νμ νλ μμ μ°Έμ‘° ν μ μλ 2K μ§μ νλ μμ μ¬μ©ν©λλ€.

STSN λ€νΈμν¬ μν€ν μ²μ νλ‘μΈμ± λ¨κ³λ ν¬κ² 4λ¨κ³λ‘ μμ½ν μ μμ΅λλ€.
Backbone Architecture. λ°±λ³Έ 컨볼루μ λ€νΈμν¬λ κ° λΉλμ€ νλ μμ λν κ°μ²΄ μμ€ κΈ°λ₯μ κ°λ³μ μΌλ‘ κ³μ°ν©λλ€.
Spatiotemporal Feature Sampling. μκ³΅κ° μνλ§ λ©μ»€λμ¦μ μ£Όμ΄μ§ λΉλμ€μμ μκ° μ 보λ₯Ό λ§€λλ½κ² ν΅ν©νλ μν μ ν©λλ€. μ΄ μνλ§ λ©μ»€λμ¦μ Predicted Offsets, Supporting Tensorλ₯Ό μ λ ₯μΌλ‘ μ¬μ©νκ³ μλ‘ μνλ§λ νΌμ³ ν μλ₯Ό μΆλ ₯νλ λ³ν κ°λ₯ν 4κ°μ 컨볼루μ λ μ΄μ΄λ₯Ό μ¬μ©νμ¬ κ΅¬νλ©λλ€. μμΈν μ€λͺ μ κ·Έλ¦Ό 2μ λμ μμ΅λλ€. (κ·Έλ¦Ό 2μλ 2κ°λ§ νμλ¨)
Feature Aggregation. κ° λΉλμ€ νλ μμμ μνλ§λ νΉμ§μ ν½μ λΉ κ°μ€μΉ ν©μ°μ μ¬μ©νμ¬ μ°Έμ‘° νλ μμ λν λ¨μΌ νΉμ§ ν μλ‘ μκ°μ μΌλ‘ μ§κ³λ©λλ€.
**Object Detection.**νΉμ§ ν μλ μ£Όμ΄μ§ μ°Έμ‘° νλ μμ λν μ΅μ’ κ°μ²΄ νμ§ κ²°κ³Όλ₯Ό μμ±νκΈ° μν΄ νμ§ λ€νΈμν¬μ λν μ λ ₯μΌλ‘ μ 곡λ©λλ€.
μ°λ¦¬μ Object Detection μ μν νλ μμν¬λ κ°λ μ μΌλ‘ ꡬλ³λλ μ΄λ¬ν 4λ¨κ³λ₯Ό λ¨μΌ μν€ν μ²λ‘ ν΅ν©νμ¬ End to End learningμ μ 곡ν©λλ€.
3.1 Implementation Details
μν€ν μ³ κ΅¬νμ μν΄ MXNet λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ©νμ΅λλ€. μλμμλ STSN μν€ν μ², Training λ° μΆλ‘ μ μ°¨μ κ΄λ ¨λ μΈλΆ μ 보λ₯Ό μ 곡ν©λλ€.
Architecture. λ°±λ³Έ λ€νΈμν¬μ κ²½μ° ResNet-101 μν€ν μ²λ₯Ό κΈ°λ°μΌλ‘ νλ Deformable CNNμ μ±ννμ΅λλ€. μκ³΅κ° μνλ§ λΈλ‘μ κ°κ° 1024κ°μ μΆλ ₯ μ±λμ κ°μ§ 4κ°μ 3 Γ 3 λ³ν κ°λ₯ν 컨볼루μ λ μ΄μ΄λ‘ ꡬμ±λ©λλ€. λν (x, y) μ€νμ μ μμΈ‘νλ 4κ°μ 3x3 컨볼루μ λ μ΄μ΄λ μμ΅λλ€. νΉμ± μ§κ³ κ°μ€μΉλ₯Ό μμΈ‘νλ μλΈλ€νΈμν¬ S(x)λ₯Ό ꡬννκΈ° μν΄ κ°κ° 512, 512 λ° 2048κ°μ μΆλ ₯ μ±λμ΄ μλ 1 Γ 1, 3 Γ 3 λ° 1 Γ 1 컨볼루μ λ μ΄μ΄ μνμ€λ₯Ό μ¬μ©ν©λλ€. Detection λ€νΈμν¬λ λ³ν κ°λ₯ν R-FCN μ€κ³λ₯Ό κΈ°λ°μΌλ‘ ꡬνλλ©°, 7 Γ 7 κ·Έλ£ΉμΌλ‘ λ³ν κ°λ₯ν μμΉ κ°μ§ ROI νλ§μ μ¬μ©ν©λλ€.
Training. STSN λͺ¨λΈμ λ°±λ³Έ λ€νΈμν¬λ‘ ResNet-101 μν€ν μ²λ₯Ό κΈ°λ°μΌλ‘ νλ Deformable CNN λͺ¨λΈμ μ¬μ©νμκΈ° λλ¬Έμ μμ ν λ―ΈλΆλ μ μμΌλ―λ‘ End to End learningμ΄ κ°λ₯ν©λλ€. Trainingμ μν΄ κΈ°μ€ νλ μ μ΄μ μ νλμ μ§μ νλ μκ³Ό μ°Έμ‘° νλ μ μ΄νμ νλμ μ§μ νλ μμ 무μμλ‘ μνλ§ν©λλ€. μ°λ¦¬λ Trainingμμ λ λ§μ μ§μ νλ μμ μ¬μ©νλ€κ³ ν΄μ λ λμ μ νλλ‘ μ΄μ΄μ§μ§ μλλ€λ κ²μ κ΄μ°°νμ΅λλ€. λλ¨Έμ§ Training μμλ λ λ¨κ³λ‘ λͺ¨λΈμ Trainingν©λλ€. λ¨Όμ Imagenet VID λ°μ΄ν° μΈνΈμ κ²ΉμΉλ 30κ° κ°μ²΄ ν΄λμ€μ μ£Όμμ μ¬μ©νμ¬ Imagenet DET λ°μ΄ν° μΈνΈμ λν μ 체 λͺ¨λΈμ μ¬μ νμ΅ν©λλ€. Imagenet DET λ°μ΄ν° μΈνΈμλ μ΄λ―Έμ§λ§ ν¬ν¨λμ΄ μμΌλ―λ‘ μ΄ κ²½μ° μλ―Έ μλ μ§μ νλ μμ μνλ§ν μ μμ΅λλ€. λ°λΌμ μ΄λ―Έμ§μ κ²½μ° μ°Έμ‘° νλ μμ μ§μ νλ μμΌλ‘ μ¬μ©ν©λλ€. κ·Έ ν μ 체 λͺ¨λΈμ 4κ°μ Tesla K40 GPUμμ 120,000λ² λ°λ³΅ νμ΅λλ©° κ° GPUλ λ¨μΌ λ―Έλ λ°°μΉλ₯Ό 보μ ν©λλ€. νμ΅λ₯ μ μ²μ 80K λ° λ§μ§λ§ 40K λ°λ³΅μ λν΄ κ°κ° 0.001 λ° 0.0001λ‘ μ€μ λ©λλ€. κ·Έλ° λ€μ μ²μ 40K λ° λ§μ§λ§ 20K λ°λ³΅μ λν΄ κ°κ° 0.001 λ° 0.0001μ νμ΅λ₯ λ‘ 60K λ°λ³΅μ λν΄ Imagenet VID λ°μ΄ν° μΈνΈμ μ 체 λͺ¨λΈμ λ―ΈμΈ μ‘°μ ν©λλ€. Trainingμ λ λ²μ§Έ λ¨κ³μμ μ°λ¦¬λ μ°Έμ‘° νλ μμ νΉμ μ΄μ λ΄μμ μ§μ νλ μμ 무μμλ‘ μνλ§ν©λλ€
Inference. μΆλ‘ νλ λμ T = 27μ μ¬μ©ν©λλ€. μ¦, μ°Έμ‘° νλ μ μ νμ K = 13κ°μ μ§μ νλ μμ κ³ λ €ν©λλ€. GPU λ©λͺ¨λ¦¬ λ¬Έμ λ₯Ό νΌνκΈ° μν΄ λ¨Όμ κ° μ΄λ―Έμ§μ λ°±λ³Έ λ€νΈμν¬μμ κΈ°λ₯μ κ°λ³μ μΌλ‘ μΆμΆν λ€μ μ΄λ¬ν κΈ°λ₯μ λ©λͺ¨λ¦¬μ μΊμν©λλ€. κ·Έλ° λ€μ μ΄ λͺ¨λ κΈ°λ₯μ μκ³΅κ° μνλ§ λΈλ‘μ μ λ ₯ν©λλ€. λ§μ§λ§μΌλ‘ μκ³κ°μ΄ 0.3μΈ νμ€ NMSλ₯Ό μ μ©νμ¬ νμ§λ₯Ό μΈλΆνν©λλ€. λΉλμ€μ 첫 λ²μ§Έ λ° λ§μ§λ§ K = 13κ° νλ μμ μ²λ¦¬νκΈ° μν΄ λΉλμ€ μμκ³Ό λμ λμ΄ μΈμ νλ μμ μνλ§ν΄μΌ νλ λ κ°μ§ κ²½κ³ κ²½μ°λ₯Ό μ²λ¦¬νκΈ° μν΄ λΉλμ€μ μμμ 첫 λ²μ§Έ νλ μμ K 볡μ¬λ³ΈμΌλ‘ μ±μλλ€.
4. Experiment & Result
Experimental setup
μ€νμλ 3,862 λ° 555κ°μ κ΅μ‘ λ° ν μ€νΈ λΉλμ€ ν΄λ¦½μ΄ μλ ImageNet VID λ°μ΄ν° μΈνΈλ₯Ό κ°μ§κ³ λΉλμ€ κ°μ²΄ κ°μ§μ λν μ±λ₯μ νκ°νμμ΅λλ€. κ° λΉλμ€μλ Bounding Boxκ° νμλλ©°, κ° λΉλμ€μ νλ μμ 25 - 30fpsλ‘ μΆμΆλ©λλ€. λ°μ΄ν° μΈνΈμλ ImageNet DET λ°μ΄ν° μΈνΈμ μλ 200κ° λ²μ£Όμ νμ μ§ν©μΈ 30κ° κ°μ²΄ λ²μ£Όκ° ν¬ν¨λμ΄ μμ΅λλ€.
Result
Quantitative Results
STSNμ ν¨κ³Όλ₯Ό νκ°νκΈ° μν΄ μ°λ¦¬λ λ κ°μ§ μ΅μ λ°©λ²μΈ FGFAμ D&Tμ μ±λ₯ λΉκ΅νμμ΅λλ€. ν¨κ³Όμ μΈ λΉκ΅λ₯Ό μν΄ κ° μν€ν μ²μ μ°Έμ‘° νλ μλ§ μ¬μ©νμ¬ μμΈ‘νλ λͺ¨λΈ(SSN)κ³Ό μκ³΅κ° μν λ©μ»€λμ¦μ μ μ©νκ³ , λΉλμ€ κ°μ²΄ κ°μ§ λΉκ΅λ₯Ό μν΄ μκ°μ νμ²λ¦¬κ° μΆλ ₯μ μ μ©λμμ΅λλ€. ν 1μμ D&T λ° STSNμ CNN μΆλ ₯μ μ¬μ©ν κ²½μ°λ₯Ό λνλ΄λ λ°λ©΄ D&T+ λ° STSN+λ μκ°μ νμ²λ¦¬(Seq NMS, object-tube linking λ±)λ₯Ό CNN μΆλ ₯μ μ μ©ν κ²½μ°λ₯Ό λνλ λλ€.
κ·Έλ¦¬κ³ μ°λ¦¬λ λͺ κ°μ§ κΈ°μ€μ λ°λΌ κ° λ°©λ²μ νκ°νλ ν 1μ κ²°κ³Όλ₯Ό μ μ νμμ΅λλ€.
ν 1μ 첫 λ²μ§Έ νμλ μ£Όμ΄μ§ λ°©λ²μ΄ λ³λμ νλ¦ λ€νΈμν¬λ₯Ό Training/Prediction νμ΄νλΌμΈμ ν΅ν©ν΄μΌ νλμ§ μ¬λΆλ₯Ό λμ΄ν©λλ€. μ΄μμ μΌλ‘λ Optical Flow μμΈ‘μ μν΄ λ§€μ° λ³΅μ‘ν νλ¦ λ€νΈμν¬ μν€ν μ²λ₯Ό μ€κ³ν΄μΌ νκΈ° λλ¬Έμ μ΄ λ¨κ³λ₯Ό μ κ±°νλ κ²μ΄ μ 리ν©λλ€.
μΈλΆ Optical Flow λ°μ΄ν°μ λν Pre-trainingμ΄ νμνμ§ μ¬λΆλ λμ΄ν©λλ€. μ΄λ μ 체 Training νμ΄νλΌμΈμ λ λ§μ μ°μ°μ νλλ‘ λ§λλλ€.
μ£Όμ΄μ§ λ°©λ²μ΄ μΈλΆ μκ° μ¬ν μ²λ¦¬ λ¨κ³λ₯Ό μ¬μ©νλμ§ μ¬λΆλ₯Ό λμ΄ν©λλ€. μ΄λ¬ν λ¨κ³λ μΌλ°μ μΌλ‘ Training/Prediction νμ΄νλΌμΈμ λ 볡μ‘νκ² λ§λ€κΈ° λλ¬Έμ μ κ±°νλ κ²μ΄ μ 리ν©λλ€.
IoU(Intersection Over Union) μκ³κ° 0.5μμ νμ€ mAP(νκ· νκ· μ λ°λ) λ©νΈλ¦μ λ°λΌ κ° λ°©λ²μ νκ°ν©λλ€.

ν 1μ κ²°κ³Όλ₯Ό λ°νμΌλ‘ λ€μκ³Ό κ°μ κ²°λ‘ μ λ΄λ¦΄ μ μμ΅λλ€.
STSNμ΄ μ΅μ FGFA λ°©λ²(78.9 λ 78.8)λ³΄λ€ λ λμ μ λμ κ²°κ³Όλ₯Ό 보μμ΅λλ€. FGFAμ λΉκ΅νμ¬ μ νλ ν₯μμ΄ μμΉμ μΌλ‘ ν¬κ² λμ§λ μμΌλ, FGFAμ λ¬λ¦¬ STSNμ΄ μ§μ μ μΈ Optical Flow Supervision μμ΄ μκ°μ λμμ νμ΅νμ¬ FGFAλ₯Ό λ₯κ°νμ μ νμΈνμ΅λλ€. μ΄λ¬ν κ²°κ³Όλ λΉλμ€ Object Detectionμμμ End to End learningμ μ΄μ μ 보μ¬μ€λλ€.
STSNμ D&Tμ κ²½μ°μλ μκ°μ νμ²λ¦¬(μ: Seq-NMS, object-tube linking λ±)κ° μ¬μ©λμ§ μλ μ€μ μμ STSNμ΄ D&T κΈ°μ€μ λ³΄λ€ μλΉν μ±λ₯μ λ°νν¨μ 보μ¬μ€λλ€. (78.9 λ 75.8). μ΄λ¬ν κ²°κ³Όλ STSNμ΄ κ°λ ₯ν μκ³΅κ° κΈ°λ₯μ νμ΅ν μ μκ³ μκ° κ²½κ³Όμ λ°λΌ κ²½κ³ μμ κ°μ§λ₯Ό μ°κ²°νλ μκ°μ νμ²λ¦¬ μκ³ λ¦¬μ¦ μμ΄λ κ²¬κ³ ν λΉλμ€ κ°μ²΄ κ°μ§ κ²°κ³Όλ₯Ό μμ±ν μ μμμ λνλ λλ€.
λν μκ°μ νμ²λ¦¬ μκ³ λ¦¬μ¦ Seq-NMS λ₯Ό ν΅ν©νλ©΄ STSNμ κ²°κ³Όκ° λμ± ν₯μλ¨μ 보μ¬μ€λλ€. μ΄λ¬ν λ°©μμ ν΅ν΄ μ μ¬ν Viterbi κΈ°λ° μμ νμ²λ¦¬ λ°©μμ μ¬μ©νλ D&T+λ₯Ό λ₯κ°ν μ μμ΅λλ€. (80.4 λ 79.8)
Ablation Studies

Optimal Number of Supporting Frames. κ·Έλ¦Ό 3μ μΌμͺ½ κ·Έλνλ μ§μ νλ μ μκ° λΉλμ€ κ°μ²΄ κ°μ§ μ νλμ μ΄λ€ μν₯μ λ―ΈμΉλμ§ λ³΄μ¬μ€λλ€. μ§μ νλ μμ μΆκ°νλ©΄ μ±λ₯μ΄ κ³μ ν₯μλκ³ T = 27μμ μ 체λ©λλ€.
Increasing the Temporal Stride. μ§μ νλ μμ μνλ§νλ μκ° λ³΄ν kκ° STSNμ μ±λ₯μ μ΄λ€ μν₯μ λ―ΈμΉλμ§ μ‘°μ¬ νμμ΅λλ€. μ°λ¦¬λ k = 2 λ° k = 4μ μκ°μ 보νμ΄ κ°κ° 79.0 λ° 77.9μ mAP μ μλ₯Ό μ°μΆνλ κ²μ νμΈνμμ΅λλ€. λ°λΌμ k = 2μμλ μλμ 78.9mAP μ μλ³΄λ€ μ½κ° ν₯μλ κ²°κ³Όλ₯Ό 보μμ΅λλ€. κ·Έλ¬λ kλ₯Ό λ ν° κ°μΌλ‘ μ¦κ°μν€λ©΄ μ νλκ° κ°μνλ κ²½ν₯μ 보μμ΅λλ€.
Feature Aggregation Weight Analysis. κ° μ§μ§ νλ μμ΄ μ΅μ’ 물체 κ°μ§μ μΌλ§λ κΈ°μ¬νλμ§ λΆμνκΈ° μν΄ λ€μν k κ°μ λν νκ· λ¬΄κ² ν¬κΈ° $w_{t,t+k}(p)$λ₯Ό μκ°ννμμ΅λλ€. μ΄λ κ·Έλ¦Ό 3μ μ€λ₯Έμͺ½ κ·Έλνμ λμ μμ΅λλ€. μ΄ κ²½μ° κ°μ€μΉ ν¬κΈ°λ κ°μ²΄μ μ€μ¬μ μλ μ pμ ν΄λΉν©λλ€. μ΄λ₯Ό ν΅ν΄ μ΅μ’ κ°μ²΄ κ°μ§ μμΈ‘μ κ°μ₯ ν° μν₯μ κΈ°μ€ νλ μ(k = β1, 0, 1)μ κ°κΉμ΄ μ§μ νλ μμμ λΉλ‘―λλ€λ κ²°λ‘ μ λ΄λ¦΄ μ μμ΅λλ€. κ·Έλ¬λ μ°Έμ‘° νλ μμμ λ λ©λ¦¬ λ¨μ΄μ Έ μλ μ§μ νλ μ(μ: k = -9, 9)μ‘°μ°¨λ 0μ΄ μλ κ°μ€μΉλ₯Ό κ°μ§λ©° μ΅μ’ κ°μ²΄ κ°μ§ μμΈ‘μ μλΉν μν₯μ μ€λλ€.
Qualitative Results
STSNμ΄ μ£Όμ΄μ§ λΉλμ€μ μκ° μ 보λ₯Ό μ΄λ»κ² νμ©νλμ§ μ΄ν΄νκΈ° μν΄ κ·Έλ¦Ό 4μμ STSN μνλ§ λΈλ‘μ μν΄ μμΈ‘λ νκ· μ€νμ μ μκ°ν νμμ΅λλ€. μ΄λ¬ν μ€νμ μ STSNμ΄ μ°Έμ‘° νλ μμμ κ°μ²΄λ₯Ό κ°μ§νλ λ° μ¬μ©λμ΄μΌ νλ μ§μ νλ μμ κ°μ²΄ μμ€ μ 보λ₯Ό κ²°μ νλ λ° μ¬μ©λ©λλ€. μ°Έμ‘° νλ μμ λ Ήμ μ¬κ°νμ ν©μ±κ³± μΆλ ₯μ κ³μ°νλ €λ ν½μ μ λνλ λλ€. μ§μ§ νλ μμ λΉ¨κ°μ μ¬κ°νμ νκ· μ€νμ μ λνλ΄λ©°, μ΄λ μ§μ§ νλ μμμ μνλ§ν΄μΌ νλ νΉμ§μ μ κ²°μ νλ λ° μ¬μ©λ©λλ€. λ Έλμ νμ΄νλ κΈ°μ€ μ’νκ³μ μ§μ§ μ’νκ³ μ¬μ΄μ 물체μ μμ§μμ λνλ λλ€. μ°Έμ‘° νλ μκ³Ό μ§μ νλ μ μ¬μ΄μ μλμ μΌλ‘ ν° μμ§μμλ λΆκ΅¬νκ³ STSNμ μ νν μ°λ¦¬κ° μνλ κ°μ²΄ μ€μ¬ μ£Όλ³μ μ§μ νλ μμμ νΉμ§μ μνλ§ν©λλ€. μ΄λ¬ν μκ³΅κ° μνλ§μ ν΅ν΄ κ°μ²΄κ° μ°Έμ‘° νλ μμμ ν리거λ κ°λ €μ§ κ²μ²λΌ 보μ΄λλΌλ κ°μ²΄λ₯Ό κ°μ§ν μ μμ΅λλ€.

λν κ·Έλ¦Ό 4μ κ²°κ³Όλ₯Ό κΈ°λ°μΌλ‘ λͺ μμ Optical Flow κ°λ μμ΄λ STSNμ΄ κ°μ²΄μ μμ§μμ μ ννκ² μΊ‘μ²νλ λ°©λ²μ νμ΅νλ κ²μ κ΄μ°°ν μ μμ΅λλ€.

κ·Έλ¦Ό 5μμλ STSNμ μ¬μ©νμ¬ μ£Όμ΄μ§ λΉλμ€μμ κ°μ²΄λ₯Ό μΆμ νλ λͺ κ°μ§ μλ₯Ό 보μ¬μ€λλ€. κ·Έλ¦Ό 5μμ μ°λ¦¬λ κ° μνμ€μμ μλμ μΌλ‘ ν° μμ§μμλ λΆκ΅¬νκ³ STSNμ΄ λͺ¨λ μ§μ νλ μμμ κ°μ²΄ μ£Όλ³μ νΉμ§μ μ ννκ² μνλ§νλ€λ κ²μ κ΄μ°°νμ΅λλ€.

κ·Έλ¦Ό 6μμλ μ μ SSN κΈ°μ€μ μ κ°μ²΄ νμ§μ μ 체 STSN λͺ¨λΈμ κ°μ²΄ νμ§λ 보μ¬μ€λλ€. μ΄ λͺ¨λ κ²½μ°μ μκ° μ 보λ₯Ό ν΅ν©νλ©΄ STSNμ΄ μ μ κΈ°μ€μ μμ λ°μν μ€μλ₯Ό μμ νλ λ° λμμ΄ λ©λλ€. μλ₯Ό λ€μ΄, κ·Έλ¦Ό 6μ μΈ λ²μ§Έ νμμ μ μ SSN κΈ°μ€μ μ μ°Έμ‘° νλ μμ κ°μ²΄λ₯Ό μλ‘ μλͺ» μ§μ ν©λλ€. μ΄λ λλ§λ±μ λ¨Έλ¦¬κ° κ°λ €μ Έ λ°μν©λλ€. κ·Έλ¬λ STSNμ μ§μ§ νλ μμ λ³΄κ³ λλ§λ± λͺΈμ²΄μ 머리 μ£Όμλ₯Ό μνλ§νμ¬ μ΄ μ€μλ₯Ό μμ ν©λλ€(κ·Έλ¦Ό 6μ 3ν, 1μ΄ μ°Έμ‘°). Occlusion λ° Motion Blurμ κ²½μ°μλ μ μ¬ν κ²°κ³Όκ° λ°μν©λλ€.
5. Conclusion
λ³Έ λ Όλ¬Έμμλ λΉλμ€ μ 보λ₯Ό μ΄μ©ν΄ Object Detectionλ₯Ό νλ μλ‘μ΄ μν€ν μ²μΈ STSN(Spatiotemporal Sampling Network)μ μ μνμ΅λλ€. λ³Έ μ°κ΅¬κ° κΈ°μ¬νλ μ¬νμ λ€μκ³Ό κ°μ΅λλ€.
곡κ°κ³Ό μκ°μ κ±Έμ³ λ³ν κ°λ₯ν 컨볼루μ λ₯Ό μ΄μ©ν΄ λͺ¨λΈ μ€κ³λ₯Ό λ κ°λ¨νκ² ν μ
Optical Flowμ λ°λ₯Έ Training λ°μ΄ν°κ° νμνμ§ μμ μ
κΈ°μ‘΄ μ°κ΅¬μ λΉν΄ λ λμ λΉλμ€ κ°μ²΄ κ°μ§ μ±λ₯ νλν μ
κ²°λ‘ μ μΌλ‘, λ³Έ μ°κ΅¬ κ²°κ³Όλ‘ λΉλμ€ μ 보λ₯Ό μ΄μ©ν Object Detection λͺ¨λΈμ End to End Learningμ λ μ½κ² ν μμκ² λμμ΅λλ€. μΆν μ§νλ μ°κ΅¬μμλ λ 볡μ‘ν μκ³΅κ° μνλ§ λΈλ‘μ μ€ννλ λ΄μ©μ΄ λ΄κΈΈ μμ μ λλ€.
μ€λμ κ΅ν (Take home message)
μΌλ°μ μΌλ‘ λΉλμ€ μ 보λ₯Ό μ΄μ©ν΄ Object Detectionμ μ§ννλ κ²μ λ§μ μ μ½ μ¬νμ΄ μμΌλ©°, λͺ¨λΈμ μ€κ³ν λ Optical Flowλ₯Ό ν΄μν΄μΌ νλ λ±μ 볡μ‘ν λ¨κ³λ₯Ό μꡬν©λλ€.
곡κ°κ³Ό μκ°μ κ±Έμ³ λ³ν κ°λ₯ν 컨볼루μ μ νμ©νλ©΄ μ μ½ μ¬νμ 극볡νλ©΄μλ End to End Learningμ ν μ μλ λ λμ μ±λ₯μ λͺ¨λΈμ μ»μ μ μμ΅λλ€.
Author / Reviewer information
Author
νμ λ―Ό (Han Jungmin)
Affiliation : Ph.D. student, Robotics Program, KAIST (Advisor: Dong-Soo Kwon)
Research Interest : Flexible Endoscopic Surgery Robot System, Surgical Navigation
Contact information
Personal E-mail : hanjungmin@kaist.ac.kr
Related Website Link
Telerobotics and Control Laboratory, KAIST : http://robot.kaist.ac.kr/
EasyEndo Surgical Inc. : https://www.easyendosurgical.com/
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Citation of this paper
Bertasius, Gedas, Lorenzo Torresani, and Jianbo Shi. "Object detection in video with spatiotemporal sampling networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
Official (unofficial) GitHub repository
None
Citation of related work
Kang, K., Li, H., Yan, J., Zeng, X., Yang, B., Xiao, T., Zhang, C., Wang, Z., Wang, R., Wang, X., Ouyang, W.: T-CNN: tubelets with convolutional neural networks for object detection from videos. IEEE TCSVT 2017 (2017)
Kang, K., Ouyang, W., Li, H., Wang, X.: Object detection from video tubelets with convolutional neural networks. CoRR abs/1604.04053 (2016)
Han, W., Khorrami, P., Paine, T.L., Ramachandran, P., Babaeizadeh, M., Shi, H., Li, J., Yan, S., Huang, T.S.: Seq-nms for video object detection. CoRR abs/1602.08465 (2016)
Feichtenhofer, C., Pinz, A., Zisserman, A.: Detect to track and track to detect. In: International Conference on Computer Vision (ICCV). (2017)
Zhu, X., Wang, Y., Dai, J., Yuan, L., Wei, Y.: Flow-guided feature aggregation for video object detection. In: International Conference on Computer Vision (ICCV). (2017)
Other useful materials
Presentation Video Clip: https://www.youtube.com/watch?v=EZg3LT1OSi4
Author Information (Gedas Bertasius) : https://scholar.google.co.kr/citations?hl=ko&user=8FWkjw8AAAAJ&view_op=list_works&sortby=pubdate
Last updated
Was this helpful?