STSN [Kor]

(Description) Gedas Bertasius et al. / Object Detection in Video with Spatiotemporal Sampling Networks / ECCV 2018 Poster

English version of this article is available.

1. Problem definition

λ³Έ λ…Όλ¬Έμ˜ μ—°κ΅¬μ—μ„œλŠ” λΉ„λ””μ˜€λ₯Ό μ΄μš©ν•œ 물체 감지 방법에 λŒ€ν•΄μ„œ λ‹€λ£Ήλ‹ˆλ‹€. 졜근 λͺ‡ λ…„ λ™μ•ˆ λ”₯ μ»¨λ³Όλ£¨μ…˜ λ„€νŠΈμ›Œν¬λŠ” μ΄λ―Έμ§€μ—μ„œ 객체λ₯Ό κ°μ§€ν•˜λŠ” λΆ„μ•Όμ—μ„œλŠ” λ§Žμ€ λ°œμ „μ„ 이루어 μ™”μŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ λΉ„λ””μ˜€λ₯Ό μ΄μš©ν•œ λΆ„μ•Όμ—μ„œλŠ” λͺ¨μ…˜ λΈ”λŸ¬κ°€ λ°œμƒν•˜κ±°λ‚˜, λΉ„λ””μ˜€ μ˜μƒμ˜ ν¬μ»€μŠ€κ°€ λ§žμ§€ μ•Šκ±°λ‚˜, 물체의 ν˜•μƒμ— λ³€ν˜•μ΄ μžˆκ±°λ‚˜, μ–΄λ”˜κ°€μ— μ˜ν•΄ κ°€λ €μ§€κ²Œ λ˜λŠ” 상황 λ•Œλ¬Έμ— 객체λ₯Ό κ°μ§€ν•˜λŠ” 데 λ§Žμ€ 어렀움을 κ°€μ§€κ³  μžˆμ—ˆμŠ΅λ‹ˆλ‹€.

image-20211023061319879

ν•˜μ§€λ§Œ λΉ„λ””μ˜€ μ •λ³΄λŠ” 기본적으둜 이미지 μ •λ³΄μ—λŠ” μ—†λŠ” λ§Žμ€ 정보가 있기 λ•Œλ¬Έμ— μ΄λ―Έμ§€μ—μ„œ 객체λ₯Ό κ°μ§€ν•˜λŠ” 것보닀 더 κ°•λ ₯ν•˜κ²Œ ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€. λΉ„λ””μ˜€ 정보 λ‚΄ 객체λ₯Ό κ°μ§€ν•˜κΈ° μœ„ν•΄μ„œλŠ” λΉ„λ””μ˜€μ— ν¬ν•¨λ˜μ–΄ μžˆλŠ” μ‹œκ°„μ— 따라 λ³€ν™”λ˜λŠ” 정보λ₯Ό 효과적으둜 ν™œμš©ν•  수 μžˆλŠ” λͺ¨λΈμ„ μ„€κ³„ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.

이전 μ—°κ΅¬μ—μ„œλŠ” μ‹œκ°„μ— 따라 μΌκ΄€λœ 객체 탐지λ₯Ό ν•˜λŠ” 단계λ₯Ό λ§Œλ“€κ³  λΉ„λ””μ˜€μ—μ„œ μ΄λŸ¬ν•œ μ‹œκ°„ 정보λ₯Ό ν™œμš©ν•˜λŠ” 방법을 μ‚¬μš© ν•˜μ˜€μœΌλ‚˜, μ΄λŸ¬ν•œ 방법은 ν•˜λ‚˜μ˜ μ‹ κ²½λ§μœΌλ‘œ μ²˜λ¦¬ν•˜λŠ” End to End Learning이 λΆˆκ°€λŠ₯ ν–ˆμŠ΅λ‹ˆλ‹€. 졜근 μ—°κ΅¬μ—μ„œλŠ” End to End Learning이 κ°€λŠ₯ν•˜λ„λ‘ flow-based aggregation λ„€νŠΈμ›Œν¬λ₯Ό λ„μž…ν–ˆλŠ”λ°, 이 방법은 Optical Flow을 ν™œμš©ν•˜μ—¬ μ‹œκ°„μ— λ”°λ₯Έ λŒ€μ‘ 관계λ₯Ό 찾은 λ‹€μŒ μ‹œκ°„ λŒ€μ‘ 관계에 걸쳐 νŠΉμ§•μ„ μ§‘κ³„ν•˜μ—¬ 인접 ν”„λ ˆμž„μ—μ„œμ˜ 객체 감지λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•˜μ§€λ§Œ 물체 감지λ₯Ό μˆ˜ν–‰ν•˜λŠ” 것 외에도 μ›€μ§μž„μ„ μ˜ˆμΈ‘ν•΄μ•Ό ν•œλ‹€λŠ” 단점이 μžˆμŠ΅λ‹ˆλ‹€.

μ΄λŸ¬ν•œ 사전 연ꡬ듀을 톡해 λ°ν˜€μ§„ λͺ¨λΈμ„ μ„€κ³„ν•˜λŠ”λ° μžˆμ–΄ 맞λ‹₯뜨릴 수 μžˆλŠ” λΆˆλ¦¬ν•œ 상황을 정리해보면 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

  1. 효과적인 λ„€νŠΈμ›Œν¬ μ•„ν‚€ν…μ²˜λ₯Ό μ„€κ³„ν•˜λŠ” 것이 κ·Έλ ‡κ²Œ κ°„λ‹¨ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

  2. λͺ¨λΈμ„ Trainingν•˜λŠ” 데 λ§Žμ€ μ–‘μ˜ Flow Dataκ°€ ν•„μš”ν•˜λ©°, 얻기도 μ–΄λ ΅κ³  λΉ„μš©μ΄ 많이 λ“€ 수 μžˆμŠ΅λ‹ˆλ‹€.

  3. Flow λ„€νŠΈμ›Œν¬ 및 Detection λ„€νŠΈμ›Œν¬λ₯Ό 각각 λͺ¨λΈλ‘œ λ§Œλ“œλŠ” 것은 μ„œλ‘œ λ‹€λ₯Έ 손싀 ν•¨μˆ˜, λ„€νŠΈμ›Œν¬λ§ˆλ‹€ λ‹€λ₯Έ Training 절차 λ“±κ³Ό 같은 μ–΄λ €μš΄ μž‘μ—…μ„ μˆ˜λ°˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

2. Motivation

2.1 이미지λ₯Ό μ΄μš©ν•œ Object Detection

이미지λ₯Ό μ΄μš©ν•œ 객체 κ°μ§€λŠ” 주둜 심측 CNN을 ν™œμš©ν•˜μ—¬ κ°œλ°œλ˜μ—ˆμŠ΅λ‹ˆλ‹€.

  • 졜초의 심측 CNN 객체 감지 μ‹œμŠ€ν…œ 쀑 ν•˜λ‚˜λŠ” R-CNN으둜 λ¨Όμ € 객체λ₯Ό μΆ”μΆœν•œ λ‹€μŒ CNN을 μ‚¬μš©ν•˜μ—¬ 각 객체λ₯Ό λΆ„λ₯˜ν•˜λŠ” 2단계 νŒŒμ΄ν”„λΌμΈμ„ ν¬ν•¨ν–ˆμŠ΅λ‹ˆλ‹€. 계산 뢀담을 쀄이기 μœ„ν•΄ λ‹€λ₯Έ μ—°κ΅¬μ—μ„œλŠ” ROI 풀링을 ν™œμš©ν•˜μ—¬ 보닀 효율적인 ν•™μŠ΅μ„ μœ λ„ν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 객체 감지 νŒŒμ΄ν”„λΌμΈμ„ ν†΅ν•©ν•˜κΈ° μœ„ν•΄ Faster R-CNN μ—°κ΅¬μ—μ„œλŠ” 전체 μ‹œμŠ€ν…œμ΄ End to End ν•™μŠ΅μ΄ κ°€λŠ₯ν•˜λ„λ‘ λ‹€μ–‘ν•œ μ˜μ—­ μ œμ•ˆ 방법을 λ‹€λ₯Έ λ„€νŠΈμ›Œν¬λ‘œ λŒ€μ²΄ν–ˆμŠ΅λ‹ˆλ‹€.

  • 이어진 또 λ‹€λ₯Έ μ—°κ΅¬μ—μ„œλŠ” Faster R-CNN을 μ„±λŠ₯은 μ•½κ°„ κ°μ†Œν•˜μ§€λ§Œ μ‹€μ‹œκ°„μœΌλ‘œ 싀행될 수 μžˆλ„λ‘ ν•˜λŠ” 연ꡬλ₯Ό μ§„ν–‰ ν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ 졜근 μ—°κ΅¬μ—μ„œ μœ„μΉ˜ 감지 ROI 풀링을 λ„μž…ν•˜μ—¬ μ΄μ „μ˜ 물체 감지 μ‹œμŠ€ν…œμ— λΉ„ν•΄ 감지 νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

  • λ§ˆμ§€λ§‰μœΌλ‘œ 졜근 두 κ°€μ§€ 방법인 Mask R-CNNκ³Ό Deformable CNN은 객체 감지 κ²°κ³Όλ₯Ό λ”μš± κ°œμ„ ν–ˆμœΌλ©° 객체 감지 λΆ„μ•Όμ—μ„œμ˜ μ΅œμ‹ μ˜ μ„±λŠ₯을 보여주고 μžˆμŠ΅λ‹ˆλ‹€. Mask-RCNN은 각 관심 μ˜μ—­μ— λŒ€ν•œ 마슀크λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” μΆ”κ°€ λΆ„κΈ°λ₯Ό μ‚¬μš©ν•˜λŠ” 반면 Deformable CNN은 λ³€ν˜• κ°€λŠ₯ν•œ μ»¨λ³Όλ£¨μ…˜μ„ μ‚¬μš©ν•˜μ—¬ λ„€νŠΈμ›Œν¬κ°€ μž…λ ₯에 λŒ€ν•œ 수용 ν•„λ“œλ₯Ό μ°¨λ³„μ μœΌλ‘œ μ‘°μ ˆν•˜κ³  객체의 λ³€ν˜•μ„ 보닀 κ°•λ ₯ν•˜κ²Œ λͺ¨λΈλ§ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

image-20211023061319879

2.2 λΉ„λ””μ˜€λ₯Ό μ΄μš©ν•œ Object Detection

ImageNet VID μ±Œλ¦°μ§€κ°€ λ„μž…λ  λ•ŒκΉŒμ§€ λΉ„λ””μ˜€ 객체 감지에 λŒ€ν•œ λŒ€κ·œλͺ¨ λ²€μΉ˜λ§ˆν¬κ°€ μ—†μ—ˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ STSNκ³Ό 비ꡐ할 수 μžˆλŠ” 이전 μ—°κ΅¬λŠ” 거의 μ—†μ—ˆμŠ΅λ‹ˆλ‹€.

  • T-CNN[1, 2]은 λ¨Όμ € Optical Flow을 μ˜ˆμΈ‘ν•œ λ‹€μŒ 흐름에 따라 이미지 레벨 μ˜ˆμΈ‘μ„ μ „νŒŒν•˜κ³  λ§ˆμ§€λ§‰μœΌλ‘œ 좔적 μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜μ—¬ μ‹œκ°„μ μœΌλ‘œ μΌκ΄€λœ 높은 신뒰도 탐지λ₯Ό μ„ νƒν•˜λŠ” 것과 κ΄€λ ¨λœ λΉ„λ””μ˜€ 객체 탐지 νŒŒμ΄ν”„λΌμΈμ„ μ‚¬μš©ν•©λ‹ˆλ‹€.

  • Seq-NMS[3]λŠ” μΈμ ‘ν•œ ν”„λ ˆμž„μ— 걸쳐 경계 μƒμž 감지 μ€‘μ²©μ—μ„œ μ‹œκ°„ κ·Έλž˜ν”„λ₯Ό κ΅¬μ„±ν•œ λ‹€μŒ 동적 ν”„λ‘œκ·Έλž˜λ°μ„ μ‚¬μš©ν•˜μ—¬ 전체 감지 μ μˆ˜κ°€ κ°€μž₯ 높은 경계 μƒμž μ‹œν€€μŠ€λ₯Ό μ„ νƒν•©λ‹ˆλ‹€. Leeκ°€ μ œμ•ˆν•œ 방법은 λΉ„λ””μ˜€ 객체 감지 μž‘μ—…μ„ 닀쀑 객체 좔적 문제둜 μ·¨κΈ‰ν•©λ‹ˆλ‹€.

  • λ§ˆμ§€λ§‰μœΌλ‘œ Feichtenhoferκ°€ μ œμ•ˆν•œ 방법[4]은 탐지 및 좔적 문제λ₯Ό κ³΅λ™μœΌλ‘œ ν•΄κ²°ν•œ λ‹€μŒ Viterbi μ•Œκ³ λ¦¬μ¦˜μ„ μ μš©ν•˜μ—¬ μ‹œκ°„μ— 따라 탐지λ₯Ό μ—°κ²°ν•˜λŠ” ConvNet μ•„ν‚€ν…μ²˜λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

우리 μž‘μ—…κ³Ό κ°€μž₯ μœ μ‚¬ν•œ μ ‘κ·Ό 방식은 Zhu[5]의 μ—°κ΅¬μž…λ‹ˆλ‹€. Zhu의 μ—°κ΅¬μ—μ„œλŠ” Optical Flowλ₯Ό κ³΅λ™μœΌλ‘œ μΆ”μ •ν•˜κ³  λΉ„λ””μ˜€μ—μ„œ 물체도 κ°μ§€ν•˜λŠ” End to End learning λ„€νŠΈμ›Œν¬λ₯Ό μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 예츑된 Optical Flow을 μ‚¬μš©ν•˜μ—¬ 인접 ν”„λ ˆμž„μ˜ κΈ°λŠ₯을 μ •λ ¬ν•¨μœΌλ‘œμ¨ μˆ˜ν–‰λ©λ‹ˆλ‹€. μ§‘κ³„λœ κΈ°λŠ₯은 탐지 λ„€νŠΈμ›Œν¬μ— λŒ€ν•œ μž…λ ₯으둜 μ œκ³΅λ©λ‹ˆλ‹€.

Idea

λ³Έ λ…Όλ¬Έμ—μ„œλŠ” 곡간과 μ‹œκ°„μ— 걸쳐 λ³€ν˜• κ°€λŠ₯ν•œ μ»¨λ³Όλ£¨μ…˜μ„ μ‚¬μš©ν•˜μ—¬ λΉ„λ””μ˜€μ—μ„œ 물체 감지λ₯Ό μœ„ν•œ μ‹œκ°„ 정보λ₯Ό ν™œμš©ν•˜λŠ” κ°„λ‹¨ν•˜μ§€λ§Œ 효과적인 STSN(Spatiotemporal Sampling Network)을 μ†Œκ°œν•©λ‹ˆλ‹€. STSN은 μ£Όμ–΄μ§„ λΉ„λ””μ˜€ ν”„λ ˆμž„μ—μ„œ 객체 감지 정확도가 μ΅œλŒ€ν™”λ˜λ„λ‘ μ£Όλ³€ λΉ„λ””μ˜€ ν”„λ ˆμž„μ—μ„œ μœ μš©ν•œ νŠΉμ§•μ μ„ κ³΅κ°„μ μœΌλ‘œ μƒ˜ν”Œλ§ν•˜λŠ” 방법을 ν•™μŠ΅ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ μš°λ¦¬λŠ” bounding box둜 λ ˆμ΄λΈ”μ΄ μ§€μ •λœ λŒ€κ·œλͺ¨ λΉ„λ””μ˜€ ν”„λ ˆμž„ μ„ΈνŠΈμ— λŒ€ν•΄ STSN End to End learning을 μ‹€μ‹œν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λ³΅μž‘ν•œ Flow λ„€νŠΈμ›Œν¬ μ„€κ³„λ‚˜ λŒ€λŸ‰μ˜ Flow 데이터에 λŒ€ν•œ Training 없이 ImageNet VID 데이터 μ„ΈνŠΈλ‘œ λΉ„κ΅ν–ˆμ„ λ•Œ μ΅œμ‹  κΈ°μˆ μ— λΉ„ν•΄ 더 λ‚˜μ€ μ •ν™•λ„λ‘œ μ΄μ–΄μ§„λ‹€λŠ” 것을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

STSN은 Zhuκ°€ μ œμ•ˆν•œ 방법과 같은 Optical Flow CNN을 μ‚¬μš©ν•˜λŠ” 방법보닀 λ‹€μŒκ³Ό 같이 μœ λ¦¬ν•©λ‹ˆλ‹€.

  1. 사전 Training된 Optical Flow CNN이 항상 μƒˆλ‘œμš΄ 데이터 μ„ΈνŠΈλ‘œ μΌλ°˜ν™”λ˜λŠ” 것은 μ•„λ‹ˆλ―€λ‘œ λΉ„λ””μ˜€ 객체 감지 μ„±λŠ₯을 λ°©ν•΄ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이에 λ°˜ν•΄ STSN은 ν•™μŠ΅ κ°€λŠ₯ν•œ μ‹œκ³΅κ°„ μƒ˜ν”Œλ§ λͺ¨λ“ˆμ„ κ°€μ§€κ³  μžˆμ–΄ 물체 감지 λ ˆμ΄λΈ”μ„ κ΅¬λ³„ν•˜μ—¬ ν•™μŠ΅ν•˜λ―€λ‘œ 이 문제λ₯Ό κ²ͺμ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

  2. STSN은 λΉ„λ””μ˜€ 개체 감지λ₯Ό μœ„ν•΄ ν•˜λ‚˜μ˜ μ‹ κ²½λ§μœΌλ‘œ μ²˜λ¦¬ν•˜λŠ” End to End Learning을 ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이에 λΉ„ν•΄ Optical Flow에 μ˜μ‘΄ν•˜λŠ” 방법은 Optical Flow CNN을 Trainingν•˜κΈ° μœ„ν•΄ μΆ”κ°€ 단계가 ν•„μš”ν•˜λ―€λ‘œ Training μ ˆμ°¨κ°€ 더 λ³΅μž‘ν•˜κ³  κΈΈμ–΄μ§‘λ‹ˆλ‹€.

3. Method

STSNμ—μ„œ λΉ„λ””μ˜€μ—μ„œ 물체λ₯Ό κ°μ§€ν•˜κΈ° μœ„ν•΄ μ‹œκ°„ 정보λ₯Ό ν†΅ν•©ν•˜λŠ” λ„€νŠΈμ›Œν¬ μ•„ν‚€ν…μ²˜κ°€ 섀계 λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 λͺ¨λΈμ—μ„œλŠ” λΉ„λ””μ˜€ κΈ°μ€€ μ‹œκ°„ tμ—μ„œμ˜ κΈ°μ€€ ν”„λ ˆμž„ $I_t$μ—μ„œ 인근 ν”„λ ˆμž„ $I_{t+k}$의 객체 정보λ₯Ό 감지에 ν™œμš©ν•¨μœΌλ‘œμ¨ 더 효율적으둜 객체λ₯Ό 탐지할 수 μžˆλ„λ‘ ν•˜μ˜€μŠ΅λ‹ˆλ‹€.

Itβˆ’K,Itβˆ’(Kβˆ’1),...,Itβˆ’1,It+1,...,It+(Kβˆ’1),It+K{I_{t-K}, I_{t-(K-1)}, . . . , I_{tβˆ’1}, I_{t+1}, . . . , I_{t+(Kβˆ’1)}, I_{t+K}}

κ·Έλ¦Ό 1κ³Ό 같이 이미지에 비정상적인 포즈의 κ°œμ²΄κ°€ ν¬ν•¨λ˜μ–΄ μžˆκ±°λ‚˜ Occlusion이 μžˆλŠ” 경우, ν•΄λ‹Ή 이미지 ν”„λ ˆμž„κ³Ό μ‹œκ°„μƒμœΌλ‘œ μΈμ ‘ν•΄μžˆλŠ” ν”„λ ˆμž„μ— 비ꡐ적 λͺ…ν™•ν•˜κ²Œ λ³΄μ΄λŠ” λ™μΌν•œ κ°œμ²΄κ°€ 비ꡐ적 ν‘œμ€€μ μΈ 포즈둜 ν¬ν•¨λ˜μ–΄ μžˆλ‹€λ©΄, 개체λ₯Ό 더 잘 감지할 수 μžˆλ„λ‘ κ°€κΉŒμš΄ ν”„λ ˆμž„μ˜ 정보λ₯Ό ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” 객체 감지λ₯Ό ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ K개의 μ„ ν–‰ ν”„λ ˆμž„κ³Ό K개의 후속 ν”„λ ˆμž„μ„ μ°Έμ‘° ν• μˆ˜ μžˆλŠ” 2K 지원 ν”„λ ˆμž„μ„ μ‚¬μš©ν•©λ‹ˆλ‹€.

image-20211023061319879

STSN λ„€νŠΈμ›Œν¬ μ•„ν‚€ν…μ²˜μ˜ ν”„λ‘œμ„Έμ‹± λ‹¨κ³„λŠ” 크게 4λ‹¨κ³„λ‘œ μš”μ•½ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  1. Backbone Architecture. λ°±λ³Έ μ»¨λ³Όλ£¨μ…˜ λ„€νŠΈμ›Œν¬λŠ” 각 λΉ„λ””μ˜€ ν”„λ ˆμž„μ— λŒ€ν•œ 객체 μˆ˜μ€€ κΈ°λŠ₯을 κ°œλ³„μ μœΌλ‘œ κ³„μ‚°ν•©λ‹ˆλ‹€.

  2. Spatiotemporal Feature Sampling. μ‹œκ³΅κ°„ μƒ˜ν”Œλ§ λ©”μ»€λ‹ˆμ¦˜μ€ μ£Όμ–΄μ§„ λΉ„λ””μ˜€μ—μ„œ μ‹œκ°„ 정보λ₯Ό λ§€λ„λŸ½κ²Œ ν†΅ν•©ν•˜λŠ” 역할을 ν•©λ‹ˆλ‹€. 이 μƒ˜ν”Œλ§ λ©”μ»€λ‹ˆμ¦˜μ€ Predicted Offsets, Supporting Tensorλ₯Ό μž…λ ₯으둜 μ‚¬μš©ν•˜κ³  μƒˆλ‘œ μƒ˜ν”Œλ§λœ 피쳐 ν…μ„œλ₯Ό 좜λ ₯ν•˜λŠ” λ³€ν˜• κ°€λŠ₯ν•œ 4개의 μ»¨λ³Όλ£¨μ…˜ λ ˆμ΄μ–΄λ₯Ό μ‚¬μš©ν•˜μ—¬ κ΅¬ν˜„λ©λ‹ˆλ‹€. μžμ„Έν•œ μ„€λͺ…은 κ·Έλ¦Ό 2에 λ‚˜μ™€ μžˆμŠ΅λ‹ˆλ‹€. (κ·Έλ¦Ό 2μ—λŠ” 2개만 ν‘œμ‹œλ¨)

  3. Feature Aggregation. 각 λΉ„λ””μ˜€ ν”„λ ˆμž„μ—μ„œ μƒ˜ν”Œλ§λœ νŠΉμ§•μ€ ν”½μ…€λ‹Ή κ°€μ€‘μΉ˜ 합산을 μ‚¬μš©ν•˜μ—¬ μ°Έμ‘° ν”„λ ˆμž„μ— λŒ€ν•œ 단일 νŠΉμ§• ν…μ„œλ‘œ μ‹œκ°„μ μœΌλ‘œ μ§‘κ³„λ©λ‹ˆλ‹€.

  4. **Object Detection.**νŠΉμ§• ν…μ„œλŠ” μ£Όμ–΄μ§„ μ°Έμ‘° ν”„λ ˆμž„μ— λŒ€ν•œ μ΅œμ’… 객체 탐지 κ²°κ³Όλ₯Ό μƒμ„±ν•˜κΈ° μœ„ν•΄ 탐지 λ„€νŠΈμ›Œν¬μ— λŒ€ν•œ μž…λ ₯으둜 μ œκ³΅λ©λ‹ˆλ‹€.

우리의 Object Detection 을 μœ„ν•œ ν”„λ ˆμž„μ›Œν¬λŠ” κ°œλ…μ μœΌλ‘œ κ΅¬λ³„λ˜λŠ” μ΄λŸ¬ν•œ 4단계λ₯Ό 단일 μ•„ν‚€ν…μ²˜λ‘œ ν†΅ν•©ν•˜μ—¬ End to End learning을 μ œκ³΅ν•©λ‹ˆλ‹€.

3.1 Implementation Details

아킀텍쳐 κ΅¬ν˜„μ„ μœ„ν•΄ MXNet 라이브러리λ₯Ό μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€. μ•„λž˜μ—μ„œλŠ” STSN μ•„ν‚€ν…μ²˜, Training 및 μΆ”λ‘  μ ˆμ°¨μ™€ κ΄€λ ¨λœ μ„ΈλΆ€ 정보λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

  • Architecture. λ°±λ³Έ λ„€νŠΈμ›Œν¬μ˜ 경우 ResNet-101 μ•„ν‚€ν…μ²˜λ₯Ό 기반으둜 ν•˜λŠ” Deformable CNN을 μ±„νƒν–ˆμŠ΅λ‹ˆλ‹€. μ‹œκ³΅κ°„ μƒ˜ν”Œλ§ 블둝은 각각 1024개의 좜λ ₯ 채널을 κ°€μ§„ 4개의 3 Γ— 3 λ³€ν˜• κ°€λŠ₯ν•œ μ»¨λ³Όλ£¨μ…˜ λ ˆμ΄μ–΄λ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€. λ˜ν•œ (x, y) μ˜€ν”„μ…‹μ„ μ˜ˆμΈ‘ν•˜λŠ” 4개의 3x3 μ»¨λ³Όλ£¨μ…˜ λ ˆμ΄μ–΄λ„ μžˆμŠ΅λ‹ˆλ‹€. νŠΉμ„± 집계 κ°€μ€‘μΉ˜λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” μ„œλΈŒλ„€νŠΈμ›Œν¬ S(x)λ₯Ό κ΅¬ν˜„ν•˜κΈ° μœ„ν•΄ 각각 512, 512 및 2048개의 좜λ ₯ 채널이 μžˆλŠ” 1 Γ— 1, 3 Γ— 3 및 1 Γ— 1 μ»¨λ³Όλ£¨μ…˜ λ ˆμ΄μ–΄ μ‹œν€€μŠ€λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. Detection λ„€νŠΈμ›Œν¬λŠ” λ³€ν˜• κ°€λŠ₯ν•œ R-FCN 섀계λ₯Ό 기반으둜 κ΅¬ν˜„λ˜λ©°, 7 Γ— 7 그룹으둜 λ³€ν˜• κ°€λŠ₯ν•œ μœ„μΉ˜ 감지 ROI 풀링을 μ‚¬μš©ν•©λ‹ˆλ‹€.

  • Training. STSN λͺ¨λΈμ€ λ°±λ³Έ λ„€νŠΈμ›Œν¬λ‘œ ResNet-101 μ•„ν‚€ν…μ²˜λ₯Ό 기반으둜 ν•˜λŠ” Deformable CNN λͺ¨λΈμ„ μ‚¬μš©ν•˜μ˜€κΈ° λ•Œλ¬Έμ— μ™„μ „νžˆ 미뢄될 수 μžˆμœΌλ―€λ‘œ End to End learning이 κ°€λŠ₯ν•©λ‹ˆλ‹€. Training을 μœ„ν•΄ κΈ°μ€€ ν”„λ ˆμž„ 이전에 ν•˜λ‚˜μ˜ 지원 ν”„λ ˆμž„κ³Ό μ°Έμ‘° ν”„λ ˆμž„ 이후에 ν•˜λ‚˜μ˜ 지원 ν”„λ ˆμž„μ„ λ¬΄μž‘μœ„λ‘œ μƒ˜ν”Œλ§ν•©λ‹ˆλ‹€. μš°λ¦¬λŠ” Trainingμ—μ„œ 더 λ§Žμ€ 지원 ν”„λ ˆμž„μ„ μ‚¬μš©ν•œλ‹€κ³  ν•΄μ„œ 더 높은 μ •ν™•λ„λ‘œ 이어지지 μ•ŠλŠ”λ‹€λŠ” 것을 κ΄€μ°°ν–ˆμŠ΅λ‹ˆλ‹€. λ‚˜λ¨Έμ§€ Training μ—μ„œλŠ” 두 λ‹¨κ³„λ‘œ λͺ¨λΈμ„ Trainingν•©λ‹ˆλ‹€. λ¨Όμ € Imagenet VID 데이터 μ„ΈνŠΈμ™€ κ²ΉμΉ˜λŠ” 30개 객체 클래슀의 주석을 μ‚¬μš©ν•˜μ—¬ Imagenet DET 데이터 μ„ΈνŠΈμ— λŒ€ν•œ 전체 λͺ¨λΈμ„ 사전 ν•™μŠ΅ν•©λ‹ˆλ‹€. Imagenet DET 데이터 μ„ΈνŠΈμ—λŠ” μ΄λ―Έμ§€λ§Œ ν¬ν•¨λ˜μ–΄ μžˆμœΌλ―€λ‘œ 이 경우 의미 μžˆλŠ” 지원 ν”„λ ˆμž„μ„ μƒ˜ν”Œλ§ν•  수 μ—†μŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ μ΄λ―Έμ§€μ˜ 경우 μ°Έμ‘° ν”„λ ˆμž„μ„ 지원 ν”„λ ˆμž„μœΌλ‘œ μ‚¬μš©ν•©λ‹ˆλ‹€. κ·Έ ν›„ 전체 λͺ¨λΈμ€ 4개의 Tesla K40 GPUμ—μ„œ 120,000번 반볡 ν•™μŠ΅λ˜λ©° 각 GPUλŠ” 단일 λ―Έλ‹ˆ 배치λ₯Ό λ³΄μœ ν•©λ‹ˆλ‹€. ν•™μŠ΅λ₯ μ€ 처음 80K 및 λ§ˆμ§€λ§‰ 40K λ°˜λ³΅μ— λŒ€ν•΄ 각각 0.001 및 0.0001둜 μ„€μ •λ©λ‹ˆλ‹€. 그런 λ‹€μŒ 처음 40K 및 λ§ˆμ§€λ§‰ 20K λ°˜λ³΅μ— λŒ€ν•΄ 각각 0.001 및 0.0001의 ν•™μŠ΅λ₯ λ‘œ 60K λ°˜λ³΅μ— λŒ€ν•΄ Imagenet VID 데이터 μ„ΈνŠΈμ˜ 전체 λͺ¨λΈμ„ λ―Έμ„Έ μ‘°μ •ν•©λ‹ˆλ‹€. Training의 두 번째 λ‹¨κ³„μ—μ„œ μš°λ¦¬λŠ” μ°Έμ‘° ν”„λ ˆμž„μ˜ νŠΉμ • 이웃 λ‚΄μ—μ„œ 지원 ν”„λ ˆμž„μ„ λ¬΄μž‘μœ„λ‘œ μƒ˜ν”Œλ§ν•©λ‹ˆλ‹€

  • Inference. μΆ”λ‘ ν•˜λŠ” λ™μ•ˆ T = 27을 μ‚¬μš©ν•©λ‹ˆλ‹€. 즉, μ°Έμ‘° ν”„λ ˆμž„ 전후에 K = 13개의 지원 ν”„λ ˆμž„μ„ κ³ λ €ν•©λ‹ˆλ‹€. GPU λ©”λͺ¨λ¦¬ 문제λ₯Ό ν”Όν•˜κΈ° μœ„ν•΄ λ¨Όμ € 각 μ΄λ―Έμ§€μ˜ λ°±λ³Έ λ„€νŠΈμ›Œν¬μ—μ„œ κΈ°λŠ₯을 κ°œλ³„μ μœΌλ‘œ μΆ”μΆœν•œ λ‹€μŒ μ΄λŸ¬ν•œ κΈ°λŠ₯을 λ©”λͺ¨λ¦¬μ— μΊμ‹œν•©λ‹ˆλ‹€. 그런 λ‹€μŒ 이 λͺ¨λ“  κΈ°λŠ₯을 μ‹œκ³΅κ°„ μƒ˜ν”Œλ§ 블둝에 μž…λ ₯ν•©λ‹ˆλ‹€. λ§ˆμ§€λ§‰μœΌλ‘œ μž„κ³„κ°’μ΄ 0.3인 ν‘œμ€€ NMSλ₯Ό μ μš©ν•˜μ—¬ 탐지λ₯Ό μ„ΈλΆ„ν™”ν•©λ‹ˆλ‹€. λΉ„λ””μ˜€μ˜ 첫 번째 및 λ§ˆμ§€λ§‰ K = 13개 ν”„λ ˆμž„μ„ μ²˜λ¦¬ν•˜κΈ° μœ„ν•΄ λΉ„λ””μ˜€ μ‹œμž‘κ³Ό 끝을 λ„˜μ–΄ 인접 ν”„λ ˆμž„μ„ μƒ˜ν”Œλ§ν•΄μ•Ό ν•˜λŠ” 두 κ°€μ§€ 경계 경우λ₯Ό μ²˜λ¦¬ν•˜κΈ° μœ„ν•΄ λΉ„λ””μ˜€μ˜ μ‹œμž‘μ„ 첫 번째 ν”„λ ˆμž„μ˜ K λ³΅μ‚¬λ³ΈμœΌλ‘œ μ±„μ›λ‹ˆλ‹€.

4. Experiment & Result

Experimental setup

μ‹€ν—˜μ—λŠ” 3,862 및 555개의 ꡐ윑 및 ν…ŒμŠ€νŠΈ λΉ„λ””μ˜€ 클립이 μžˆλŠ” ImageNet VID 데이터 μ„ΈνŠΈλ₯Ό κ°€μ§€κ³  λΉ„λ””μ˜€ 객체 감지에 λŒ€ν•œ μ„±λŠ₯을 ν‰κ°€ν•˜μ˜€μŠ΅λ‹ˆλ‹€. 각 λΉ„λ””μ˜€μ—λŠ” Bounding Boxκ°€ ν‘œμ‹œλ˜λ©°, 각 λΉ„λ””μ˜€μ˜ ν”„λ ˆμž„μ€ 25 - 30fps둜 μΆ”μΆœλ©λ‹ˆλ‹€. 데이터 μ„ΈνŠΈμ—λŠ” ImageNet DET 데이터 μ„ΈνŠΈμ— μžˆλŠ” 200개 λ²”μ£Όμ˜ ν•˜μœ„ 집합인 30개 개체 λ²”μ£Όκ°€ ν¬ν•¨λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

Result

Quantitative Results

STSN의 효과λ₯Ό ν‰κ°€ν•˜κΈ° μœ„ν•΄ μš°λ¦¬λŠ” 두 κ°€μ§€ μ΅œμ‹  방법인 FGFA와 D&T와 μ„±λŠ₯ λΉ„κ΅ν•˜μ˜€μŠ΅λ‹ˆλ‹€. 효과적인 비ꡐλ₯Ό μœ„ν•΄ 각 μ•„ν‚€ν…μ²˜μ— μ°Έμ‘° ν”„λ ˆμž„λ§Œ μ‚¬μš©ν•˜μ—¬ μ˜ˆμΈ‘ν•˜λŠ” λͺ¨λΈ(SSN)κ³Ό μ‹œκ³΅κ°„ μƒ˜ν”Œ λ©”μ»€λ‹ˆμ¦˜μ„ μ μš©ν–ˆκ³ , λΉ„λ””μ˜€ 객체 감지 비ꡐλ₯Ό μœ„ν•΄ μ‹œκ°„μ  ν›„μ²˜λ¦¬κ°€ 좜λ ₯에 μ μš©λ˜μ—ˆμŠ΅λ‹ˆλ‹€. ν‘œ 1μ—μ„œ D&T 및 STSN은 CNN 좜λ ₯을 μ‚¬μš©ν•œ 경우λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 반면 D&T+ 및 STSN+λŠ” μ‹œκ°„μ  ν›„μ²˜λ¦¬(Seq NMS, object-tube linking λ“±)λ₯Ό CNN 좜λ ₯에 μ μš©ν•œ 경우λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

그리고 μš°λ¦¬λŠ” λͺ‡ κ°€μ§€ 기쀀에 따라 각 방법을 ν‰κ°€ν•˜λŠ” ν‘œ 1에 κ²°κ³Όλ₯Ό μ œμ‹œ ν•˜μ˜€μŠ΅λ‹ˆλ‹€.

  • ν‘œ 1의 첫 번째 ν–‰μ—λŠ” μ£Όμ–΄μ§„ 방법이 λ³„λ„μ˜ 흐름 λ„€νŠΈμ›Œν¬λ₯Ό Training/Prediction νŒŒμ΄ν”„λΌμΈμ— 톡합해야 ν•˜λŠ”μ§€ μ—¬λΆ€λ₯Ό λ‚˜μ—΄ν•©λ‹ˆλ‹€. μ΄μƒμ μœΌλ‘œλŠ” Optical Flow μ˜ˆμΈ‘μ„ μœ„ν•΄ 맀우 λ³΅μž‘ν•œ 흐름 λ„€νŠΈμ›Œν¬ μ•„ν‚€ν…μ²˜λ₯Ό 섀계해야 ν•˜κΈ° λ•Œλ¬Έμ— 이 단계λ₯Ό μ œκ±°ν•˜λŠ” 것이 μœ λ¦¬ν•©λ‹ˆλ‹€.

  • μ™ΈλΆ€ Optical Flow 데이터에 λŒ€ν•œ Pre-training이 ν•„μš”ν•œμ§€ 여뢀도 λ‚˜μ—΄ν•©λ‹ˆλ‹€. μ΄λŠ” 전체 Training νŒŒμ΄ν”„λΌμΈμ— 더 λ§Žμ€ 연산을 ν•˜λ„λ‘ λ§Œλ“­λ‹ˆλ‹€.

  • μ£Όμ–΄μ§„ 방법이 μ™ΈλΆ€ μ‹œκ°„ 사후 처리 단계λ₯Ό μ‚¬μš©ν•˜λŠ”μ§€ μ—¬λΆ€λ₯Ό λ‚˜μ—΄ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ‹¨κ³„λŠ” 일반적으둜 Training/Prediction νŒŒμ΄ν”„λΌμΈμ„ 더 λ³΅μž‘ν•˜κ²Œ λ§Œλ“€κΈ° λ•Œλ¬Έμ— μ œκ±°ν•˜λŠ” 것이 μœ λ¦¬ν•©λ‹ˆλ‹€.

  • IoU(Intersection Over Union) μž„κ³„κ°’ 0.5μ—μ„œ ν‘œμ€€ mAP(평균 평균 정밀도) λ©”νŠΈλ¦­μ— 따라 각 방법을 ν‰κ°€ν•©λ‹ˆλ‹€.

image-20211023061319879

ν‘œ 1의 κ²°κ³Όλ₯Ό λ°”νƒ•μœΌλ‘œ λ‹€μŒκ³Ό 같은 결둠을 내릴 수 μžˆμŠ΅λ‹ˆλ‹€.

  • STSN이 μ΅œμ‹  FGFA 방법(78.9 λŒ€ 78.8)보닀 더 λ‚˜μ€ μ •λŸ‰μ  κ²°κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€. FGFA와 λΉ„κ΅ν•˜μ—¬ 정확도 ν–₯상이 수치적으둜 크게 λ†’μ§€λŠ” μ•ŠμœΌλ‚˜, FGFA와 달리 STSN이 직접적인 Optical Flow Supervision 없이 μ‹œκ°„μ  λŒ€μ‘μ„ ν•™μŠ΅ν•˜μ—¬ FGFAλ₯Ό λŠ₯κ°€ν•œμ μ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ κ²°κ³ΌλŠ” λΉ„λ””μ˜€ Object Detectionμ—μ„œμ˜ End to End learning의 이점을 λ³΄μ—¬μ€λ‹ˆλ‹€.

  • STSN을 D&T의 κ²½μš°μ—λŠ” μ‹œκ°„μ  ν›„μ²˜λ¦¬(예: Seq-NMS, object-tube linking λ“±)κ°€ μ‚¬μš©λ˜μ§€ μ•ŠλŠ” μ„€μ •μ—μ„œ STSN이 D&T 기쀀선보닀 μƒλ‹Ήν•œ μ„±λŠ₯을 λ°œνœ˜ν•¨μ„ λ³΄μ—¬μ€λ‹ˆλ‹€. (78.9 λŒ€ 75.8). μ΄λŸ¬ν•œ κ²°κ³ΌλŠ” STSN이 κ°•λ ₯ν•œ μ‹œκ³΅κ°„ κΈ°λŠ₯을 ν•™μŠ΅ν•  수 있고 μ‹œκ°„ 경과에 따라 경계 μƒμž 감지λ₯Ό μ—°κ²°ν•˜λŠ” μ‹œκ°„μ  ν›„μ²˜λ¦¬ μ•Œκ³ λ¦¬μ¦˜ 없이도 κ²¬κ³ ν•œ λΉ„λ””μ˜€ 객체 감지 κ²°κ³Όλ₯Ό 생성할 수 μžˆμŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

  • λ˜ν•œ μ‹œκ°„μ  ν›„μ²˜λ¦¬ μ•Œκ³ λ¦¬μ¦˜ Seq-NMS λ₯Ό ν†΅ν•©ν•˜λ©΄ STSN의 κ²°κ³Όκ°€ λ”μš± ν–₯상됨을 λ³΄μ—¬μ€λ‹ˆλ‹€. μ΄λŸ¬ν•œ 방식을 톡해 μœ μ‚¬ν•œ Viterbi 기반 μž„μ‹œ ν›„μ²˜λ¦¬ 방식을 μ‚¬μš©ν•˜λŠ” D&T+λ₯Ό λŠ₯κ°€ν•  수 μžˆμŠ΅λ‹ˆλ‹€. (80.4 λŒ€ 79.8)

Ablation Studies

image-20211023061319879

Optimal Number of Supporting Frames. κ·Έλ¦Ό 3의 μ™Όμͺ½ κ·Έλž˜ν”„λŠ” 지원 ν”„λ ˆμž„ μˆ˜κ°€ λΉ„λ””μ˜€ 객체 감지 정확도에 μ–΄λ–€ 영ν–₯을 λ―ΈμΉ˜λŠ”μ§€ λ³΄μ—¬μ€λ‹ˆλ‹€. 지원 ν”„λ ˆμž„μ„ μΆ”κ°€ν•˜λ©΄ μ„±λŠ₯이 계속 ν–₯μƒλ˜κ³  T = 27μ—μ„œ μ •μ²΄λ©λ‹ˆλ‹€.

Increasing the Temporal Stride. 지원 ν”„λ ˆμž„μ„ μƒ˜ν”Œλ§ν•˜λŠ” μ‹œκ°„ 보폭 kκ°€ STSN의 μ„±λŠ₯에 μ–΄λ–€ 영ν–₯을 λ―ΈμΉ˜λŠ”μ§€ 쑰사 ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μš°λ¦¬λŠ” k = 2 및 k = 4의 μ‹œκ°„μ  보폭이 각각 79.0 및 77.9의 mAP 점수λ₯Ό μ‚°μΆœν•˜λŠ” 것을 ν™•μΈν•˜μ˜€μŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ k = 2μ—μ„œλŠ” μ›λž˜μ˜ 78.9mAP μ μˆ˜λ³΄λ‹€ μ•½κ°„ ν–₯μƒλœ κ²°κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ kλ₯Ό 더 큰 κ°’μœΌλ‘œ μ¦κ°€μ‹œν‚€λ©΄ 정확도가 κ°μ†Œν•˜λŠ” κ²½ν–₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

Feature Aggregation Weight Analysis. 각 μ§€μ§€ ν”„λ ˆμž„μ΄ μ΅œμ’… 물체 감지에 μ–Όλ§ˆλ‚˜ κΈ°μ—¬ν•˜λŠ”μ§€ λΆ„μ„ν•˜κΈ° μœ„ν•΄ λ‹€μ–‘ν•œ k 값에 λŒ€ν•œ 평균 무게 크기 $w_{t,t+k}(p)$λ₯Ό μ‹œκ°ν™”ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μ΄λŠ” κ·Έλ¦Ό 3의 였λ₯Έμͺ½ κ·Έλž˜ν”„μ— λ‚˜μ™€ μžˆμŠ΅λ‹ˆλ‹€. 이 경우 κ°€μ€‘μΉ˜ ν¬κΈ°λŠ” 개체의 쀑심에 μžˆλŠ” 점 p에 ν•΄λ‹Ήν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μ΅œμ’… 객체 감지 μ˜ˆμΈ‘μ— κ°€μž₯ 큰 영ν–₯은 κΈ°μ€€ ν”„λ ˆμž„(k = βˆ’1, 0, 1)에 κ°€κΉŒμš΄ 지원 ν”„λ ˆμž„μ—μ„œ λΉ„λ‘―λœλ‹€λŠ” 결둠을 내릴 수 μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ°Έμ‘° ν”„λ ˆμž„μ—μ„œ 더 멀리 λ–¨μ–΄μ Έ μžˆλŠ” 지원 ν”„λ ˆμž„(예: k = -9, 9)쑰차도 0이 μ•„λ‹Œ κ°€μ€‘μΉ˜λ₯Ό κ°€μ§€λ©° μ΅œμ’… 객체 감지 μ˜ˆμΈ‘μ— μƒλ‹Ήνžˆ 영ν–₯을 μ€λ‹ˆλ‹€.

Qualitative Results

STSN이 μ£Όμ–΄μ§„ λΉ„λ””μ˜€μ˜ μ‹œκ°„ 정보λ₯Ό μ–΄λ–»κ²Œ ν™œμš©ν•˜λŠ”μ§€ μ΄ν•΄ν•˜κΈ° μœ„ν•΄ κ·Έλ¦Ό 4μ—μ„œ STSN μƒ˜ν”Œλ§ 블둝에 μ˜ν•΄ 예츑된 평균 μ˜€ν”„μ…‹μ„ μ‹œκ°ν™” ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ˜€ν”„μ…‹μ€ STSN이 μ°Έμ‘° ν”„λ ˆμž„μ—μ„œ 개체λ₯Ό κ°μ§€ν•˜λŠ” 데 μ‚¬μš©λ˜μ–΄μ•Ό ν•˜λŠ” 지원 ν”„λ ˆμž„μ˜ 개체 μˆ˜μ€€ 정보λ₯Ό κ²°μ •ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. μ°Έμ‘° ν”„λ ˆμž„μ˜ 녹색 μ‚¬κ°ν˜•μ€ ν•©μ„±κ³± 좜λ ₯을 κ³„μ‚°ν•˜λ €λŠ” 픽셀을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€. μ§€μ§€ ν”„λ ˆμž„μ˜ 빨간색 μ‚¬κ°ν˜•μ€ 평균 μ˜€ν”„μ…‹μ„ λ‚˜νƒ€λ‚΄λ©°, μ΄λŠ” μ§€μ§€ ν”„λ ˆμž„μ—μ„œ μƒ˜ν”Œλ§ν•΄μ•Ό ν•˜λŠ” νŠΉμ§•μ μ„ κ²°μ •ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. λ…Έλž€μƒ‰ ν™”μ‚΄ν‘œλŠ” κΈ°μ€€ μ’Œν‘œκ³„μ™€ μ§€μ§€ μ’Œν‘œκ³„ μ‚¬μ΄μ˜ 물체의 μ›€μ§μž„μ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€. μ°Έμ‘° ν”„λ ˆμž„κ³Ό 지원 ν”„λ ˆμž„ μ‚¬μ΄μ˜ μƒλŒ€μ μœΌλ‘œ 큰 μ›€μ§μž„μ—λ„ λΆˆκ΅¬ν•˜κ³  STSN은 μ •ν™•νžˆ μš°λ¦¬κ°€ μ›ν•˜λŠ” 객체 쀑심 μ£Όλ³€μ˜ 지원 ν”„λ ˆμž„μ—μ„œ νŠΉμ§•μ„ μƒ˜ν”Œλ§ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ‹œκ³΅κ°„ μƒ˜ν”Œλ§μ„ 톡해 객체가 μ°Έμ‘° ν”„λ ˆμž„μ—μ„œ νλ¦¬κ±°λ‚˜ κ°€λ €μ§„ κ²ƒμ²˜λŸΌ 보이더라도 객체λ₯Ό 감지할 수 μžˆμŠ΅λ‹ˆλ‹€.

image-20211023061319879

λ˜ν•œ κ·Έλ¦Ό 4의 κ²°κ³Όλ₯Ό 기반으둜 λͺ…μ‹œμ  Optical Flow 감독 없이도 STSN이 객체의 μ›€μ§μž„μ„ μ •ν™•ν•˜κ²Œ μΊ‘μ²˜ν•˜λŠ” 방법을 ν•™μŠ΅ν•˜λŠ” 것을 κ΄€μ°°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

image-20211023061319879

κ·Έλ¦Ό 5μ—μ„œλŠ” STSN을 μ‚¬μš©ν•˜μ—¬ μ£Όμ–΄μ§„ λΉ„λ””μ˜€μ—μ„œ 개체λ₯Ό μΆ”μ ν•˜λŠ” λͺ‡ κ°€μ§€ 예λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€. κ·Έλ¦Ό 5μ—μ„œ μš°λ¦¬λŠ” 각 μ‹œν€€μŠ€μ—μ„œ μƒλŒ€μ μœΌλ‘œ 큰 μ›€μ§μž„μ—λ„ λΆˆκ΅¬ν•˜κ³  STSN이 λͺ¨λ“  지원 ν”„λ ˆμž„μ—μ„œ 객체 μ£Όλ³€μ˜ νŠΉμ§•μ„ μ •ν™•ν•˜κ²Œ μƒ˜ν”Œλ§ν•œλ‹€λŠ” 것을 κ΄€μ°°ν–ˆμŠ΅λ‹ˆλ‹€.

image-20211023061319879

κ·Έλ¦Ό 6μ—μ„œλŠ” 정적 SSN κΈ°μ€€μ„ μ˜ 개체 탐지와 전체 STSN λͺ¨λΈμ˜ 개체 탐지도 λ³΄μ—¬μ€λ‹ˆλ‹€. 이 λͺ¨λ“  κ²½μš°μ— μ‹œκ°„ 정보λ₯Ό ν†΅ν•©ν•˜λ©΄ STSN이 정적 κΈ°μ€€μ„ μ—μ„œ λ°œμƒν•œ μ‹€μˆ˜λ₯Ό μˆ˜μ •ν•˜λŠ” 데 도움이 λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, κ·Έλ¦Ό 6의 μ„Έ 번째 ν–‰μ—μ„œ 정적 SSN 기쀀선은 μ°Έμ‘° ν”„λ ˆμž„μ˜ 개체λ₯Ό μƒˆλ‘œ 잘λͺ» μ§€μ •ν•©λ‹ˆλ‹€. μ΄λŠ” λ„λ§ˆλ±€μ˜ 머리가 κ°€λ €μ Έ λ°œμƒν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ STSN은 μ§€μ§€ ν”„λ ˆμž„μ„ 보고 λ„λ§ˆλ±€ λͺΈμ²΄μ™€ 머리 μ£Όμœ„λ₯Ό μƒ˜ν”Œλ§ν•˜μ—¬ 이 μ‹€μˆ˜λ₯Ό μˆ˜μ •ν•©λ‹ˆλ‹€(κ·Έλ¦Ό 6의 3ν–‰, 1μ—΄ μ°Έμ‘°). Occlusion 및 Motion Blur의 κ²½μš°μ—λ„ μœ μ‚¬ν•œ κ²°κ³Όκ°€ λ°œμƒν•©λ‹ˆλ‹€.

5. Conclusion

λ³Έ λ…Όλ¬Έμ—μ„œλŠ” λΉ„λ””μ˜€ 정보λ₯Ό μ΄μš©ν•΄ Object Detectionλ₯Ό ν•˜λŠ” μƒˆλ‘œμš΄ μ•„ν‚€ν…μ²˜μΈ STSN(Spatiotemporal Sampling Network)을 μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€. λ³Έ 연ꡬ가 κΈ°μ—¬ν•˜λŠ” 사항은 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

  • 곡간과 μ‹œκ°„μ— 걸쳐 λ³€ν˜• κ°€λŠ₯ν•œ μ»¨λ³Όλ£¨μ…˜λ₯Ό μ΄μš©ν•΄ λͺ¨λΈ 섀계λ₯Ό 더 κ°„λ‹¨ν•˜κ²Œ ν•œ 점

  • Optical Flow에 λ”°λ₯Έ Training 데이터가 ν•„μš”ν•˜μ§€ μ•Šμ€ 점

  • κΈ°μ‘΄ 연ꡬ에 λΉ„ν•΄ 더 높은 λΉ„λ””μ˜€ 객체 감지 μ„±λŠ₯ νšλ“ν•œ 점

결둠적으둜, λ³Έ 연ꡬ 결과둜 λΉ„λ””μ˜€ 정보λ₯Ό μ΄μš©ν•œ Object Detection λͺ¨λΈμ˜ End to End Learning을 더 μ‰½κ²Œ ν•  수있게 λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μΆ”ν›„ 진행될 μ—°κ΅¬μ—μ„œλŠ” 더 λ³΅μž‘ν•œ μ‹œκ³΅κ°„ μƒ˜ν”Œλ§ 블둝을 μ‹€ν—˜ν•˜λŠ” λ‚΄μš©μ΄ λ‹΄κΈΈ μ˜ˆμ •μž…λ‹ˆλ‹€.

였늘의 κ΅ν›ˆ (Take home message)

일반적으둜 λΉ„λ””μ˜€ 정보λ₯Ό μ΄μš©ν•΄ Object Detection을 μ§„ν–‰ν•˜λŠ” 것은 λ§Žμ€ μ œμ•½ 사항이 있으며, λͺ¨λΈμ„ 섀계할 λ•Œ Optical Flowλ₯Ό 해석해야 ν•˜λŠ” λ“±μ˜ λ³΅μž‘ν•œ 단계λ₯Ό μš”κ΅¬ν•©λ‹ˆλ‹€.

곡간과 μ‹œκ°„μ— 걸쳐 λ³€ν˜• κ°€λŠ₯ν•œ μ»¨λ³Όλ£¨μ…˜μ„ ν™œμš©ν•˜λ©΄ μ œμ•½ 사항을 κ·Ήλ³΅ν•˜λ©΄μ„œλ„ End to End Learning을 ν•  수 μžˆλŠ” 더 λ‚˜μ€ μ„±λŠ₯의 λͺ¨λΈμ„ 얻을 수 μžˆμŠ΅λ‹ˆλ‹€.

Author / Reviewer information

Author

ν•œμ •λ―Ό (Han Jungmin)

  • Affiliation : Ph.D. student, Robotics Program, KAIST (Advisor: Dong-Soo Kwon)

  • Research Interest : Flexible Endoscopic Surgery Robot System, Surgical Navigation

  • Contact information

    • Personal E-mail : hanjungmin@kaist.ac.kr

    • Related Website Link

      • Telerobotics and Control Laboratory, KAIST : http://robot.kaist.ac.kr/

      • EasyEndo Surgical Inc. : https://www.easyendosurgical.com/

Reviewer

  1. Korean name (English name): Affiliation / Contact information

  2. Korean name (English name): Affiliation / Contact information

  3. ...

Reference & Additional materials

  1. Citation of this paper

    1. Bertasius, Gedas, Lorenzo Torresani, and Jianbo Shi. "Object detection in video with spatiotemporal sampling networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

  2. Official (unofficial) GitHub repository

    1. None

  3. Citation of related work

    1. Kang, K., Li, H., Yan, J., Zeng, X., Yang, B., Xiao, T., Zhang, C., Wang, Z., Wang, R., Wang, X., Ouyang, W.: T-CNN: tubelets with convolutional neural networks for object detection from videos. IEEE TCSVT 2017 (2017)

    2. Kang, K., Ouyang, W., Li, H., Wang, X.: Object detection from video tubelets with convolutional neural networks. CoRR abs/1604.04053 (2016)

    3. Han, W., Khorrami, P., Paine, T.L., Ramachandran, P., Babaeizadeh, M., Shi, H., Li, J., Yan, S., Huang, T.S.: Seq-nms for video object detection. CoRR abs/1602.08465 (2016)

    4. Feichtenhofer, C., Pinz, A., Zisserman, A.: Detect to track and track to detect. In: International Conference on Computer Vision (ICCV). (2017)

    5. Zhu, X., Wang, Y., Dai, J., Yuan, L., Wei, Y.: Flow-guided feature aggregation for video object detection. In: International Conference on Computer Vision (ICCV). (2017)

  4. Other useful materials

    1. Presentation Video Clip: https://www.youtube.com/watch?v=EZg3LT1OSi4

    2. Author Information (Gedas Bertasius) : https://scholar.google.co.kr/citations?hl=ko&user=8FWkjw8AAAAJ&view_op=list_works&sortby=pubdate

Last updated

Was this helpful?