SlowFast Networks [Kor]
Christoph et al. / SlowFast Networks for Video Recognition / ICCV 2019
1. Problem definition
ëłž ë ŒëŹžìì ë€ëŁšë 돞ì ë video recoginionì ëë€. Image RecognitionêłŒ ë§ì°Źê°ì§ëĄ visual data넌 ë°ìì, ìŽ videoê° ëŹŽìì ëíëŽêł ì íëì§ ìžìì íë 돞ì ì ëë€. Video Recognition taskë Image RecognitionêłŒ ë§ì°Źê°ì§ëĄ ìŹëŹ ìžë¶ë¶ìŒëĄ ëëìŽì§ ì ìëë°, ê·ž ì€ ìŽ ë ŒëŹžììë 2ê°ì§ ë°©ëČì ìŹì©íìŹ ì±ë„ì 볎ìŹìŁŒêł ìì”ëë€.
Video Action Recogniton (ëčëì€ ëì ìžì)
ìžê°ì ëì ìžìì ìì ìŽíŽì ì€ìí ìí ì íêł ìì”ëë€. ìžê°ì íëì ìžìíë êž°ì€ì ìžë¶ ëȘšì”, êčìŽ, êŽí íëŠ, ê·žëŠŹêł ì ìČŽ êłšêČ©êłŒ ê°ì ìŹëŹ ê°ì§ ìììŒëĄ ìžìë ì ìì”ëë€. ê·žë êž°ì ë§ìœ íì”ë networkê° Action Recognitionì ì ìííë€ë©Ž, ëčëì€ë„Œ ì ìŽíŽíë€êł íŽìí ì ìì”ëë€.
Video Action Detection (ëčëì€ ëì êČì¶)
ìŒë°ì ìŒëĄ ëì êČì¶ì ëì ìžììŽë ë¶ë„ëłŽë€ ìŽë €ìŽ taskëĄ ìë €ì ž ìì”ëë€. ëčëì€ ëŽìì ëìì ìžìí ëżë§ ìëëŒ, ê·žì ë°ë„ž Bounding box(êČœêł ìì)넌 ê·žë €ìŒ íêž° ë돞ì ë ìŽë €ìŽ taskì ëë€. Action RecognitionëłŽë€ ìŽë €ìŽ taskìŽëŻëĄ ìŽ task넌 ì íŽëŽë©Ž ë ëčëì€ë„Œ ì ìŽíŽíë€êł íŽìí ì ìì”ëë€.
2. Motivation
Video ë°ìŽí°ë ImageëłŽë€ ë ë€ëŁšêž° ìŽë €ìŽë° ê·ž ìŽì ë (H,W,C)ì ëíŽì (H,W,C,T)ìČëŒ Channel dimension ë€ì ì¶ê°ë Temporal(ìê°ì¶) ëë©ìžì ê°ì§êł ìêł , ë°ìŽí°ì íŹêž° ììČŽë ë íŹêž° ë돞ì ëë€.
íì§ë§ ìŽì ì°ê”Źë€ììë ëčëì€ ë°ìŽí°ì ì ëí íčì±ì êł ë €íì§ìêł êł”ê°ì¶(Spatial) ëë©ìžêłŒ ìê°ì¶(Temporal) ëë©ìžì ëê°ìŽ ìČëŠŹë„Œ íìì”ëë€. ìŽì ëłž ë ŒëŹžììë ëê°ì íčì±ì êł ë €íìŹ ëê°ì ë€ë„ž ë€ížìíŹë„Œ ìŹì©íŽì ë€ë„ž ì ëłŽë„Œ ë°°ììŒ íë€êł ìŁŒì„í©ëë€.
ìŽë êČ ëê°ì íčì±ì êł ë €íë ë°©ëČì ìì„ë„ì ìê° ìì€í ì°ê”Źìì motivationì ë°ìë€êł ë§íêł ìì”ëë€. ìì„ë„ ë§ë§ ì êČœì ìì€í ìë ëê°ì§ ìą ë„ì ì ëĄ ê”Źì±ëìŽìëë° íëë P-cell ìŽêł ë€ë„ž íëë M-cell ì ëë€. ìŹêž°ì P-cellì ìì€í ìì 80íŒìŒíž ì ë넌 ì°šì§íêł ìŽ ì ìŽ íë ìí ì êł”ê°ì ìž ìžë¶ìŹí(Spatial details)ë€ì ë°°ì°ëë° êž°ìŹë„Œ íë€êł í©ëë€. ê·žëŠŹêł M-cellì ìì€í ìì 20íŒìŒíž ì ë ì°šì§ë„Œ íëë° ëč 넞 ìê°ì ëłí, ìŠ ìê°ì ìž êČë€(Temoral details)넌 ë°°ìŽë€êł ìŽ ì€íììë ë°íêł ììì”ëë€.
Related work
3D Convolution
2D ConvNetsìŽ (H,W,C)ì kernel sizeëĄ ìì§ìžë€ë©Ž, 3D ConvNetsì (H,W,C,T)ì KernelëĄ ìì§ìŹì data넌 ìČ늏íë€ë ì ìŽ ë€ëŠ ëë€. 2D Convolutionìì T dimensionì ì¶ê°íìŹ Spatiotemporal domainêčì§ ìČëŠŹê° ê°ë„íëëĄ ë°êŸŒ ëȘšëžì ëë€. íì§ë§, ëłž ë ŒëŹžìì ì§ì íë°ì ê°ìŽ êł”ê°ì¶(Spatial) ëë©ìžêłŒ ìê°ì¶(Temporal) ëë©ìžì ëê°ìŽ ìČëŠŹë„Œ íë€ë ëšì ìŽ ìì”ëë€.
Optical Flow Video Recognition
êŽí íëŠì íœì ëč ììžĄìŽë©° ìŁŒì ììŽëìŽë ë°êž°ê° ìŒì íë€êł ê°ì íë€ë êČì ëë€. ìŠ, ìê°ìŽ ì§ëšì ë°ëŒ í멎ìì íœì ë°êž°ê° ìŽë»êČ ìŽëíëì§ ì¶ì íë €êł í©ëë€. íì§ë§ êŽííëŠì ìŒìŒìŽ ììì ìŽ ë€ìŽê° ë°ìŽí°ìŽìŹì representationì ë°°ìž ë, deep learning networkê° human errorë biasedë ìžíì ë°ëë€ë ëšì ìŽ ìì”ëë€.
Idea
ìŽëŹí êł”ê°ì¶(Spatial) ëë©ìžêłŒ ìê°ì¶(Temporal) ëë©ìžìŽ ë€ë„Žë€ë ì ì ëłž ë ŒëŹžììë ìžì§íìŹì, ëê°ì ì ëłŽë„Œ ë°ëĄ ë°°ìž ì ìëëĄ two-stream ìŠ ëê°ì network넌 ìŽì©íêł ìì”ëë€. íëë Slow PathwayëĄ ë§ ê·žëëĄ ìČìČí ë°°ì°ì§ë§ êł”ê°ì (Spatial)ìž ì ëłŽë„Œ ë°°ì°êł ë€ë„ž íëë Fast PathwayëĄ ëč 넎êČ ë°°ì°ì§ë§ ìê°ì (Temporal)ìž ì ëłŽë„Œ ë°°ìŽë€êł ìê°íêł ìì”ëë€.
3. Method
ìì Ideaìì ì€ëȘ ëë žë êČêłŒ ê°ìŽ, ëê°ì network넌 íì©íìŹ íì”ì íêł ìì”ëë€. ê·ž ëê°ì networkë ìŹëŹ ë©Žìì ìą ë€ë„ž êČë€ìŽ ìëë° ë°ìì ìą ë ììží ì€ëȘ ë늏ëëĄ íêČ ì”ëë€. ê·žëŠŹêł ê·ž ëê°ì networks넌 íì”ìí€ë ëì ê·ž ëì ì ëłŽë„Œ ì íì©íêž° ìíŽì Lateral ConnectionìŒëĄ ì°êȰíìŹì ì ëłŽë„Œ ìŁŒêł ìì”ëë€. ëê°ì backbone architectureëĄë CNN-based멎 ì ë¶ ì ì©ìŽ ê°ë„íë€êł ëłž ë ŒëŹžì ë§íêł ìì”ëë€.
Slow Pathway
Slow Pathwayë 3D ConvolutionêłŒ ê°ìŽ, (H,W,C,T)ì input data넌 ìČ늏í ì ìë network넌 ìŹì©íêł ìŹêž°ì ì ìŒ íŹêČ ë€ë„žì ì ëȘšë input frames넌 ì°ì§ ìêł ì stride넌 ê°ì§ë data넌 íì©íë€ë ì ì ëë€. ì넌ë€ìŽ, ìŽë©Ž, 32fpsì ê°ì§ë input viedoììë 2ê°ì frameì íì©íìë€êł ëłŒ ì ìì”ëë€.
Fast Pathway
Fast Pathwayì ì ìČŽì ìž ê”ŹìĄ°ë Slow Pathwayì íŹêČ ë€ë„Žì§ ìì”ëë€. íì§ë§, ìê°ì (Temporal)ì ìž ì ëłŽë„Œ ë°°ì°êž° ìíŽì ì€ì ì ìŒëĄ 2ê° ì ëì ëłíì íìì”ëë€.
ëì íë ì ëčìš
Slow PathwayëłŽë€ ì ë°°ë§íŒ ë ë§ìŽ íë ìì ìíí©ëë€. ìŠ, ë§íŒì stride넌 ê°ì§ë€ë êČì ëë€. ì넌ë€ìŽ, ìŽë©Ž, 32fps넌 ê°ì§ë input videoììë 16ê°ì frameì íì©íìë€êł ëłŒ ì ìì”ëë€.
ëźì ì±ë ê°Żì
ëê°ì networks넌 two-streamë°©ììŒëĄ ìŽì©ì íêČ ëë€ë©Ž, ì ìČŽì ìž architectureê° ê”ì„í ëŹŽê±°ìì§ë€ë ëšì ìŽ ìì”ëë€. ìì„ë„ ìì êČœ ìì€í ìì M-cellsê° 20% ì ë넌 ì°šì§íêł ììë ë§íŒ, network넌 ê°ëłêČ ë§ë€êž° ìíŽì Fast pathwayì Channel ê°Żì넌 ë§íŒ ì€ìŹ ì€ëë€. ëłž ë ŒëŹžììë ê°ì ëí Ablation study넌 ì§ííìŹ ê°ìŒëĄ ì§ì íìë€êł ë§íêł ìì”ëë€. ìŽì ë°ëŒ ì ìČŽ ì°ìëì ~20%ì ë넌 ì°šì§íë€êł ë§í©ëë€. ëí ìŽëŹí ëźì ì±ë ê°Żì넌 ì ì§íšìŒëĄìš, Fast pathwayê° ì±ë ê°Żìê° ì êž° ë돞ì êł”ê°ì (Spatial) ì ëłŽë„Œ ë ë°°ìŽë€êł ìŁŒì„íêł ìì”ëë€.
Lateral Connections
ëê°ì netowrk넌 ë 늜ì ìŒëĄ ìŽìí멎ìë, ê·ž ëì í©ìč ì ëłŽë„Œ ëì€ì íì©í ì ìëëĄ í©ìłì€ìŒ í©ëë€. íì§ë§, ëê°ì feature shapeì networkì ííê° ëŹëŒì ë€ë„ž ííëĄ ëì€êČ ë©ëë€. Slow Pathwayë {, , }ì shapeì ê°ì§ì§ë§, Fast Pathwayë {, , }ì shapeì ê°ì§ëŻëĄ ê·ž ëì ì êž°ì ìŒëĄ ì ì°êȰí ì ìëëĄ 3D convolutionì íì©íìŹ ì°êȰíêł ìì”ëë€. êȰê”ìë Fast Pathwayì ì ëłŽê° Slow Pathwayê° ì ëìí ì ìëëĄ ëìì ìŁŒë ííëĄ ëëë°, ëì ì 볎ë ë§€ "stage"ë§ë€ í©ìłì§êČ ë©ëë€. ìŹêž°ì ë§íë ë§€ "stage"ë ResNet architectureêž°ì€ìŒëĄ BlockìŽë Poolì íêł ë ë€ììŽëŒêł ìê°íì멎 ë©ëë€.

Instantiations
ë ŒëŹžìì ìŹì©ë ResNet-50êž°ë° Instantiationsì ëë€. Slow Pathwayê° stride넌 16ì ê°ì§ë ë°ë©Ž, Fast Pathwayë 2넌 ê°ì§êł ìêł , ìŽì ë°ëŒ channelsì ê°Żìë 1/8ìŽ ë ëȘšì”ì 볎ìŹìŁŒêł ìì”ëë€. ê·žëŠŹêł output sizeììë Fast Pathwayë ë ëì temporal resolutionìž 32넌 ê°ì§êł ìêł Slow Pathwayë 4넌 ê°ì§êł ìì”ëë€.

4. Experiment & Result
Experimental Setup
Dataset
ëłž ë ŒëŹžììë Kinetics-400, Kinetics-600 ê·žëŠŹêł Charades넌 Video Action Classification (ëčëì€ ëì ë¶ë„)ì ìŹì©íêł ìì”ëë€. Video Action Detection(ëčëì€ ëì êČì¶)ì ìíŽìë AVA datasetì ìŽì©íêł ìì”ëë€.
Training Setup
ì ì ìë ë°©ëČë€êłŒ ëŹëŠŹ, ImageNetìŒëĄ pretrainingì íì§ ììì”ëë€. OptimizerëĄë SGD넌 ìŹì©íìŹ íì” íìì”ëë€. Trainingììë ìŽ ê°ì íë ììì Slow Pathwayë Të§íŒ Fast Pathwayë ë§íŒ sampleíŽì ížë ìŽëì ìí€êł ìì”ëë€. Inferenceììë ìŽ 10 íŽëŠœì ëœìì, ê·žêČì 3ëČ cropìíìŹ ìŽ 1ê°ì ëčëì€ìì 30ê°ë„Œ ìííìŹ inferenceíêł ììì”ëë€.
Result

Kinetics-400ìì ìì ê°ìŽ SlowFast networksê° SOTAì êČ°êłŒë„Œ 볎ìŹìŁŒêł ìì”ëë€. BaselineìŒëĄ ìŒì R(2+1)D볎ë€ë ìœ ì ëì ììčíì 볎ìŹìŁŒêł ìêł , ë ëì ëëêČì GFLOPs x viewsìžë°, SlowFastë 30ê°ì sampleê°Żìë§ ìŽì©í ë°ë©Ž, Baselineì 115ê°ì sampleì ìŽì©íêł ìì”ëë€.

AVA-Detection taskììë SOTAì êČ°êłŒë„Œ 볎ìŹìŁŒêł ìì”ëë€. ìŹêž°ì íê°ì§ ìŁŒìí ì ì, SlowFast Networksê·ž ììČŽëĄë§ì Detection tasks넌 ìíí ì ììŽì, Faster R-CNNìì ROI(Region of Interest)넌 ë°ìì ê·ž ìì Classificationíë networkë§ SlowFast넌 ìšì accuracy넌 ê”Źíë€ë ì ìŽ ìì”ëë€.

ì 귞늌ììë ìŒë§ë Fast Pathwayê° helpfulíì§ ëíëŽë 귞늌ì ëë€. íëì ì ìì ìŽëĄì ì ìŒëĄ ìŹëŒê° ììčíìŽ, Slow Pathway íê°ë§ ìŒì ëëłŽë€ Fast Pathway넌 ì¶ê°íìì ë ììčíì ëíëŽë ì ì ëë€. ë ëčšê°ì íìŽíë, network íŹêž°ê° ëë°°ê° ëìëë°ë ë ìĄ°ê·žë§í networkìž Fast Pathway넌 ì¶ê°í êČìŽ íšìŹ Accuracyë ëêł ì°ì°ëë ì ì êČì ëłŒ ì ìì”ëë€.
5. Conclusion
ëłž ë ŒëŹžììë ìê°ì (Temporal) ì 볎ë íčëłíêž° ë돞ì ë€ë„ŽêČ ë€ë€ìŒ íë€êł ë§íêł ìì”ëë€. ìŽìë°ëŒ ìê°ì (Temporal) ëë©ìžêłŒ êł”ê°ì (Spatial) ëë©ìžì ì ëłŽë„Œ ë€ë„ŽêČ íì”íë Two-StreamsëĄ ëê°ì network넌 ë§ë€ìŽ íì”ì ìí€ìêł , ê·žì ë°ëŒ ëëŒìŽ êČ°êłŒë„Œ 볎ìŹìŁŒêł ìì”ëë€.
íì§ë§, Fast Pathwayìì Channel ê°Żì넌 ì€ìŽêł , temporal resolutionì ëìžêČìŽ íì°ì ìŒëĄ Fast Pathwayê° ìê°ì (Temporal) ëë©ìžì ì ëłŽë„Œ íì”íëì§ë ìëŹžìŽ ëëë€. ëŹŒëĄ êČ°êłŒì ìŒëĄ Fast Pathway넌 ì¶ê°í êČìŽ ëììŽ ëìì§ë§, ìŽ Fast Pathwayì ëí Ablation Studiesë§ ìêł ëŹŽìì ë°°ì°êł ìëì§ Quatlitativeì ìž ë¶ììŽ ì í ìë ì ìŽ ììŹìŽ ì ìž êČ ê°ì”ëë€.
Take home message (ì€ëì ê”í)
ìê°ì¶(Temporal)êłŒ êł”ê°ì¶(Spatial)í ì 볎ë ë€ë„ž íčì±ì ê°ì§êž° ë돞ì ë€ë„ŽêČ ë€ë€ìŒ íë€. ëê°ì networks넌 ë°ëĄ ìŹì©íë êČìŽ íê°ì network넌 ëë°°íŹêž°ëĄ ë§ëë êČëłŽë€ ë í° ì±ë„ì ëŒ ìë ìë€. ë€ë„ž ë¶ìŒìì motivationì ì»ìŽì AI/MLë¶ìŒì ì ëȘ©ì ìí€ë êČìŽ íììë ëłŽì§ ëȘ»íìë ìëĄìŽ ë°©ëČìŒëĄ 돞ì 넌 ì ê·Œí ìë ìë€.
Author / Reviewer information
You don't need to provide the reviewer information at the draft submission stage.
Author
êčìì°Ź (Yechan Kim)
M.S student, Graduate School of AI, KAIST
yechankim@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Feichtenhofer, Christoph, et al. "Slowfast networks for video recognition." Proceedings of the IEEE/CVF international conference on computer vision. 2019.
Last updated
Was this helpful?