RCNN [Kor]
Girshick et al. / Rich feature hierarchies for accurate object detection and semantic segmentation / CVPR 2014
1. Problem definition
Object Detection ๋ถ์ผ๋ ํ๋์ ์ ์ฒด๋์๊ณ 2012๋ ILSVRC (ImageNet Large Scale Visual Recognition Callenge) ์์ CNN์ด ์๋ ค์ก๋ค. ์ด ๋ ผ๋ฌธ์ PASCAL VOC Challenge์์ CNN์ผ๋ก classification ๋ฟ๋ง ์๋๋ผ ์ฑ๋ฅ ์ข์ object detection์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
2. Motivation
Region proposal๊ณผ CNN์ ํตํ clssification์ ๊ฒฐํฉํ์ฌ object detection์ ๊ดํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ. ์ดํ RCNN์ ๋ฐํ์ผ๋ก RCNN ๊ณ์ด (Fast RCNN, Faster RCNN, Mask RCNN ๋ฑ) ๋ ผ๋ฌธ๋ค์์ ๊พธ์คํ ์ฑ๋ฅ๊ณผ ์๋๋ฅผ ํฅ์

์ด๋ฏธ์ง๋ฅผ ์ง์ด๋ฃ๋๋ค.
2000๊ฐ ์ดํ์ ์์ญ์ ์ถ์ถํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์๋ผ๋ธ๋ค.
์๋ผ๋ธ ์ด๋ฏธ์ง์ ์ฌ์ด์ฆ๋ CNN ๋ชจ๋ธ์ ๋ง๊ฒ ์กฐ์ ํ๋ค. (227x227 pixels)
์ด๋ฏธ์ง๋ฅผ ImageNet์ ํ์ฉํ pre-trained CNN ๋ชจ๋ธ๋ก ์ฐ์ฐํ๋ค.
๊ฐ ์์ญ๋ณ๋ก ์๋ผ๋ธ ์ด๋ฏธ์ง๋ค์ CNN ๊ฒฐ๊ณผ๋ก ๋์จ feature map ์ ํ์ฉํ์ฌ, SVM์ผ๋ก Classification ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ค.
regressor๋ฅผ ํตํ bounding box regression์ ์งํํ๋ค.
์์ ๊ณผ์ ์์ ๊ฐ ๋ฌผ์ฒด์ ์์ญ์ ์ฐพ์๋ด๋ Region proposal๊ณผ ์๋ผ๋ธ ์ด๋ฏธ์ง๋ค์ ๋ถ๋ฅํ๋ clssification์ ์ํํ๊ฒ ๋๋ค. ์ด 2๊ฐ์ง์ ๊ณผ์ ์ ์ฐ๋ฌ์ ์งํํจ์ผ๋ก์จ object detection์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
3. Method
object detection ์์คํ ์ 3๊ฐ์ง์ ๋ชจ๋๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
Region proposal
selective search๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ์์ญ์ ๋ถ๋ฆฌํ์ฌ ์ชผ๊ฐ ๋ค. [0,1] ์ฌ์ด๋ก ์ ๊ทํ๋ 4๊ฐ์ง ์์ (์์, ์ฌ์ง, ํฌ๊ธฐ, ์ฑ์) ๋ฑ์ ๊ฐ์คํฉ์ผ๋ก ์ ์ฌ๋๋ฅผ ์ธก์ ํ๋ค. ์ด๊ธฐ์ ์ ํ๋ ์์ญ๋ค ์ค์ ์ ์ฌ๋๊ฐ ๋์ ์์ญ๋ค์ ์ ํํ์ฌ ๋ณํฉํ๋ค. ๋ณํฉํ ์์ญ๊ณผ ๋ค๋ฅธ ์์ญ์ ์ ์ฌ๋๋ฅผ ์ฌ์ ์ํ๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ์ ์ฌ๋๊ฐ ๋์ ์์ญ๋ค์ ํฉ์ณ ๊ฐ ์์ญ์ ๊ตฌ๋ถํ๋ค.
Pre-trained CNN (Convolutional Neural Network)
region proposal์ ์ํด ์ชผ๊ฐ์ง ์ด๋ฏธ์ง๋ค์ 227x277 ์ฌ์ด์ฆ๋ก ๋ง์ถ๋ค. ๊ณ ์ ๋ ์ฌ์ด์ฆ๋ก ๋ง์ถฐ์ง ์ด๋ฏธ์ง๋ฅผ CNN์ ๋ฃ์ด์ Classification์ ์งํํ๋ค. ๊ธฐ์กด์ AlexNet์ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๋ค. ๋จ์ง object detection์ ์ํด์ 1000๊ฐ์ class๋ก ๋ถ๋ฅํ๋ ๊ตฌ์กฐ๋์ ์ (200,20)์ feature map์ ์ถ์ถํ๋๋ก ๋ณํ์ ์์ผฐ๋ค.
SVM (Support Vector Machine) CNN์ ํตํด์ feature๋ค์ด ์ถ์ถ๋๋ค. Feature ๋ค์ ์ด์ฉํด์ Linear SVM์ผ๋ก Classifciation์ ์งํํ๋ค.
Bounding Box Regression Region proposal์ ๊ฑฐ์น๋ฉด์ ์ถ์ถ๋ bounding box์ธ P์ ground truth bounding box๋ฅผ ๋ง์ถ๋๋ก ํ์ต์ ํ๋ ๊ฒ์ด Bounding Box Regression์ ๋ชฉํ์ด๋ค.
4. Experiment & Result
TBD
Result
Please summarize and interpret the experimental result in this subsection.
5. Conclusion
RCNN์ ๊ธฐ์กด PASCAL VOC 2012์ ๊ฐ์ฅ ์ข์ ๊ธฐ๋ก๋ณด๋ค 30%์ ์ฑ๋ฅ์ด ํฅ์๋ฌ๋ค. 2๊ฐ์ง ๊ด์ ์์ ์์๋ฅผ ๊ฐ์ง๋ค. ํ๋๋ region proposal๊ณผ CNN์ ํ์ฉํ Object detection ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๊ฒ์ด๊ณ , ๋๋จธ์ง๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํ์์ pre-train ๋ ๊ฑฐ๋ CNN๊ณผ ํน์ ๋ชฉ์ ์ผ๋ก fine-tuneํ์ฌ ํจ์จ์ฑ์ ์ ๊ณ ํ๋ค๋ ๊ฒ์ด๋ค.
Author / Reviewer information
Author
Korean Name (English name)
๊ถ๋ฌธ๋ฒ (NAVER)
https://github.com/MBKwon
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Citation of this paper
Official (unofficial) GitHub repository
Citation of related work
Other useful materials
...
Last updated
Was this helpful?