CNN Cascade for Face Detection [Kor]
Li et al. / A Convolutional Neural Network Cascade for Face Detection / CVPR 2015
1. Problem definition
์ผ๊ตด ์ธ์์ ์ผ๋ฐ์ ์ธ Object Detection ๋ฌธ์ ๋ณด๋ค ์กฐ๊ธ ๋ ์ด๋ ต๋ค๊ณ ์๋ ค์ ธ ์๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ผ๊ตด ํ์ , ํฌ์ฆ, ์ธ์ข , ์กฐ๋ช ๊ณผ ๊ฐ์ ์ฃผ๋ณ ํ๊ฒฝ์ ๋ฐ๋ผ ์๊ฐ์ ์ผ๋ก ์ํฅ๋ฐ๋ ์์๊ฐ ์๋นํ ๋ง๋ค. ๋ํ ์ ์ฒด ์ด๋ฏธ์ง์์ ์ฐพ์์ผ ํ๋ ์ผ๊ตด์ด ๋ง๊ณ , ํฌ๊ธฐ๊ฐ ์๋ค๋ฉด ์๊ณ ๋ฆฌ์ฆ์ ์ธ์ ์ฑ๋ฅ์ด ๋จ์ด์ง๊ฒ ๋๋ค.
์์ ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ ์ ํํ ์ด์ง ๋ถ๋ฅ ์ฑ๋ฅ๊ณผ ๋น ๋ฅธ ์ฐ์ฐ ์ฑ๋ฅ์ ์๊ตฌํ๋ค. ํด๋น ๋ ผ๋ฌธ์์๋ CNN๊ณผ Cascade architecture๋ฅผ ์ฌ์ฉํ์ฌ ์ ํ๋์ ์ฑ๋ฅ์ ๋ชจ๋ ๋ง์กฑํ๋ Convolutional Neural Network Cascade๋ฅผ ์๊ฐํ๋ค.
2. Motivation
๊ธฐ์กด์ ์๋ ค์ง ์ผ๊ตด์ธ์ ์๊ณ ๋ฆฌ์ฆ๋ค์ Haar feature์ ๊ฐ์ ๊ฐ๋จํ ํน์ง๋ค์ ์ด์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ค. ์ด๋ฌํ ํน์ง๋ค์ ์ ๋ฉด์์ ์ฐ์ ์ ์ ๋ ์ผ๊ตด๋ค์ ์ ํํํ์ง๋ง ์ ์ ๋์ง ์์ ํ๊ฒฝ์์์ ์ผ๊ตด์ ์ธ์ํ๋ ์ํฉ์์๋ ์๋์ ์ผ๋ก ์ฝ์ธ๋ฅผ ๋ณด์๋ค.
๊ทธ๋์ ์ด๋ฌํ ๋ฌธ์ ์ ๋ค์ ๋ณด์ํ๊ธฐ ์ํด ๋ง์ ๊ฐ์ ์ฌํญ๋ค์ด ์ ์๋์๋๋ฐ ์ด๋ค ์ค ๋ง์ ์๋ ๊ฐ๋จํ ํน์ง ๋์ ์ ์ฌํ๋ ํน์ง์ ์ด์ฉํ๋ ๊ฒ์ด์๋ค.
์ ์๋ CNN์ ์ด์ฉํ์ฌ ํน์ง์ ์ถ์ถํ๋ฉด ๊ธฐ์กด์ ์์ ์ป์ ํน์ง์ ์ฌ์ฉํ๋ ๊ฒ์ ๋นํด ์ ์ ๋์ง ์์ ์ํฉ์์ ์ผ๊ตด์ ๋ ์ ํํํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค.
ํ์ง๋ง CNN์ ์ด์ฉํด์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ์ค์บํ๋ ๊ฒ์ ์๋นํ ์ฐ์ฐ๋์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ์ ์๋ CNN cascade๋ฅผ ๋์ ํ๋ค.
์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ์ฌ ํ๋ณด๋ค์ ๊ฑธ๋ฌ๋ด๊ณ , ์์ ๋ ํ๋ณด๋ค์ ๋์์ผ๋ก ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํด ์ ์คํ๊ฒ ํ๋จํ๋ ๋ฐฉ์์ด๋ค.
Related work
1994๋ Vaillanํ์ ์ผ๊ตด์ธ์์ ์ ๊ฒฝ๋ง์ ์ ์ฉํ๋ค. ๊ทธ๋ค์ ์ด๋ฏธ์ง์ ์ผ๊ตด์ด ์๋ ์ง ์๋ ์ง๋ฅผ ์ธ์ํ๋ CNN์ ํ์ตํ๋ ๊ฒ์ ์๊ฐํ๋ค.
1996๋ Rowleyํ์ ๋๋ฐ๋ก ์์๋ ์ ๋ฉด ์ผ๊ตด์ ๋ํ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ์๊ฐํ๊ณ , "router" ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌ ํ์ ์ ์๊ด์์ด ์ธ์ํ๋ ๊ตฌ์กฐ๋ก ํ์ฅ์์ผฐ๋ค.
2002๋ Garciaํ์ ๋ณต์กํ ์ด๋ฏธ์ง์์ ๋ฐ๋ง ์ ๋ฉด์ธ ์ผ๊ตด์ ์ธ์ํ๋ ๋ฐ ์ฑ๊ณตํ๋ค.
2005๋ Osadchyํ์ ์ผ๊ตด์ธ์๊ณผ ํฌ์ฆ๋ฅผ ๋์์ ์ธ์ํ๋ CNN์ ํ์ต์์ผฐ๋ค.
์ฌํ๊น์ง ์๊ฐ๋ ๊ด๋ จ ์ฐ๊ตฌ๋ค์ ์ ์ ๋ ์ํฉ์์ ์ ๋ฉด์ ๋ฐ๋ผ๋ณด๋ ์ผ๊ตด์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ง๋ง ์ ์ ๋์ง ์์ ์ํฉ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ์ง ์๋ ค์ง ๋ฐ๊ฐ ์๋ค.
์ต๊ทผ CNN ๊ธฐ๋ฐ์ ์ธ์ ๋ฐฉ๋ฒ ์ค ์ ์๋ ค์ง ๊ฒ ์ค ํ๋๋ VOC 2021์์ state-of-the-art๋ฅผ ๋ฌ์ฑํ Girshick ํ์ R-CNN์ด๋ค.
ํ์ง๋ง R-CNN ์ญ์ ๋ณต์กํ ์๊ฐ์ ํน์ง์ ๊ฐ์ง ์ผ๊ตด์ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์ธ์ํ๊ธฐ์๋ ์ด๋ ค์์ด ๋ฐ๋ฅธ๋ค.
Idea
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ ์ฌ๋ฌ ๊ฐ์ CNN์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ฌ์ด์ฆ๋ฅผ ํค์๊ฐ๋ฉด์ ์์ฐจ์ ์ผ๋ก ๋ฐฐ์นํจ์ผ๋ก์จ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์ผ๊ตด ์ธ์์ ์ํํ๋ CNN cascade ๊ตฌ์กฐ์ ์๋ค. detection์ ํ๋ณด๊ฐ ๋๋ ์ ์ฒด detection window๋ฅผ CNN์ ํตํด ์ฐ์ฐํ๊ฒ๋๋ฉด ๋๋ ค์ง ์ ์๋๋ฐ, ๋ฎ์ ํด์๋๋ก resizeํ์ฌ false positive๋ฅผ ๊ฑธ๋ฌ๋ด๊ณ ๊ณ ํด์๋์์ ์ ๋ฐํ ์ด์ง ๋ถ๋ฅ๋ฅผ ์ํํ๋ค. ๋ํ CNN ์ฌ์ด์์ ์๋ก์ด ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋๊ฒจ์ฃผ๋ ๊ณผ์ ์์ ์ ํ๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด ๋ค์ค ํด๋์ค ๋ถ๋ฅ CNN์ ์ด์ฉํ calibration stage๋ฅผ ๋์ ํ์๋ค.
3. Method
Overall framework
์ ์ฒด ํ ์คํธ ํ์ดํ๋ผ์ธ์ ์๋ ๊ทธ๋ฆผ์ ํตํด ๋ณผ ์ ์๋ค. ์ฃผ์ด์ง ํ ์คํธ ์ด๋ฏธ์ง์ ๋ํด 12-net์ด ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ 12x12 ์ฌ์ด์ฆ์ ์๋์ฐ๋ฅผ ์ด์ฉํ์ฌ ์ค์บํ๊ณ 90%์ ํ๋ณด๋ฅผ ์ ์ธ์ํจ๋ค. ๋จ์ ํ๋ณด๋ค์ 12-calibration-net๋ฅผ ์ด์ฉํ์ฌ ์ผ๊ตด์ด ์ค์์ ์ค๋๋ก ์ฌ์ด์ฆ์ ์์น๊ฐ ์กฐ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ฒฉ๋ ์์ญ์ ์ ๊ฑฐํ๊ธฐ ์ํด NMS(Non Maximum Suppression)๊ฐ ์ํ๋๋ค.
๋์ผํ ๊ณผ์ ์ 24x24 ์ฌ์ด์ฆ์ ์๋์ฐ๋ฅผ ์ด์ฉํ 24-net, 24-calibration-net์์ ์ํํ๋ฉฐ ์ด ๊ณผ์ ์์๋ 12x12์ ์ ๋ ฅ์ ํจ๊ป ๋ฐ์ ๋ค์ค ํด์๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก classification์ ์ํํ๋ค.
๋ง์ง๋ง์ผ๋ก 48-net์ 48x48 ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ผ๋ฉฐ, ์ต์ข ์ ์ผ๋ก Global NMS๊ฐ ์ ์ฉ๋์ด IoU threshold๋ฅผ ์ด๊ณผํ๋ ์๋์ฐ๋ฅผ 48-calibration-net์ ์ ๋ฌํ๊ณ ํฌ๊ธฐ์ ์์น๊ฐ ์กฐ์ ๋ ์๋์ฐ๋ฅผ ์ถ๋ ฅํ๋ค.

CNN Structures
Cascade์๋ 6๊ฐ์ CNN์ด ์กด์ฌํ๋ค. ์ผ๊ตด๊ณผ ์ผ๊ตด์ด ์๋ ๊ฒ์ ์ด์ง ๋ถ๋ฅํ๋ 3๊ฐ์ CNN, ๊ทธ๋ฆฌ๊ณ Bounding box๋ฅผ calibrateํ๋ 3๊ฐ์ CNN์ด๋ค. Calibration network๋ Bounding box๋ฅผ ํจ์จ์ ์ผ๋ก ์กฐ์ ํ๊ธฐ ์ํด ๋ณํ์ ๋ฏธ๋ฆฌ ์ ์๋ ํจํด์ ์ด์ฉํ๋ฉฐ, ์ด๋ฅผ ์ํ multi-class classification์ ์ํํ๋ค.
์ฌ๋ฌ ํด์๋์ ๋คํธ์ํฌ๋ฅผ ๋ณตํฉ์ ์ผ๋ก ์ด์ฉํ๋ ๊ตฌ์กฐ๋ฅผ ํตํด ์ด์ง ๋ถ๋ฅ์ ์ ํ๋๋ฅผ ๋์๊ณ , Calibration์ Multi-class classification ๋ฌธ์ ๋ก ๋ณด๊ณ ์ ๊ทผํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค.
12-net
12-net์ ํ ์คํธ ํ์ดํ๋ผ์ธ์ ์ฒซ๋ฒ์งธ CNN์ ํด๋นํ๋ค.
3x12x12์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ผ๋ฉฐ, Convolution layer - Max-Pooling layer - Fully-connected layer์ ์์ CNN ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.

12-calibration-net
12-calibration-net์ bounding box ์กฐ์ ์ ์ํด 12-net ๋ค์์ ์ค๋ CNN์ ๋งํ๋ค. 12-calibration-net๋ ์ญ์ ์์ CNN์ด๋ฉฐ, N๊ฐ์ calibration ํจํด์ด scale ๋ณํ์ offset vector์ 3๊ฐ์ง ์กฐํฉ์ผ๋ก ๋ฏธ๋ฆฌ ์ ์๋์ด์๋ค.

์ธ์ window๊ฐ ์ข์๋จ ์ขํ (x, y)์ ํฌ๊ธฐ (w, h)๋ฅผ ๊ฐ์ง ๋, calibration pattern์ window๋ฅผ ์กฐ์ ํ์ฌ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ ๋ค.

12-calibration-net์ ๊ตฌ์กฐ๋ ์๋ ์ด๋ฏธ์ง์ ๊ฐ๋ค.

calibration net์ ๊ฒฐ๊ณผ๋ N๊ฐ ํจํด์ ๊ฐ๊ฐ ํด๋นํ๋ confidence score vector์ด๋ค. ์ด ํจํด๋ค์ ์๋ก ๋ฌด๊ดํ์ง ์๊ธฐ ๋๋ฌธ์ low confidence threshold๋ฅผ ์ด๊ณผํ๋ ๋์ confidence score๋ค์ ํ๊ท ๋ด์ ์กฐ์ ์ ์ํํ๋ค.
24-net
24-net์ ์ค๊ฐ ๋จ๊ณ์ ์ด์ง ๋ถ๋ฅ CNN์ด๋ค.
๋น ๋ฅธ ์ฑ๋ฅ์ ์ํด 12-net๊ณผ ๋น์ทํ ์์ CNN ๊ตฌ์กฐ๊ฐ ์ ํ๋์์ง๋ง, 24-net์์๋ ๋ค์ค ํด์๋ ๊ตฌ์กฐ๊ฐ ์ ์ฉ๋์๋ค. 24x24 ์ ๋ ฅ์ ๋ํด 12-net๊ณผ ๋์ผํ ์๋ธ ๊ตฌ์กฐ์ 12x12 ํด์๋์ ์ ๋ ฅ์ ํจ๊ป ์ ๊ณตํ๋ ๊ฒ์ด๋ค
์ด๋ฌํ ๋ค์ค ํด์๋ ๊ตฌ์กฐ๋ฅผ ์ด์ฉํด, 24-net์ ์์ ์ผ๊ตด์ ์ธ์ํ๋ ๋ฐ ๋์์ด ๋๋ 12x12 ํด์๋์ ์ ๋ณด๋ฅผ ํฌํจํ์ฌ ๋ถ๋ฅ๋ฅผ ์ํํ๊ฒ ๋๋ค.

24-calibration-net
12-calibration-net๊ณผ ์ ์ฌํ๊ฒ, 24-calibration-net์ N๊ฐ์ calibration ํจํด์ ๊ฐ์ง ๋ ๋ค๋ฅธ calibration net์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ 24x24๋ผ๋ ๊ฒ๋ง ๋นผ๋ฉด 24-calibration-net์ 12-calibration-net๊ณผ ๋์ผํ๋ค.

48-net
48-net์ ๋ง์ง๋ง ์ด์ง ๋ถ๋ฅ CNN์ด๋ค. ์ด ๋จ๊ณ์์๋ ์ ์ ์์ ์ ๋ ฅํ ํ๋ณด๋ค์ด ์ ์ ๋์๊ธฐ๋๋ฌธ์ ํํ๋ ฅ์ด ํ๋ถํ์ง๋ง ๋น๊ต์ ๋๋ฆฐ CNN์ ์ ์ฉํ ๋งํ๋ค๊ณ ๋ณผ ์ ์๋ค.
48-net์ ์ด์ ์ 12-net, 24-net์ ๋นํด ์๋์ ์ผ๋ก ๋ ๋ณต์กํ๋ค. 24-net๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ค์ค ํด์๋ ๊ตฌ์กฐ๋ฅผ ์ฑํํ์๋ค.

48-calibration-net
48-calibration-net์ cascade์ ๋ง์ง๋ง ๋จ๊ณ์ด๋ค. ๋์ผํ๊ฒ N=45์ ํจํด์ ๊ฐ์ง๋ค.
์ด ๋จ๊ณ์์๋ ๋ ์ ํํ ์กฐ์ ์ ์ํด ํ ๊ฐ์ pooling layer๋ง ๊ฐ์ง๋๋ก ํ์๋ค.

Non Maximum Suppression
๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ฅ ๋์ confidence score๋ฅผ ๊ฐ๋ window๋ฅผ ์ ํํ๊ณ , ์ค์ฒฉ๋ window๋ฅผ ์ดํด๋ณด๊ณ ๋ฏธ๋ฆฌ ์ ์ํ threshold๋ฅผ ์ด๊ณผํ๋ IoU๋ฅผ ๊ฐ์ง๋ ๊ฒฝ์ฐ ์ ๊ฑฐํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋จ, 12-net๊ณผ 24-net์ ๊ฒฝ์ฐ ์์ CNN ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ฉด์ ๋ฎ์ ํํ๋ ฅ์ ๊ฐ์ง ์ ์๋๋ฐ ์ด๋ก ์ธํด true positive๋ณด๋ค false positivie๊ฐ ๋ ๋์ confidence score๋ฅผ ๊ฐ์ง๊ฒ ๋๋ ๊ฒฝ์ฐ๊ฐ ์์ ์ ์๋ค.
๋ฐ๋ผ์ 12-calibration-net๊ณผ 24-calibration-net ์ดํ์๋ ๋ณด์์ ์ผ๋ก NMS์ ์ ์ฉํ๋๋ก ํ๊ณ , 48-net ์ดํ์ ์ค๋ NMS๋ ์ ์ฒด์ ์ผ๋ก NMS๋ฅผ ์ ์ฉํ๋๋ก ํ๋ค.
CNN for calibration
Bounding-box๋ฅผ ์ ํํ๊ฒ ์ถ์ ํ๊ธฐ ์ํด์ R-CNN๊ณผ ๊ฐ์ด Bounding-box regression์ ์ํํ ์๋ ์์ง๋ง, ํ์ ์ ์ธ ์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์ฝ๊ฒ ํ์ตํ ์ ์๊ฒ Calibration์ ๋ค์ค ํด๋์ค ๋ถ๋ฅ ๋ฌธ์ ๋ก ๊ฐ์ํํ์ฌ ์ฒ๋ฆฌํ์๋ค.
Training
CNN cascade๋ฅผ ํ์ตํ๋ฉด์ negative ์ํ์ ์ป๊ธฐ ์ํด 5800๊ฐ์ ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง๋ฅผ ์์งํ๋ค. positive ์ํ์ ์ํด AFLW์ ์ผ๊ตด๋ค์ ์ฌ์ฉํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด์ง ๋ถ๋ฅ์ ๋ค์ค ํด๋์ค ๋ถ๋ฅ CNN ๋ชจ๋, ์ต์ ํ๋ฅผ ์ํด multinomial logistic regression ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
Calibration net์ ํ์ต์ํค๊ธฐ ์ํด face annotation๋ค์ calibration ํจํด์ ๋ฐ๋ผ ์กฐ์ํ์๋ค.
4. Experiment & Result
CNN Cascade๋ ๋ ๊ฐ์ง ๋ฒค์น๋งํฌ์์ ๊ฒ์ฆ์ ์ํํ๋ค.
AFW
Annotated Faces in the Wild
Zhu ํ์ด ๋ง๋ 205๊ฐ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์ ์ด๋ค.
AFW ํ ์คํธ ์ ์์ CNN Cascade๊ฐ state-of-the-art์ ๋น๊ตํ ๋งํ ์์ค์ ์ด๋ฅด๋ ๋ค.
ํ๊ฐ ์งํ๋ Precision-Recall curve๋ฅผ ์ด์ฉํ์๋ค.
state-of-the-art๋ฅผ ์์ ํ ๋์ด์์ง ๋ชปํ ์ด์ ๋ ํ์ตํ annotation๊ณผ ํ ์คํธ ์ ์ annotation ํ๊ธฐ ๋ฐฉ์์ ์ฐจ์ด ๋๋ฌธ์ด๋ผ๊ณ ๋ณด๊ณ ์๋ค.

๊ทธ๋์ ํด๋น ๋ ผ๋ฌธ์ ํ ์คํธ์ ์ annotation์ด square์ธ ๊ฒฝ์ฐ๋ก ์ถ๋ ค์ ํ๊ฐํ์ฌ ์ฐ์์ ์๋ค๋ ์ ์ ๊ฐ์กฐํ๋ค.
FDDB ๋ฐ์ดํฐ ์ ์์๋ CNN Cascade๊ฐ state-of-the-art๋ฅผ ์์ง๋ ์ผ๋ฉฐ, ์ ํ๋๋ฅผ ์กฐ๊ธ ๋ฎ์ถ๊ณ ๋ ๋น ๋ฅธ ๋ฒ์ ผ์ผ๋ก ์ฝ๊ฒ ํ๋ํ ์ ์๋ค๋ ์ ์ ๊ฐ์กฐํ๋ค.
FDDB
Face Detection Data Set and Benchmark
5171๊ฐ์ annotated๋ ์ผ๊ตด, 2845๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ๋ ๋ฐ์ดํฐ ์ ์ด๋ค.
FDDB๋ ํ์ํ์ face annotation์ ์ฌ์ฉํ๋ฉฐ, ๋ ๊ฐ์ง ์ข ๋ฅ์ ํ๊ฐ ์งํ๋ฅผ ์ ์ํ๋ค. ์ฒซ ๋ฒ์งธ discontinuous score ํ๊ฐ์์๋ ์ธ์๋ ์ผ๊ตด์ ์์ false ์ธ์์ ์๋ฅผ ๋น๊ตํ๋ค. ์ธ์๋ bounding box์ ground-truth ์ผ๊ตด์ด 0.5 ์ด์์ IoU๋ฅผ ๊ฐ์ง ๋ true๋ก ํ๋ณ๋๋ค.
๋ ๋ฒ์งธ continuous score ํ๊ฐ์์๋ ์ผ๋ง๋ ์ ์ผ๊ตด์ด ์์น๋์๋ ์ง๋ฅผ ํ๊ฐํ๋ค. ์ด ๋ IoU ๋น์จ์ ๊ณ ๋ คํ์ฌ ํ๋จํ๋ค.
CNN Cascade๋ฅผ FDDB๋ก ํ๊ฐํ๊ธฐ ์ํด ์ผ๊ด์ ์ผ๋ก ์ ์ฌ๊ฐํ detection bounding box๋ฅผ 20% ์์ง์ผ๋ก ๋๋ ธ๊ณ , discontinuous score ํ๊ฐ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ธ ์๊ณ ๋ฆฌ์ฆ์ ์์ง๋ ๋ค.

5. Conclusion
ํด๋น ๋ ผ๋ฌธ์์๋ ๋น ๋ฅธ ์ผ๊ตด ์ธ์์ ์ํ CNN cascade๋ฅผ ์๊ฐํ๋ค.
CNN cascade๋ ์ ํด์๋์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ face๊ฐ ์๋ ์์ญ๋ค์ ๋น ๋ฅด๊ฒ ์ ์ธ์ํค๊ณ , ๋์ ์ ์ธ ์์ญ์ ๋ํด์๋ ๊ณ ํด์๋์์ ์ ์คํ๊ฒ ํ๋จํ๋ค. calibration net๋ค์ cascade๋ด์์ ๋น ๋ฅธ ์ธ์๊ณผ bounding box ํ์ง์ ํฅ์์ํค๊ธฐ ์ํด ๋์ ๋์๋ค.
CNN์ ์ฅ์ ์ ๊ทธ๋๋ก ๊ฐ์ ธ์์, CNN cascade์ ์ผ๊ตด ํ์ , ํฌ์ฆ, ์ธ์ข , ์กฐ๋ช ๊ณผ ๊ฐ์ ์๊ฐ์ ์ธ ๋ณ์์ ์๊ด์์ด ์์ ์ ์ผ๋ก ์๋ํ๋ค.
๊ณต๊ฐ๋ ์ผ๊ตด์ธ์ ๋ฒค์น๋งํฌ FDDB์์ CNN cascade๋ state-of-the-art๋ฅผ ๋ฌ์ฑํ๋ค. ๋ํ VGA ์ด๋ฏธ์ง๋ฅผ ๋จ์ผ CPU์์ 14fps, GPU์์ 100fps๋ก ์ฒ๋ฆฌํ ์ ๋๋ก ์์ฃผ ๋น ๋ฅด๋ค.
Take home message (์ค๋์ ๊ตํ)
cascade ๊ตฌ์กฐ๋ฅผ ํตํด ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆด ์ ์๋ค๋ ์์ด๋์ด๋ฅผ ๋ฐฐ์ธ ์ ์์๋ค.
bounding box calibration์ ์ํด multi-class classification์ ์ฌ์ฉํ ์ ์ด ๊ฐ๋จํ๋ฉด์ ํจ๊ณผ์ ์ผ๋ก ์์ฉํ ๊ฒ ๊ฐ์ ์ธ์์ ์ด์๋ค.
dataset๋ง๋ค annotation ๋ฐฉ์์ด ๋ฌ๋ผ ํ๊ฐํ ๋ ๊ณ ๋ คํด์ผ ํ๋ค๋ ๊ฒ์ ์๊ฒ๋์๋ค.
Author / Reviewer information
Author
์ด์ฌํ (Jaehyeon Lee)
NAVER
https://github.com/johnlee92
jaehyeon.lee@navercorp.com
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Citation of this paper
https://ieeexplore.ieee.org/document/7299170/citations?tabFilter=papers#citations
Unofficial GitHub repository
https://github.com/mks0601/A-Convolutional-Neural-Network-Cascade-for-Face-Detection
https://github.com/anson0910/CNN_face_detection
Last updated