YOLOX [Kor]
Ge et al / YOLOX; Exceeding YOLO Series in 2021 / ArXiv 2021
1. Problem definition

Figure 1. YOLOX ํ์ฉ ์์
Real-Time Object Detection(์ค์๊ฐ ๊ฐ์ฒด ๊ฐ์ง)๋ ๊ธฐ๋ณธ ์์ค์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ์ค์๊ฐ์ผ๋ก ๊ฐ์ฒด ๊ฐ์ง๋ฅผ ๋น ๋ฅด๊ฒ ์ํํ๋ ์์ ์ด๋ฉฐ, ๊ธฐ์กด Object Detection์ ๋ฐฉ๋ฒ๋ณด๋ค ์๋ฑํ ๋น ๋ฅธ ์ฒ๋ฆฌ ์๋๊ฐ ์๊ตฌ๋ฉ๋๋ค. Real-Time Object Detection ๊ด๋ จ ๋ชจ๋ธ์ ์ด๋ฏธ์ง classification๊ณผ localization ์ multi-task๋ก ์ ์๋์๋ ๊ธฐ์กด Object Detection ์ ํ๋์ regression ๋ฌธ์ ๋ก ์ฌํด์ํ์ฌ ๋จ์ผ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ก ๊ฐ์ ํ YOLO(You Only Look Once, CVPR 2016) ๋ชจ๋ธ์ด ๊ฐ์ฅ ๋ํ์ ์ ๋๋ค. ์ดํ YOLO ๋ชจ๋ธ์ ์ฌ๋ฌ ์๋ฆฌ์ฆ๋ก ์ด์ด์ง๋ฉด์ ์ค์๊ฐ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ฅผ ์ํด ์ต์ ์ Speed / Accuracy Trade-off๋ฅผ ๊ฐ์ง๊ฒ๋ ์ค๊ณ๋๊ณค ํ์ต๋๋ค. YOLOv5 ๋ชจ๋ธ์ ๊ฒฝ์ฐ 13.7ms ๋ง์ 48.2% AP๋ฅผ ๊ฐ์ง๋ ์ต์ ์ Trade Off๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๊ณ ์๋ YOLOX ๋ชจ๋ธ ์ญ์ Real-Time Object Detection ์ ํ์ฉ๋ ์ ์๋ ๊ณ ์ฑ๋ฅ์ object detection model ์ ๋๋ค. ํนํ, YOLOX-L ๋ชจ๋ธ์ CVPR 2021์ Streaming Perception Challenge (Workshop on Autonomous Driving) ์์ ๋จ์ผ ๋ชจ๋ธ ์ฑ๋ฅ๋ง์ผ๋ก 1์๋ฅผ ์ฐจ์งํ ๋ชจ๋ธ์ธ ๋งํผ ๋ง์ ์ฃผ๋ชฉ์ ๋ฐ์์ต๋๋ค.
2. Motivation
Related work
YOLO (You Only Look Once) model์ Josept Redmon์ด 2015๋ ๊ณต๊ฐํ version 1 ์ ์์์ผ๋ก version 5๊น์ง ์งํ ์ค์ ์์ต๋๋ค. YOLO model์ ํต์ฌ ์์ด๋์ด๋ classification ๊ณผ localization ์ ๋ณ๋์ task๋ก ๋ถ๋ฆฌํ์ง ์๊ณ , ํ๋์ regression problem ์ผ๋ก ๋ณด์ Convolution Neural Network ์ ์ค์๊ฐ์ผ๋ก ์ ์ฉํ ๊ฒ์ ๋๋ค. ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด, ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๊ธฐ ์ํด ์ ๊ฒฝ๋ง์ ๋จ์ผ ์๋ฐฉํฅ ์ ํ๋ง ์๊ตฌ๋ฉ๋๋ค. YOLO ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ณธ ์๋ฆฌ๋ ์ธ ๊ฐ์ง๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
Residual blocks: ์ด๋ฏธ์ง๋ฅผ ๋์ผํ ์ฐจ์์ ๊ทธ๋ฆฌ๋ ์ ๋ก ๋๋๊ณ , ๋ชจ๋ ๊ทธ๋ฆฌ๋ ์ ์ ๊ทธ ์์ ๋ํ๋๋ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ฒด ์ค์ฌ์ด ํน์ ๊ทธ๋ฆฌ๋ ์ ๋ด์ ๋ํ๋๋ฉด ํด๋น ์ ์ด ์ด๋ฅผ ๊ฐ์งํฉ๋๋ค.
Bounding box regression: Bounding box๋ ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด๋ฅผ ๊ฐ์กฐํ์ฌ ํ์ํ๋ ์ค๊ณฝ์ ์ผ๋ก, width () / height () / class () / bounding box center()๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. YOLO๋ Bounding box regression์ ์ฌ์ฉํ์ฌ object ์ width, height, class ๋ฐ center ๋ฅผ ์์ธกํ์ฌ ์ด๋ฏธ์ง ๋ด object๊ฐ ๋ํ๋ ํ๋ฅ ์ ๋ํ๋ ๋๋ค.
Intersection over union (IOU): Intersection Over Union๋ bounding box๊ฐ ๊ฒน์น๋ ๋ฐฉ์์ ํํํ๋ object detection ์ ํ์์ ๋๋ค. YOLO๋ IOU๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด๋ฅผ ์๋ฒฝํ๊ฒ ๋๋ฌ์ธ๋ ์ถ๋ ฅ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ฃผ์ YOLO ์๋ฆฌ์ฆ์ ๊ณ๋ณด ๋ฐ ํต์ฌ์ ์๋์ ๊ฐ์ต๋๋ค.

YOLOv3
2018๋ 4์ ๋ฐํ. Joseph Redmon ์ด ๋ง์ง๋ง์ผ๋ก ๋ฐํํ YOLO ๋ชจ๋ธ์ด๋ฉฐ, Darknet 53์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ฐ๋์์ต๋๋ค.
YOLOv4
2020๋ 4์ ๋ฐํ. Alexey Bochkousky ๋ก ์ฐ๊ตฌ์๊ฐ ๋ฐ๋์์ผ๋ฉฐ, ๋ค์ํ ๋ฅ๋ฌ๋ ๊ธฐ๋ฒ(WRC, CSP ...) ๋ฑ์ ์ฌ์ฉํด v3์ ๋นํด AP, FPS๊ฐ ๊ฐ๊ฐ 10%, 12%๊ฐ ์ฆ๊ฐํ์์ต๋๋ค. CSPNet ๊ธฐ๋ฐ์ backbone(CSPDarkNet53)์ ์ค๊ณํ์ฌ ์ฌ์ฉํ์ต๋๋ค. Anchor-based model ์ด๋ฉฐ, anchor-based ์ ๊ฒฝ์ฐ ํด๋ฌ์คํฐ๋ง๋ anchor ๋ค์ domain-specific ํ๋ฉฐ ์ผ๋ฐํ๋๊ธฐ๊ฐ ์ด๋ ต๊ณ detection head๊ฐ ๋ณต์กํ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
YOLOv5
2020๋ 6์ ๋ฐํ. Glenn Jocher๊ฐ ๋ฐํํ์ผ๋ฉฐ, v4์ ๊ฐ์ CSPNet ๊ธฐ๋ฐ์ backbone์ ์ค๊ณํ์ฌ ์ฌ์ฉํ๊ณ ์ฑ๋ฅ์ ๋น์ทํ๋ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ์๋ ๋ฉด์์ ์ฐ์ํฉ๋๋ค. ๋ค๋ง ๊ณต์์ ์ธ ๋ ผ๋ฌธ์ผ๋ก ๋ฐํ๋์ง ์๊ณ pytorch ์ฝ๋ ๊ณต๊ฐ๋ง์ผ๋ก ๊ทธ์ณ ๊ณต์์ ์ธ v5๋ก ๋ช ์นญ์ ๋ถ์ด๊ธฐ์๋ ๋ ผ๋์ด ์์ต๋๋ค. ์ญ์ anchor-based ๋ก ์ต์ ํ๋ ๋ชจ๋ธ์ ๋๋ค.
PP-YOLO
2020๋ 7์ ๋ฐํ. Shing Long์ด ๋ฐํํ์ผ๋ฉฐ, v4๋ณด๋ค ์ ํ๋์ ์๋๊ฐ ๋ ๋์ต๋๋ค. v3 ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋, Darknet3 backbone์ ResNet ์ผ๋ก ๊ต์ฒดํ์ผ๋ฉฐ ์คํ์์ค machine learning framework์ธ PaddlePaddle ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ฐ๋์์ต๋๋ค.
Idea
์ต๊ทผ ํ๊ณ์์๋ anchor-free detectors, advanced label assignment strategies, end-to-end (NMS-free) detectors ๋ฑ ๋ค์ํ object detection ๊ธฐ๋ฒ์ด ์๋ก ์ ์๋์์ง๋ง, ๊ธฐ์กด YOLO ์๋ฆฌ์ฆ์ ์ ์ฉ๋์ง๋ ์์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๊ธฐ๋ฒ๋ค์ ๊ธฐ์กด YOLO ๋ชจ๋ธ์ ๊ฐ์ ์ํค๋ ๋ฐ์ ์ ์ฉํ๊ณ ์ฑ๋ฅ์ ๊ฐ์ ํ ๋ชจ๋ธ์ธ 'YOLOX'์ ์ ์ํ๊ณ ์์ต๋๋ค. YOLOv4์ YOLOv5์ ํ์ดํ๋ผ์ธ์ Anchor Based ์์ฃผ๋ก ์ต์ ํ๊ฐ ์งํ๋์ด์๊ธฐ ๋๋ฌธ์, ๋ณด๋ค ๋ฒ์ฉ์ ์ธ ์ฑ๋ฅ์ ์คํ๋ ค ๋จ์ด์ง ์ ์๋ค๊ณ ํ๋จํ ๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ค์ YOLOv3-SPP์ DarkNet53 ์ baseline ์ผ๋ก ์ผ์์ต๋๋ค. ์ด์ Decoupled head ์ Anchor free, Multi positive, SimOTA ๋ฐฉ์์ ์ ์ฉํ์ฌ ์ต์ object detection ๊ธฐ์ ๋ค์ ์ ์ฉํ๊ณ ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค.
3. Method

YOLOX๋ ๊ธฐ๋ณธ์ ์ผ๋ก Input - Backbone - Neck - Dense Prediction์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค. Darknet53์ Backbone ์ํคํ ์ณ๋ฅผ ํตํด Feature Map์ ์ถ์ถํ๋ฉฐ, SPP(Spatial Pyramid Pooling) Layer๋ฅผ ํตํด ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค. FPN์ ํตํด Multi-Scale Feature Map์ ์ป๊ณ ์ด๋ฅผ ํตํด ์์ ํด์๋์ Feature Map์์๋ ํฐ Object๋ฅผ ์ถ์ถํ๊ณ ํฐ ํด์๋์ Feature Map์์๋ ์์ Object๋ฅผ ์ถ์ถํ๊ฒ๋ ํ Neck ๊ตฌ์กฐ๋ฅผ ์ฐจ์ฉํ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ Head ๋ถ๋ถ์์๋ ๊ธฐ์กด YOLOv3~v5 ์ ๋ฌ๋ฆฌ Decoupled Head๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
Decoupled Head
YOLOv3์์๋ ํ๋์ Head์์ Classification๊ณผ Localization์ ํจ๊ป ์งํํ์์ผ๋, ์ดํ ์ฌ๋ฌ ์ฐ๊ตฌ๋ฅผ ํตํด Object detection task ์์ classification ๊ณผ regression task ๊ฐ ์๋ก ์์ถฉ๋๋ค๋ ์ฌ์ค์ด ๋ฐํ์ก์ต๋๋ค. Classification ์๋ Fully Connected Layer๊ฐ ํจ๊ณผ์ ์ด์ง๋ง, ๋ฐ๋ฉด์ Localization์๋ Convolution Head๊ฐ ๋ณด๋ค ์ ์ ํ๋ฐ ์ด ๋๊ฐ์ง๊ฐ ์๋ก ์์ถฉ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ Coupled detection ์ ๊ฒฝ์ฐ ์ฑ๋ฅ๋ ์ ํ๋ฉ๋๋ค. YOLOX์์๋ decoupled head๋ฅผ ์ฌ์ฉํ์ฌ classification์ Fully Connected Head๋ฅผ, Localization์๋ Convolution Head๋ฅผ ์ ์ฉํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
Anchor-free
Anchor Box๋ ์ ๋ ฅ ์ด๋ฏธ์ง ํน์ ์์์ ๋ํด ๊ฐ์ฒด ๊ฐ์ง๋ฅผ ์ํด ์ค์ ํ Bounding Box ์ค ๊ฐ ํฝ์ ์ ์ค์์ ๋๊ณ ํฌ๊ธฐ์ ์ข ํก๋น๊ฐ ์๋ก ๋ค๋ฅด๊ฒ ์์ฑ๋ bounding box๋ฅผ ๋งํฉ๋๋ค. ๋ง์ Object Detection ๋ชจ๋ธ๋ค์ด Anchor-based๋ก ๋ฏธ๋ฆฌ ์ธํ ํด๋์ ์ ๋ง์ anchor์์ category๋ฅผ ์์ธกํ๊ณ coordinates๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ง๋ง, ์ต๊ทผ์๋ FPN๊ณผ Focal Loss์ ์ถํ์ผ๋ก ์ธํด anchor-free detector ๋ฐฉ์์ ๋ํ ์ฐ๊ตฌ๊ฐ ์งํ๋๊ณ ์์ต๋๋ค. Anchor-free detector์๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋๋ฐ, ํค ํฌ์ธํธ๋ฅผ ์ด์ฉํ์ฌ object์ ์์น๋ฅผ ์์ธกํ๋ keypoint-based ๋ฐฉ๋ฒ๊ณผ object์ ์ค์์ ์์ธกํ ํ positive์ธ ๊ฒฝ์ฐ object boundary์ ๊ฑฐ๋ฆฌ๋ฅผ ์์ธกํ๋ center-based ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. ๊ธฐ์กด Anchor ๊ธฐ๋ฐ์ Detector๋ค์ ๋น๋ก ๊ทธ ์ฑ๋ฅ์ ๋ฐ์ด๋ ์ ์์ง๋ง, ๊ฐ๋ฐ์๋ค์ด ์ง์ Heuristic ํ๊ฒ Tuning์ ์งํํด์ฃผ์ด์ผ ํ๋ ๋ถํธํจ์ด ์กด์ฌํฉ๋๋ค. ๋ํ ๊ทธ๋ ๊ฒ Tuning๋ Anchor Size ๋ํ ํน์ Task์ ์ข ์์ ์ด๋ฏ๋ก Generalํ ์ฑ๋ฅ์ ๋จ์ด์ง๋ ์ด์๊ฐ ์์์ต๋๋ค. ์ด๋ฌํ anchor-free detector์ anchor์ ๋ค์ํ Hyperparameter๋ค์ Tuningํด์ผ ํ๋ ํ์์ฑ์ด ์์ผ๋ฉด์ anchor-based detector์ ๋น์ทํ ์ฑ๋ฅ์ ์ป๊ธฐ ๋๋ฌธ์, object detection ๋ถ์ผ์์ ๋ General ํ๊ฒ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ์ ์ฌ๋ ฅ ์๋ค๊ณ ์ฌ๊ฒจ์ง๋๋ค.
Multi positives

๊ธฐ์กด YOLOv3์ Assigning ๋ฐฉ์์ ๊ทธ๋๋ก ์ ์งํ๋ค๋ฉด ์ค์ ์์น ๊ฐ 1๊ฐ ๋ง์ Positive Sample๋ก ์ง์ ํ์ฌ์ผ ํ์ง๋ง, ์ด๋ ๊ทธ ์ฃผ๋ณ์ ์์ธกํ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ค์ ๋ชจ๋ ์ ์ธํ๊ฒ ๋๋ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋๋ค. ๋ฐ๋ผ์ Positive Sample์ ์ค์ ์์น ๊ฐ ์ฃผ๋ณ 3x3 ์ฌ์ด์ฆ๋ก ๋ชจ๋ ์ง์ ํจ์ผ๋ก์จ ์ด๋ฌํ ๊ณ ํ์ง์ ์์ธก ๊ฐ์ ๋ํด์ ์ด๋์ ์ทจํ ์ ์๋๋ก ํฉ๋๋ค (FCOS์ Center Sampling ๊ธฐ๋ฒ). ์ด๋ ๊ฒ positive Sample์ ์ฆ๊ฐํด์ค์ผ๋ก์จ, ์ฌ๊ฐํ class ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ์ด๋ ์ ๋ ์์์ํฌ ์ ์์ต๋๋ค.
SimOTA

Label assignment๋ sample data ์ค์ ์ด๋ค ๊ฒ์ด positive์ด๊ณ negative ์ธ์ง ground truth object์ ํ ๋นํด์ฃผ๋ ๊ฒ์ ๋๋ค. YOLOX๋ ๊ฐ์ฒด ํ์ง์์ Label Assignment๋ฅผ ๊ฐ ์ง์ ์ ๋ํ์ฌ Positive๊ณผ Negative๋ฅผ ํ ๋นํด์ฃผ๋ ๋ฐฉ์์ผ๋ก Label assign ๋ฐฉ์์ ๊ฐ์ ์์ผฐ์ต๋๋ค. Anchor Free๋ฐฉ์์ Ground Truth์ ๋ฐ์ค ์ค์ ๋ถ๋ถ์ Positive๋ก ์ฒ๋ฆฌํ๋๋ฐ, ๋ฌธ์ ๋ label ์ฌ๋ฌ ๊ฐ๊ฐ ํ๋์ bounding box์ ๊ฒน์น ๋์ ๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ ๋จ์ํ point by point๊ฐ ์๋ Global Labeling์ด ํ์ํ๋ฐ, ์ด๋ฅผ ์ต์ ํํ๋ ๋ฐฉ์์ผ๋ก ์ ์๋ SimOTA๋ฅผ ์ ์ฉํ์ต๋๋ค. OTA(Optimal Transportation Algorithm)์ Sinkhorn-knopp iteration๋ฑ์ ๋ฐฉ๋ฒ์ ํตํด์ ์ต์ ์ ๊ฐ์ ์ฐพ์๋ด๋๋ฐ ์ฌ์ฉ๋๋๋ฐ, ์ด๋ฌํ iteration์ผ๋ก ์ธํด ์ฝ 25%์ ์ถ๊ฐ ํ์ต ์ฐ์ฐ์ด ํ์ํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ์ฝ 300 Epoch์ ํ์ต์ด ํ์ํ YOLOX์๊ฒ ๊ฝค๋ ํฐ ์ค๋ฒํค๋์ด๋ฏ๋ก, ์ ์๋ค์ ์ด๋ฅผ ๊ฐ๋จํ๊ฒ iteration ์์ด ์ํํ๋ Simple OTA(SimOTA)๋ฅผ ์ ์ฉํ์์ผ๋ฉฐ AP 45.0%๋ฅผ 47.3%๋ก ํฅ์์ํค๋ ํจ๊ณผ๊ฐ ์์์ต๋๋ค. ground truth์ prediction์ cost ํจ์๋ ์๋์ ๊ฐ์ต๋๋ค.

4. Experiment & Result
Experimental setup
Dataset
COCO train2017
Baselines
YOLOv3-SPP + DarkNet53
Training setup
Initial learning rate: 0.01, lr X BatchSize/64
batch size: 128
weight decay: 0.0005, SGD momentum: 0.9
Result

YOLOX๋ Streaming Perception Challenge (WAD at CVPR 2021)์์ ๋จ์ผ ๋ชจ๋ธ๋ง์ผ๋ก 1์๋ฅผ ๋ฌ์ฑํ SOTA ๋ชจ๋ธ์ด๋ฉฐ, ์ฌํ ๋์จ YOLO Series ๋ชจ๋๋ฅผ ๋ฅ๊ฐํ๋ AP๋ฅผ ์ป์์ต๋๋ค. ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ค๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ์๋์ ์ฑ๋ฅ๊ฐ์ Trade Off๊ฐ ์กด์ฌํ์ง๋ง, ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋ ๋์ ์ฑ๋ฅ๊ณผ FPS๋ฅผ ๋์์ ์ป์ด๋ด๋ ๋ชจ์ต์ ๋ณด์ ๋๋ค.
5. Conclusion
๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ค์ YOLO์ ์ต์ Object Detection ๊ธฐ๋ฒ๋ค์ ์ ์ฉํ YOLOX๋ฅผ ์๊ฐํ์ต๋๋ค. Decoupled Head, Multi-Postive, SimOTA, Strong Augmentation ๋ฑ ์ต์ ์ฐ๊ตฌ ๋ด์ฉ์ ๋ฐํ์ผ๋ก YOLOv3 ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์์ผฐ์ผ๋ฉฐ, YOLOv5์ ์ ์ฉํ์ ๋๋ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ ๋๋ค. Anchor Free ๋ฐฉ์์ ์ ์ฉํ์ฌ Generalํ ์ฑ๋ฅ์ ๋ณด์ฅํ๋ฉฐ, ๋ชจ๋ธ ๊ตฌํ์๋ก ํ์ฌ๊ธ Anchor์ ๊ด๋ จ๋ ๋ค์ํ Hyperparameter๋ฅผ Tuningํ ํ์์์ด ๊ฐํธํ๊ฒ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค๋ ์๋ฏธ๊ฐ ์์ต๋๋ค.
Take home message (์ค๋์ ๊ตํ)
YOLOX๋ Decoupled Head, Anchor-Free, Multi-Postive, SimOTA, Strong Augmentation ๋ฑ ์ต์ ์ฐ๊ตฌ ๋ด์ฉ์ ๋ฐํ์ผ๋ก YOLOv3 ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์์ผฐ์ผ๋ฉฐ, YOLOv5์ ์ ์ฉํ์ ๋๋ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ ๋๋ค.
Author / Reviewer information
Author
๋ฐ์ง์ค (Jiyun Park)
Affiliation: KAIST Graduate School of Culture & Technology
Contact : june@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Citation
Ge, Z., Liu, S., Wang, F., Li, Z., & Sun, J. (2021). Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430.
Wu, Y., Chen, Y., Yuan, L., Liu, Z., Wang, L., Li, H., & Fu, Y. (2020). Rethinking classification and localization for object detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10186-10195).
Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.
Zhang, S., Chi, C., Yao, Y., Lei, Z., & Li, S. Z. (2020). Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 9759-9768).
References
https://danaing.github.io/computer-vision/2021/08/26/YOLOX.html
Last updated
Was this helpful?