GPS-Net [Kor]
Description
Xin Lin et al. / GPS-Net: Graph Property Sensing Network for Scene Graph Generation / CVPR 2020
1. Problem definition
Scene Graph Generation (SGG) ๋, ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ๋ ์ด๋ฅผ ๊ทธ๋ํ๋ก ๋ฐ๊พธ์ด์ฃผ๋ Task ์ ๋๋ค.

๊ทธ๋ฆผ1์ SGG ์ ์ผ๋ จ์ ๊ณผ์ ์ ๋ํ๋ด๊ณ ์์ต๋๋ค. ์ฌ๋๊ณผ ๋ง์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ชจ๋ธ์ด ๊ทธ๋ํ๋ฅผ ์์ฑํฉ๋๋ค.
์ด ๋ ์ฐ๋ฆฌ๊ฐ ์์ฑํ๊ณ ์ถ์ ๊ทธ๋ํ G๋ V, E, R, O ์ด 4๊ฐ์ง ์ปดํฌ๋ํธ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
V ๋ ๋ ธ๋, object detector์ proposal ๋ก ๊ตฌ์ฑ๋๋ฉฐ E ๋ edge๋ก, ์ฐ๊ด์ด ์๋ object ๋ผ๋ฆฌ ์ฐ๊ฒฐ์ด ๋ฉ๋๋ค.
๋ํ SGG ์์๋ ๊ฐ ๋ ธ๋์ ์ฃ์ง์ label ์ class ๊ฐ ๋ฌด์์ธ์ง ๊ตฌ๋ถํ๋ classification Task๋ ์ํํฉ๋๋ค.
R ์ Edge์ Relation class๋ฅผ ๋ปํ๋ฉฐ, O ์ Object์ class๋ฅผ ๋ปํฉ๋๋ค.
๋ฐ๋ผ์ ์ต์ข ์ป์ Graph ๋
<object, predicate, subject> (์ฌ๋, ๋จน์ด์ฃผ๋ค, ๋ง) ์ ๊ฐ์ triplet ์ ์กฐํฉ์ผ๋ก ์ด๋ฃจ์ด์ง๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฌ๋ฉด ์์ ์์ผ๋ก ๋ถํฐ
P(V | I ) - object detector
P(E | V, I ) - relation proposal netowrk
P(R, O | V, E, I ) - Classification models for entity and predicate.
์ด 3๊ฐ์ง๋ฅผ ๋ชจ๋ธ๋ง ํ๋ฉด ์ ํฌ๋ Scene Graph ๋ฅผ ์์ฑํ ์ ์๋ ๋ฌธ์ ๋ฅผ ์ ์ํ ์ ์๊ฒ๋ฉ๋๋ค.
2. Motivation
๊ทธ๋ ๋ค๋ฉด Scene Graph Generation ํ ๋ ๊ธฐ์กด์ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ ๋ฌด์๋ค์ด ์์ผ๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฌธ์ ๋ ๋ฌด์์ด์์์ง ์ง์ด๋ณด์์ผ ํฉ๋๋ค.
์ฌ๊ธฐ์๋ Previous Works ์ ๋ํด ๊ฐ๋จํ ์์ฝ๊ณผ, ์ ์์ Idea๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Related work
Knowledge Graph Embedding VTransE, DTransE [2], [3] ์ ๊ฐ์ ๋ชจ๋ธ๋ค์ Knowledge Graph Embedding Method๋ฅผ ์ฌ์ฉํ์ฌ, object, predicate, subject ๋ฅผ ๋์ผํ, ๋๋ ๊ฐ๊ฐ์ Latent Space ์ Mapping ํฉ๋๋ค. ๊ทธ hidden representation์ ์ ์ฌ์ฑ์ ์ธก์ ํ์ฌ Scene Graph Generation ์ ์ ์ฉํ framework ์ ๋๋ค. ํ์ง๋ง, ์ด ๋ชจ๋ธ๋ค์ ์ฃผ๋ณ context๋ ๊ณ ๋ คํ์ง ์๊ณ , ์ค์ง ๊ฐ๊ฐ์ object์ embedding ๋ง์ ๋ณด๊ณ graph๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ์์ ์กด์ฌํ๋ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ์ด์ฉํ์ง๋ ๋ชปํฉ๋๋ค.
Scene Graph Generation Neural-Motif [4] ์ ์ฃผ๋ณ ์ปจํ์คํธ, ๋๋ entity A(subject), entity B (subject) ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์์ธกํ๊ธฐ ์ํด ์ฃผ๋ณ entity ์ feature๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ์ํด bi-directional RNN ๊ณผ ๊ฐ์ sequnce ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. Graph R-CNN [5] ์ Neural Motif ๋ฅผ ์ข ๋ ํจ์จ์ ์ผ๋ก ๊ทธ๋ํ ์์ฒด์์ ๋ชจ๋ธ๋งํ๊ธฐ ์์ ์ ์๋์์ต๋๋ค. GNN์ ์ฌ์ฉํ์ฌ ์ฃผ๋ณ context๋ฅผ ๋ณด๋ค ํจ์จ์ ์ผ๋ก ๊ฒฐํฉํ๊ณ , ์ด์ฉํ์ฌ Scene Graph Generation์ ํ๊ฒ ๋ฉ๋๋ค. ํ์ง๋ง, Graph R-CNN ๋ํ SGG ๋ฅผ ์ํ ์ต์ ์ framework ๋ผ๊ณ ํ ์ ์์ต๋๋ค. ๊ทธ ์ด์ ๋ ๋ค์ ์ธ์ ์์ GPS-Net์ Idea์ ํจ๊ป ์ค๋ช ํ๊ฒ ์ต๋๋ค.
Idea

๊ทธ๋ฆผ 2๋ GPS-Net ์ ์์ Motivation์ ๋ช ํํ ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ์ ๋๋ค. ์ฌ๊ธฐ์ ์ ์๋ 3๊ฐ์ง ์ค์ํ ์ฌ์ค์ ์ง๋ชฉํฉ๋๋ค.
์ฒซ์งธ, ๋ชจ๋ธ์ ๋ฐฉํฅ์ฑ์ ์ธ์ํด์ผํ๋ค. (b)
๊ธฐ์กด Graph Neural Network (GNN) ์ ์ผ๊ด ์ ์ฉํ ๊ฒฝ์ฐ์๋ triplet ์ ๋ฐฉํฅ์ ์ธ์ํ์ง ๋ชปํฉ๋๋ค. ๋ฐ๋ผ์ ๋ฐฉํฅ์ฑ์ ๊ณ ๋ คํ๋
Direct aware Message Passing Neural Network (DMP)์ ์ ์ํฉ๋๋ค.
๋์งธ, degree๊ฐ ๋์ node๊ฐ ์ค์ํ๋ค (c)
SGG๋ Image ๋ฅผ ์ฌ๋ฌ๊ฐ์ ๋ชจ๋์ ๊ฑฐ์ณ Graph ๋ฅผ ์์ฑํ๊ฒ ๋ฉ๋๋ค. ์ด ๊ณผ์ ์์ hub node (degree๊ฐ ๋์ node)๊ฐ ์๋ชป clasfficiation
๋์ด ์๋ค๋ฉด, GNN์ ํตํด ์ฃผ๋ณ๋ ธ๋๋ฅผ ์ ๋ฐ์ดํธํ ๋, ์๋ชป๋ ์ ๋ณด๋ฅผ ๋ง์ด ํผ๋จ๋ฆฌ๊ฒ ๋ ๊ฒ ์ ๋๋ค. ๋ฐ๋ผ์, degree๊ฐ ๋ ๋์ ๋ ธ๋๋ฅผ ์ง์ค์ ์ผ๋ก
ํ์ตํ๋ _Node Priority Sensitive Loss_๋ฅผ ์ ์ํฉ๋๋ค.
์ ์งธ, SGG๋ Imblanced Classification ๋ฌธ์ ์ด๋ค
subject, object ์ฌ์ด์ Predicate ๋ฅผ ์์ธกํ ๋ Predicate class ๋ long-tail distribution ์ ๋ฐ๋ฆ ๋๋ค.
์ฝ๊ฒ ์ค๋ช ํ์๋ฉด, 'on', 'has' ์ ๊ฐ์ predicate๋ ์ ๋ง ๋น๋ฒํ ๋ฑ์ฅํฉ๋๋ค. ๋ฐ๋ฉด, standing in, feeding ์ ๊ฐ์ ๋ํ ์ผํ ํ๋๋ค์
์๋์ ์ผ๋ก ์ ๊ฒ ๋ฑ์ฅํ๋ label class ์ ๋๋ค. ๋ฐ๋ผ์ on, has ์์ฃผ๋ก ๋ชจ๋ธ์ด ์์ธกํ๊ฒ ๋๋ค๋ฉด, ๋์ performance ๋ฅผ ๊ธฐ๋กํ ์ ์์ต๋๋ค.
ํ์ง๋ง on, has ๊ฐ ๋ง์ด ๋ฑ์ฅํ๋ Scene Graph๊ฐ ์๋, ๋์ ํ๋ฆฌํฐ์ ์ ๋ณด๋ฅผ ๋ด์ Scene Graph๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์ ํฌ์ ๊ถ๊ทน์ ์ธ ๋ชฉํ์ ๋๋ค !!
3. Method
GPS-Net์ Object Detector๋ฅผ Faster R-CNN ์ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์ค๊ฒ ๋ฉ๋๋ค. Pretrained detector๋ฅผ ํตํด Object proposal์ด ์์ฑํด๋ด๊ณ , ๊ฐ๊ฐ์ box๋ก ๋ถํฐ visual feature, class logits, box ์ ์์น๋ฅผ ์ถ์ถํฉ๋๋ค. box i์์ ์ด์ ๊ฐ์ feature ๋ค์ ๋ฌถ์ด x_i ๋ผ๊ณ ์นญํ๊ฒ ์ต๋๋ค.
๋, ๊ธฐ์กด Graph R-CNN ๊ณผ ๋ฌ๋ฆฌ ์ถ๊ฐ์ ์ผ๋ก 2๊ฐ์ box๋ฅผ unionํ, union feature u_ij ๋ ์ถ์ถํฉ๋๋ค.
์ ์๋ feature๋ฅผ x_1,.., x_n ๊ณผ u_12, ..., u_ij, ... ๋ฅผ ์ป์๋ค๋ฉด ์์ ์ธ๊ธํ GPS-Net์ architecture์ ํต๊ณผ์ํต๋๋ค.
1. Direction-aware Message Passing

๊ทธ๋ฆผ3์ ๊ธฐ์กด์ ์ฌ์ฉํ๋ Message Passing Network ๋ค์ ๊ตฌ์กฐ (a), (b)์ ์ ์๋ DMP ๊ตฌ์กฐ (c) ๋ฅผ ๊ฐ์ ธ์จ๊ฒ ์ ๋๋ค. ์ฌ๊ธฐ์ x_i ๋ ์ ๋ฐ์ดํธํ๊ณ ์ ํ๋ Target, x_j๋ Target์ ์ ๋ฐ์ดํธ ํ๊ธฐ ์ํ Neighbor์ Feature vector์ด๋ฉฐ, u_ij๋ ๋ bounding box i, j ์ union box์ feature๋ฅผ ๋ํ๋ ๋๋ค. Message Passing Network์ ํต์ฌ์ Message๋ฅผ ์ด๋ป๊ฒ ๋ง๋๋๋ ์ ๋๋ค.
๋จผ์ , (a)์ ๊ฒฝ์ฐ Target๊ณผ Neighbor์ Feature๋ฅผ ๋จ์ํ concat ํ์ฌ Weight๋ฅผ ๊ณฑํด์ค ๊ฒ์ด ๋ฉ์ธ์ง์ ๋๋ค. ์ด ๋ฉ์ธ์ง๋ฅผ Transforemer์ ํต๊ณผ์ํค๊ณ , ๋ง์ง๋ง์ผ๋ก ์์ ์ Feature์ ๋ค์ ์ ๋ฐ์ดํธ ํ๊ฒ ๋ฉ๋๋ค.
(b)์ ๊ฒฝ์ฐ Message๋ฅผ ์ค์ง Neighbor์ Feature๋ง ๊ฐ์ง๊ณ ์ ๋ฐ์ดํธ๋ฅผ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ง์ฐฌ๊ฐ์ง๋ก Transforemr Layer์ ํต๊ณผ์ํจํ ์๊ธฐ์์ ์ Feature์ ์ ๋ฐ์ดํธ๋ฅผ ํ๊ฒ ๋ฉ๋๋ค.
ํ์ง๋ง, SGG์ Framework์์ ์ด๊ฒ์ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค. SGG๋ฅผ ์ํํ๊ธฐ ์ํด, GNN์ ์ฌ์ฉํ์ฌ ์ฃผ๋ณ Object๋ค์ Feature๋ฅผ ๋ชจ์ผ๊ฒ ๋๋๋ฐ, ์ด ๋ ์ค์ํ ์ฌ์ค์ GNN์ ์ฌ์ฉํ Graph๊ฐ Cleanํ์ง ์๊ณ Noiseํ๋ค๋ ๊ฒ์ ๋๋ค. ๋ค์ ๋งํ๋ฉด, ์ด GNN์ ์ฌ์ฉํ ๊ทธ๋ํ๋ Object Detector Proposal Boxe๋ค์ ์ฐ๊ฒฐ๊ด๊ณ๋ฅผ ์์๋ก ์ ํด๋ ๊ฒ ์ ๋๋ค. ๋ฐ๋ผ์ ์ด ๊ทธ๋ํ๋ ๋ฐฉํฅ์ฑ ์กฐ์ฐจ ์ ๋งคํ ์ํฉ์ ๋๋ค.
(c)๋ ์ด๋ฌํ ์ํฉ์ ๋ค๋ฃจ๊ธฐ ์ํด ์์ชฝ ๋ฐฉํฅ์ฑ์ ๋ค ๊ณ ๋ คํ๋ Message๋ฅผ ๋ง๋ค๊ณ ์ ํ๊ณ , ์์ชฝ ๋ฐฉํฅ์ฑ์ ๋ค ๊ณ ๋ คํ๊ธฐ ์ํด ๋ค์ ๋๊ฐ์ง ์ฐจ์ด๋ฅผ ๋์์ต๋๋ค.
์ฐจ์ด๋ฅผ ๋ณด์๋ฉด
####1. MPNN Layer ์ u_ij ๋ผ๋ edge feature ๊ฐ ๊ฐ์ด ๋์ ๋์๋ค.
u_ij ๋ ์์ ๋งํ๋ฏ union box ๋ก๋ถํฐ ๋ฝ์ visual feature ์
๋๋ค. ๊ธฐ์กด Graph-RCNN ์ฌ์ฉํ์ง ์์๋ ์ถ๊ฐ์ ์ธ feature๋ฅผ ์ฌ์ฉํ ๊ฒ์ธ๋ฐ,
์ด๋ relation ์ ์์ธกํ ๋ ๋ณด๋ค ๋์ receptive field๋ฅผ ํ์ฉํ๊ฒ ๋ฉ๋๋ค. ๋ํ GNN ์ ๊ตฌ์กฐ์ ํน์ฑ์ layer๋ฅผ ๋ง์ด ์์ ์๋ก ์ฃผ๋ณ์ผ๋ก ์ ๋ณด๋ฅผ propagation ์ ํ๊ธฐ ๋๋ฌธ์
image๋ฅผ ์์ธกํ ๋์ context ๋ ๋ ์ ๋ฐ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
์๋ฅผ ๋ค๋ฉด, ์ฌ๋(Object)์ ๋ง(Object) ์ฌ์ด์ Relation์ ์์ธก ํ ๋, ์ฌ๋ ์๊ณผ ๋ง์ด ๊ฒน์น๋ ๋ถ๋ถ์ visual feature๊ฐ ๋์์ด ๋ ๊ฒ ์
๋๋ค. (Union Box์ ์ญํ )
####2. MPNN Layer์ Element wise product๋ฅผ Kronecker Prdouct๋ก ๋์ฒดํ์๋ค.
๊ตฌ์กฐ๋ฅผ ๋ณด์์ ๋ (a) ๋ x_i, x_j๋ฅผ ๋จ์ concat ํ์๊ณ (b) ๋ destination node(x_j) ์ ์ ๋ณด๋ง์ ์ถ์ถํ์ฌ Message passing์ ์ํํ๊ฒ ๋ฉ๋๋ค.
๋ฐ๋ฉด, ์ ์๊ฐ ์ ์ํ DMP๋ (x_i, x_j, u_ij) ๋ฅผ ํตํด attention weight ๋ฅผ ์ถ์ถํ๊ณ , destination node ์ ๊ณฑ์ ํ์ฌ Message passing์ ์ํํฉ๋๋ค.
์ฆ, (c) ๋ feature๊ฐ ๋ค์ด์ค๋ ๋ฐฉํฅ์ ๋ฐ๋ผ ๊ฐ๊ฐ์ attention weight๊ฐ ๋ฌ๋ผ์ง๋ฉฐ, ๋ฐฉํฅ์ด ๋ฌ๋ผ์ง๋ฉด destination node์ ์
๋ฐ์ดํธํ ์์ด ์กฐ์ ๋๋๋ก ํฉ๋๋ค.
์ด๋ฅผ Kronecker Product๋ก ๊ตฌํ ํ์๋๋ฐ, ์ด๋ MPNN ๊ตฌ์กฐ๊ฐ Direction-aware๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค๊ณ ํฉ๋๋ค.
2. Node Prioirty Sensitive Loss
์ ์๋ Node ์ priority ์ ๋ฐ๋ผ์ ๋ค๋ฅธ update๋ฅผ ํด์ค์ผ ํ๋ค๊ณ ์ธ๊ธํ๊ณ ์์ต๋๋ค. SGG Task ์์ฒด๊ฐ Faster R-CNN, Graph Generation, Object classification, Edge Classification ๊ณผ ๊ฐ์ด ๋ง์ Task๋ค์ ์์ฐจ์ ์ผ๋ก ์งํํ๋๋ฐ, ์ํํ๋ Task๊ฐ ๋ง๊ณ ๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ํฌ๋ค๋ณด๋ ์ค๊ฐ์ ์๋ชป๋ ์์ธก์ ํ ์ ์์ต๋๋ค.
๊ฐ๋ น, Faster R-CNN ์์ ๊ฐ๋ฅผ ๊ณ ์์ด๋ผ๊ณ ์๋ชป Detect ํ๋ค๊ณ ๊ฐ์ ํด๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ๊ทธ ๋ค์ ์๋ ๋ชจ๋ MPNN Layer ๋ ์๋ชป๋ node feature๋ฅผ propagate ํ ๊ฒ ์ ๋๋ค. ๊ทธ๋ฌํ ๋ ธ๋๊ฐ degree๊ฐ ๋์ hub node๋ผ๋ฉด ? ์๋ชป๋ ์ ๋ณด๊ฐ ๋ ๋ง์ด ํผ์ง ๊ฒ ์ ๋๋ค. ์ด๋ฌํ ์ํฉ์ ์ปจํธ๋กคํ๊ธฐ ์ํด Node sensitive loss๋ฅผ ์ ์ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.

๊ทธ๋ฆผ 4๋ ์ ์๋ ๋ก์ค์ ์์์ ๋๋ค.
์ธํ๋ priority ๋ฅผ ๋ํ๋ด๋๋ฐ, ์ ์ฒด triplet ์ ์ ์ค์์ ํด๋น node๋ฅผ ๊ฑฐ์น๋ triplet์ ์๋ฅผ ๋ํ๋ ๋๋ค. ์ฆ ์์ ์ ๊ฑฐ์น๋ triplet์ด ๋ง๋ค๋ฉด priority๊ฐ ๋๋ค๊ณ ๋ณผ ์ ์๊ฒ ์ต๋๋ค. ์ด๋ฅผ degree ๊ฐ ๋์ node๋ก ์ดํดํด๋ณด๊ฒ ์ต๋๋ค.
๊ทธ ๋ค์, priority๋ฅผ ๊ธฐ๋ฐ์ผ๋ก focusing factor๋ฅผ ๊ณ์ฐํ๊ฒ ๋ฉ๋๋ค. ์ธํ๊ฐ 0๊ณผ 1์ฌ์ด์ ์์ด๋ฏ๋ก, ์ธํ๊ฐ ํด์๋ก focusing factor๊ฐ ์์์ง๊ฒ ๋ฉ๋๋ค.
๋ง์ง๋ง์ Focal Loss ์ ๋๋ค. gamma ๊ฐ์ node ์ ๋ฐ๋ผ ๋ฐ๋๊ฒ ๋๋๋ฐ์. ์ฐ์ gamma๊ฐ์ด 1์ด๋ผ๋ฉด, binary cross entropy ์ loss ํํ๋ฅผ ๋ ์ฌ๋ฆด ์ ์์ ๊ฒ ์ ๋๋ค. ๋ง์ฝ gamma ๊ฐ์ด ํฌ๋ค๋ฉด, Loss๊ฐ ์์ ๊ฒ์ ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์๋์ ์ผ๋ก ํด๋น node์ ๋ํด์ gradient update๋ฅผ ์ ๊ฒ ํ ๊ฒ์ ๋๋ค. ๋ฐ๋๋ก gamma ์๋ค๋ฉด Loss๊ฐ ์๋์ ์ผ๋ก ํด ๊ฒ ์ด๊ณ , ํด๋น node์ ๋ํด ๋ ๋ง์ update๋ฅผ ํ ๊ฒ ์ ๋๋ค.
์ฆ, degree๊ฐ ๋๋ค -> focusing factor(gamma)๊ฐ ์๋ค -> Loss๊ฐ ํฌ๋ค -> update ๋ ๋ง์ด ์ํ. degree๊ฐ ๋ฎ๋ค -> focusing factor(gamma)๊ฐ ํฌ๋ค -> Loss๊ฐ ์๋ค -> update ๋ ์ ๊ฒ ์ํ.
Degree๊ฐ ๋์ node ์ ๋ํด ๋์ฑ ์ค์ ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋ฉ๋๋ค.
Adaptive Reasoning Module
๋ง์ง๋ง์ผ๋ก, Loss๋ฅผ SGG ์ ์ํฉ์ ๋ง์ถฐ Adapation ํ ์ ์๋ ์ฅ์น๋ค์ ๋ํด์ฃผ๊ฒ ๋ฉ๋๋ค.
๋ฐ๋ก Frequency Softening ๊ณผ Bias Adaptation ์ธ๋ฐ์.

๊ทธ๋ฆผ 5๋ฅผ ํตํด ์์์ ๋ณด์๋ฉด, ๋ฐ๋ก ์ดํดํ์ค ์ ์์ต๋๋ค.
Bias Adaptation ์ training data์ ๋ฑ์ฅํ๋ label distribution ์ ํจํด์ bias๋ก์ ๋ฃ์ด์ฃผ์๋ ๊ฒ ์ ๋๋ค.
์ด ์์ด๋์ด๋ Neural-motifs [3] ์์ ๋ฑ์ฅํ ๊ฐ๋ ์ธ๋ฐ์. ํน์ triplet ํจํด์ด ๋ง์ด ๋ฑ์ฅํ๋ฉด, ๊ทธ๊ฒ์ ์์ธกํ๋๋ก ์ ๋ํ๋ bias๋ฅผ ๋ํด์ค๋ค๊ณ ๋ณด์๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
Bias Adaptation์ ์์ชฝ์ fusion term์ DMP๋ฅผ ํตํด ์ป์ feature ๋ค์ ํตํด class๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋๋ค. ๊ทธ ๋ค์ ๋ํด์ง d*p term ์ด frequency softening ๋ถ๋ถ์ด๋ผ๊ณ ๋ณผ ์ ์๊ฒ ์ต๋๋ค. ์ฃผ์ด์ง union feature u_ij ๋ฅผ ํตํด, ๋ง์ด ๋ฑ์ฅํ๋ triplet์ธ์ง ํ๋จํ์ฌ d๋ฅผ ๊ณ์ฐํ๊ณ , training data์ distribution์ด ๋ฐ์๋ p๋ฅผ ๊ณฑํด์ฃผ๊ฒ ๋ฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์, ๋ง์ด ๋ฑ์ฅํ ํจํด์ ๋ํด ์ ํฉํ bias๋ฅผ ๋ํด์ค ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
๋ค๋ง ์ฌ๊ธฐ์๋ Frequency Softening ์ ๊ตฌ์กฐ๋ฅผ ์กฐ๊ธ ๋ณํํ์ฌ ์ฌ์ฉํ๋๋ฐ์. SGG๋ฅผ ์ํํ๋ visual genome dataset์ด long-tail shaped class distribution ์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. GPS-Net์์๋ ์ด๋ฌํ long-tail distribution์ ๊ณ ๋ คํ์ฌ Frequency softening ํ๊ธฐ ์ํด์ log-softmax function์ ์ฌ์ฉํ์ฌ ์ ์ label ์ ๋ํด์๋ ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ์ ์กฐ๊ธ ์ด์ด๋๊ฒ ํฉ๋๋ค.
4. Experiment & Result
Experimental setup
SGG Framework ์์ Data ๋ Visual genome ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ํํ ๋์ด์์ต๋๋ค. ์ด๋ ์์ธกํ๋ metric ์ Recall@K ์ด๋ฉฐ SGDET, SGCLS, PREDCLS 3๊ฐ์ง Task๋ฅผ ๋น๊ตํฉ๋๋ค.
SGDET - Image -> Object detect / object classification / predicate classification ์ํ.
์ ํ์ ์ผ๋ก ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋, Graph๋ฅผ ์์ฑํ๋ ํ์คํฌ ์
๋๋ค. ์ธ๊ฐ์ง ์ค์ ๊ฐ์ฅ ์ด๋ ค์ด ํ์คํฌ๋ผ๊ณ ๋ณผ ์ ์์ผ๋ฉฐ,
๋ง ๊ทธ๋๋ก ์ด๋ฏธ์ง๊ฐ ๊ทธ๋ํ ์์ฒด๋ก ๋ณํํ๋ ๋งตํ์ ๋ฐฐ์ฐ๋ ๊ฒ ์
๋๋ค. ๋ฐ๋ผ์, Object Detector, Graph Edge Prediction, Object, relation classifier์
๋ชจ๋ ์ฑ๋ฅ์ ๋ค ์ฒดํฌํ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๊ฒ ์ต๋๋ค.
SGCLS - Ground Truth Box -> object classification / Predicate classification ์ํ
์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๊ณ , ์ค์ Bounding Box๊ฐ ์ฃผ์ด์ก์ ๋ Scene Graph๋ฅผ ๋ง๋๋ ํ์คํฌ ์
๋๋ค. Object Detector์ Dependentํ์ง ์๊ธฐ ๋๋ฌธ์
์์ SGDET Task๋ณด๋ค๋ ์ด์ง ์ฌ์์ง Task ์
๋๋ค. ์ค์ง Object, Predicate Classifer์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ธฐ์ค ์
๋๋ค.
PREDCLS - Ground Truth Box, object category -> Predciate Classification ์ํ
๋ง์ง๋ง์ผ๋ก, ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๊ณ , ์ค์ Bounding Box์ Object์ Classs๊น์ง ๋ฌด์์ธ์ง ์ฃผ์ด์ก์ ๋ Scene Graph๋ฅผ ๋ง๋๋ ํ์คํฌ ์
๋๋ค.
Object Detector์ Dependentํ์ง ์๊ณ , Object์ Class๋ ์ด๋ฏธ ์๊ธฐ ๋๋ฌธ์ ๊ฐ์ฅ ์ฌ์ด ํ์คํฌ์
๋๋ค. ์ค์ง, Predicate Classifer์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ธฐ์ค ์
๋๋ค.
Result

ํ1 ์ Recall@K ๋ฅผ K=20, 50, 100 ์ ๋ฐ๋ผ ๊ฐ๊ฐ์ Task์ ๋น๊ตํ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ๋ชจ๋ธ ์์ ๋ํ์ ๋์ผํ object detector ๋ฅผ ์ฌ์ฉํ ๊ฒ ๋ผ๋ฆฌ ๋ฌถ์ ๊ฒ ์ ๋๋ค. ๋ณด์๋ ๋ฐ์ ๊ฐ์ด GPS-Net์ ์ด๋ค object detector๋ฅผ ์ฌ์ฉํ๋๊ฐ์ ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ๋ชจ๋ Task์์ ์๋ํ๊ณ ์๋ค์.

ํ2๋ ๊ฐ๊ฐ์ class๋ณ Recall@K๋ฅผ ๋ฐ๋ก ๊ตฌํ๊ณ , ๋ชจ๋ class์ ํ๊ท ์ ์ทจํ mR@K ๋ฅผ ๋น๊ตํ์์ต๋๋ค. ๋ํ ๊ฐ๊ฐ์ class ๋ณ๋ก performance gain์ด ์ผ๋งํผ ์ผ์ด ๋ฌ๋์ง ๋น๊ตํ์์ต๋๋ค. ํ์คํ mR@K๊ฐ ์ฆ๊ฐํ๊ณ , ์ฐ์ธก ๊ทธ๋ฆผ์ ๋ณด์์ ๋ long-tail class ์ ๋ํด์ ์ฑ๋ฅ์ด ํฅ์๋์์์ ํ์ธํ ์ ์์ต๋๋ค.

ํ3 (a), (b)๋ ๊ฐ๊ฐ ๋ชจ๋ธ component ๋ค์ ๋ํด ablation study๋ฅผ ํ ๊ฒฐ๊ณผ ์ ๋๋ค. ํ(a) ๋ฅผ ์ดํด๋ณด๋ฉด SGDET์ SGCLS์ Task์์๋ ๊ธฐ์กด์ ๋ชจ๋ธ์ DMP๋ฅผ ์ถ๊ฐํ์ ๋ ๊ฐ์ฅ ํฐ performance gain์ด ์์์์ ํ์ธํ ์ ์์ต๋๋ค. SGG์์ ๋ฐฉํฅ์ด ์ผ๋ง๋ ์ค์ํ์ง ์ดํด๋ณผ ์ ์๋ ๋๋ชฉ์ ๋๋ค. ๋ํ NPS, ARM ๋ํ ์กฐ๊ธ์ฉ์ performance gain์ ๋์์ ์ฃผ์์ต๋๋ค. DMP ๋งํผ์ ์๋์ง๋ง, ์ข ํฉ์ ์ผ๋ก ๋ณด์์ ๋ ๊ธฐ์กด์ ๋นํด ์ฑ๋ฅ ๊ฐ์ ์ ๋์์ ์ฃผ์์ต๋๋ค. ๋ฐ๋ฉด, PREDCLS Task์์๋ ARM์ด ๊ฐ์ฅ ํฐ ๊ฐ์ ์ ์ฃผ์์ต๋๋ค. ARM์ด ํ๊ฒํ๋ ํํธ๊ฐ PREDCLS์ ์ฐ๊ด์ด ๊ฐ์ฅ ํฐ ๋งํผ, ์ด TASK ์์๋ DMP๋ณด๋ค ๋ ๋ง์ ์ฑ๋ฅ ๊ฐ์ ์ ๋ณด์์ต๋๋ค.
ํ(b) ์์๋ DMP์ ์ฑ๋ฅ์ stack์ ํ์๋, ๊ธฐ์กด MP ์์ ๋น๊ต๋ฅผ ์คํํ์๊ณ , ๋ํ NPS์์ node focusing์ ์ผ๋ง๋ ํ ๊ฒ์ธ์ง๋ฅผ ์กฐ์ ํ๋ hyperparmaeter, mu์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์งํํ์์ต๋๋ค.
์ ๋ฐ์ ์ผ๋ก Baseline๊ณผ์ ์คํ ๋น๊ต์, ์ ์๋ ๋ชจ๋ธ์ ๋ํ ablation study๊ฐ ์ฐฉ์คํ๊ฒ ์ ์ด๋ฃจ์ด์ง ๋ ผ๋ฌธ์ผ๋ก์ ์ดํดํ๊ธฐ ์ฌ์ฐ๋ฉด์๋ ์คํ์ ํตํ ๊ฐ์ค์ ๊ฒ์ฆ์ด ์ ์งํ๋์๋ค๊ณ ๋ณด์ฌ์ง๋๋ค.
5. Conclusion
๋ณธ GPS-Net ์์๋ Scene Graph Generation ์์ ๋ค๋ฃจ์ด์ผํ ์๋ก์ด ๋ฌธ์ ๋ค์ ์ ์ํ์์ต๋๋ค. ๋ชจ๋ธ์ด object ๊ฐ์ ๋ฐฉํฅ์ ์ธ์งํ์ฌ์ผํ๊ณ , ๊ฐ node๋ณ ์ค์๋๊ฐ ๋ค๋ฅด๋ค๋ ์ ์ ์ธ์ํ๊ฒ ํ ์ ์๋ ๋ชจ๋ธ์ ์ ์ํ์์ต๋๋ค. ์ ์ ํ ์คํ์ ํตํด ์ด๊ฒ๋ค์ ํด์ํ๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๋ค๋ง, ์คํ ๊ตฌ์ฑ ๋ฉด์์ appendix์ u_ij ๋ผ๋ feature ์ ๋ํ ์ญํ ๊ท๋ช ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉด ๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ ๋๋ฌธ์ธ์ง ์ feature๋ฅผ ์ถ๊ฐํจ์ผ๋ก์ ์ป์ ์ฑ๋ฅํฅ์์ธ์ง ๊ตฌ๋ถํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. Recall์ ์ดํด๋ณด์์ ๋, image to graph ๋ฅผ ํ๋ task๋ค์ด, ์ค์ ์ํ์์ ์ฌ์ฉํ๊ธฐ์๋ ์์ง ๋๋ฌด๋ ๋ฎ์ ์์น๋ผ๊ณ ์๊ฐ๋ฉ๋๋ค.
Take home message
SGG ๋ฌธ์ ์์์ ์กด์ฌํ ์ ์๋ ๊ฐ๋จํ ๊ฐ์ค์ ์ ์ฆํ๊ธฐ ์ํด, ๋ฌด์ํ ๋ง์ ๋ ธ๋ ฅ, ์คํ์ ํ ๋ ผ๋ฌธ์ด๋ผ๊ณ ๋ณด์ฌ์ง๋๋ค. ์ฌ์ด ๊ฐ์ค ํ๋๋ฅผ ์ธ์ฐ๋ ๊ฒ์ ์ฐฐ๋์ด์ง๋ง, ์ ์ฆํ๊ธฐ ์ํด์๋ ์ ๋ง ๋ง์ ๋ ธ๋ ฅ๊ณผ ์๊ฐ์ด ํ์ํจ์ ๋๋ผ๊ณ , ๋ณธ๋ฐ์ต๋๋ค.
Author
์ค๊ฐํ (Kanghoon Yoon)
Affiliation (KAIST Industrial Engineering Department)
(optional) ph.D students in DSAIL
Reference & Additional materials
Visual translation embedding network for visual relation detection
Representation learning for scene graph completion via jointly structural and visual embedding
Neural Motifs: Scene Graph Parsing with Global Context
Graph R-CNN for Scene Graph Generation.
GPS-net: Graph property sensing network for scene graph generation
Last updated
Was this helpful?