BGNN [Kor]
Li et al. / Bipartite Graph Network With Adaptive Message Passing For Unbiased Scene Graph Generation / CVPR 2021
1. Problem definition
Paper Topic
Scene Graph Generation(SGG) in Computer Vision
Scene Graph Generation์ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ Scene Graph๋ก ๋ณํํ๋ Task๋ฅผ ์๋ฏธํ๋ค. ์๋ฅผ ๋ค์ด, ์ผ์ชฝ์ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ Graph๋ก ๋ง๋๋ ๊ฒ์ด๋ค. Graph์ Node์ Entity(e.g.์ฌ๋, ๋)์ ์๋ฏธํ๊ณ Edge์ ๊ฒฝ์ฐ์๋ ๋ Node ์ฌ์ด์ Edge๋ Entity ์ฌ์ด์ Predicate(์ ์ด)๋ฅผ ์๋ฏธํ๋ค. "์ฌ๋์ด ๋ ์์ ์๋ค"๋ผ๊ณ ํ๋ค๋ฉด Node๋ "์ฌ๋", "๋"์ด ๋ ๊ฒ์ด๊ณ Edge(Predicate)์ "standing on(์์ ์ ์๋ค)"๊ฐ ๋ ๊ฒ์ด๋ค.
๊ทธ๋ฆผ ์ถ์ฒ: [CVPR 21]Energy-Based Learning For Scene Graph Generation
2. Motivation
Scene Graph Generation(SGG) ํ ๋์ Main Challenge ์ค์ ํ๋๊ฐ Predicate(e.g standing on, has)์ Distribution์ด Long-Tailed๋ก ๋์ด์๋ค๋ ์ ์ด๋ค. SGG์์์ Benchmark Dataset ์ค์ ํ๋๋ "Visual Genome(VG)"์ด๋ค. VG์ Image์์ ๋์ค๋ Predicate๋ฅผ ๋ณด๋ฉด ์๋์ ๊ฐ์ Distribution์ ๊ฐ๊ณ ์๋ค.
๊ทธ๋ฆผ ์ถ์ฒ : [CVPR 20]Unbiased Scene Graph Generation from Biased Training
Long-Tailed Distribution์ ๊ณ ๋ คํ์ง ์๊ณ ๋ชจ๋ธ๋ง์ ํ๊ฒ ๋๋ค๋ฉด Training์์ ๋ง์ด ๋์ค๋ "On, Has" ๋ฑ์ Predicate๊ฐ ๋ง์ด ํ์ต๋ ๊ฒ์ด๊ณ , Test์์ Long Tailed์ ํด๋นํ๋ Predicate๊ฐ ๋์ค๋๋ผ๋ ๋น์ทํ ์๋ฏธ์ธ ๊ฒฝ์ฐ Head Tailed ๋ถ๋ถ์ Predicate๋ฅผ ๋ง์ถ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค๋ฉด 'Standing On'์ด Test์ ๋์ค๋๋ผ๋ ๋น์ทํ ์๋ฏธ์ธ 'On'์ ๋ง์ถ๊ฒ ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์ ํํ Scene Graph๋ฅผ ๋ง๋ค์ง ๋ชปํ๊ฒ ๋ ๊ฒ์ด๋ค.
Related work
Scene Graph Generation
์๋์ 3๊ฐ์ ๋ ผ๋ฌธ๊ณผ ๊ฐ์ ๊ฒฝ์ฐ์๋ Sparse Graph๊ฐ ์๋ ๋ชจ๋ Entity๊ฐ์ Predicate๊ฐ ์ฐ๊ฒฐ๋์ด ์๋ค๊ณ ๊ฐ์ ํ์ฌ Scene Graph๋ฅผ ๋ง๋ค์ด๋ธ๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๋ชจ๋ Entity Pair์ ๊ฒฝ์ฐ๋ฅผ ๊ณ ๋ คํ ์ ์๊ฒ ์ง๋ง, ์๋ฏธ ์๋ Entity Pair์ Predicate๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒ์ Noise๋ฅผ ๋ฐ์ ํ ์ ์๋ค.
Scene graph generation by iterative message passing(CVPR 17)
Scene Graph Generation from Objects, Phrases and Region Captions(ICCV 17)
Gps-net: Graph property sensing network for scene graph
generation(CVPR 20)
Long-Tailed
Long-Tailed ๋ฌธ์ ๋ก Biased Prediction ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์จ Effort๋ค์ด ์กด์ฌํ๋ค. Long Tailed Problem์ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ง Technique์ ์ฌ์ฉํ๋ค. ์๋์ ๊ฐ์ ๋ ผ๋ฌธ์ ๊ฒฝ์ฐ์๋ Loss๋ฅผ ์๋กญ๊ฒ Designํ์ฌ ํด๊ฒฐํ๊ณ ์ ํ๋ค.
Graph Density-Aware Losses for Novel Compositions in Scene Graph Generation(ECCV 17)
Pcpl: Predicate-correlation perception learning for unbiased scene graph generation(MM 20)
Idea
์ด ๋ ผ๋ฌธ์์๋ Introduction์์ ์ธ๊ธํ ๊ฒ๊ณผ ๊ฐ์ด Predicate์ Long Tailed Distribution Problem์ ๋ค๋ฃฌ๋ค. ์ผ๋ฐ์ ์ธ Scene Graph Generation์ ํ ๋๋ ๋ชจ๋ Node๊ฐ์ Predicate๊ฐ ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํ์ฌ Fully Connected Graph๋ฅผ ๋ง๋ค๊ณ ์งํํ๋ค. ํ์ง๋ง, ๋ ผ๋ฌธ์์๋ ๋ Node๊ฐ์ Predicate๊ฐ meaninglessํ ๊ฒฝ์ฐ์๋ Scene Graph์๊ฒ Negative Effect๋ฅผ ์ค ๊ฒ์ด๋ผ๊ณ ๋งํ๋ค. ๋ฐ๋ผ์, ์ด ๋ ผ๋ฌธ์์๋ ๋ Node๊ฐ์ Meaninglessํ Predicate๋ฅผ ๊ณจ๋ผ๋ด๋ Confidence Module๋ฅผ ์ด์ฉํ๊ฒ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์๋์ ๊ทธ๋ฆผ์ ๋ณด์ฌ์ฃผ๋ฉฐ ๋ค๋ชจ์นธ์ ์์ ๋ฉด Accurate Graph๋ฅผ ๋ง๋ ๋ค๊ณ ์ฃผ์ฅํ๋ค.
Confidence Module ๋ฟ๋ง ์๋๋ผ 'Bi-Level Sampling'์ด๋ผ๋ Sampling ๊ธฐ๋ฒ์ ์ด์ฉํ์ฌ Long-Tailed Problem์ ํต์ฌ์ ์ผ๋ก ๋ค๋ฃจ๊ณ ์๋ค๊ณ ํ ์ ์๋ค.
3. Method
๋ชจ๋ธ์ ์ค๋ช ํ๊ธฐ ์ ์ Scene Graph์ ๊ฒฝ์ฐ์๋ 'Faster-RCNN'์ ๊ฐ์ Object Detection Module๋ฅผ ์ฌ์ฉํ์ฌ Bounding Box์ Object Class Distribution์ด ์ฃผ์ด์ง๊ฒ ๋๋ค. ์ฃผ์ด์ง Bounding Box๋ฅผ Graph์์์ ํ๋์ Node๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
1. Bipartite Graph Construction
Image๊ฐ ์ฃผ์ด์ก์ ๋, Entity๋ฅผ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด Bipartite Graph์์ ํ Group์ Entity Group์ผ๋ก ๋ํ๋ด๊ณ , ๋ค๋ฅธ ํ Group์ Predicate๊ฐ ์กด์ฌํ๋ค. Introduction์์๋ ๋ Node๊ฐ์ Meaningless Predicate๊ฐ ์กด์ฌํ๋ฉด Noise๊ฐ ๋ฐ์ํ๋ค๊ณ ํ์ง๋ง, Graph Constructionํ ๋๋ ๋จผ์ ๋ Node๊ฐ์ Predicate๊ฐ ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํ๊ณ ์์ํ๋ค. (์ดํ์, ์กด์ฌํ๋์ง ์ํ๋์ง๋ฅผ Modelingํ๋ค)
Bipartite Graph์ Direction์ ์ค ์ด์ ๋ Message Passing ํ ๋, Entity->Predicate์ Predicate->Entity์ Message Passing์ ๋ค๋ฅด๊ฒ ํด์ฃผ๊ธฐ ์ํด์๋ค.
Fully Connected Graph์ด๊ธฐ ๋๋ฌธ์ Pair Node๊ฐ์๋ Predicate Proposal์ด ์กด์ฌํ์ฌ ์์ ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ํ Predicate Proposal์๋ ๋ Node Pair์ ์ฐ๊ฒฐ๋์ด ์๋ค. (Proposal : Ground Truth Predicate๋ ์๋์ง๋ง ๊ฐ์ ํ๋(?) Predicate)
2. Relation Confidence Estimation(RCE) + Confidence Message Passing(CMP)
RCE
์์ ๊ทธ๋ฆผ์ "RCE" Branch๋ฅผ ์๋ฏธํ๋ค. ์ด Module์ ๋ Node ๊ฐ์ Meaning Predicate์ธ์ง ํ์ธํ๊ธฐ ์ํ Branch๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
์์ Class Confidence๋ Predicate Proposal์ด ๊ฐ Predicate๋ง๋ค ์ผ๋ง๋์ Confidence๋ฅผ ๊ฐ๊ณ ์๋์ง ๋ํ๋ธ๋ค. ๋ง์ฝ ์ ์ฒด์ ์ผ๋ก Predicate์ ๋ํ Confidence๊ฐ ๋ฎ์์ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์๋ค๋ฉด ์ ์ฒด์ ์ธ Predicate์ Confidence ๊ฐ์ ๋ฎ์์ง๊ฒ ๋ ๊ฒ์ด๋ค.
์์ ์์ ๋ Node๊ฐ์ Meaning Predicate๊ฐ ์กด์ฌํ๋์ง์ Global Confidence Score(Scalar)๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ๋ง์ฝ Score๊ฐ ๋๋ค๋ ๊ฒ์ ๋ Node๊ฐ์ Meaning Predicate๊ฐ ์กด์ฌํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ ์ ์๊ณ , ๋ฎ์ผ๋ฉด Meaningless๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
CMP
CMP Branch๋ RCE์ Branch๋ก ์๊ฒ ๋ Confidence Score๋ฅผ ํตํด Message Passing์ ํ๋ค. Graph Construction์์ ์ค๋ช ํ๋ฏ์ด Entity->Predicate์ Predicate->Entity์ Message๋ ๋ค๋ฅด๊ฒ Propagation ๋์ด์ผ ํ๋ค.
์์ ์์ Entity->Predicate์ Message Passing์ ๋ํ๋ธ๋ค. ์์ ์์ ํด์ํ๋ฉด ๊ฐ๋จํ๋ค. Entity์์ Predicate๋ก Message๋ฅผ Passingํ ๋๋ Entity์ Relationship Proposal์ ๋ณด๊ณ Message๋ฅผ ์ผ๋ง๋ Passingํ ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ค.
Predicate->Entity์ผ ๋๋ Predicate์ ์์ง ๊ฐ์ ์ด๊ธฐ ๋๋ฌธ์ ๋ง์ Noise๊ฐ ์กด์ฌํ๋ค. ์์ง ์๋ฏธ ์๋ Predicate์ธ์ง ๋ชจ๋ฅธ๋ค. ๋ฐ๋ผ์ Predicate์์ Entity๋ก Message Passing์ด ์ผ์ด๋ ๋๋ RCE์ Global Confidence Score๋ฅผ ํตํด์ Noise๋ฅผ ์ค์ฌ์ค๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
Global Confidence Score๋ Gating Function์ ํตํด Hard Controlํ๊ฒ ๋๋๋ฐ, 1๋ณด๋ค ์ปค์ง๋ฉด 1๋ก Clipํ์ฌ ๋ ํฐ ๊ฒ์ ๊ณ ๋ ค ์ํ๊ณ , 1๋ณด๋ค ์์์ง๋ฉด 0์ผ๋ก Clipํ์ฌ ๋ ์์์ง๊ฒ ํ์ง ์๋๋ค.
Entity->Predicate๋ก Message๋ฅผ ์ค ๋ ํ ๋ฒ Confidence Score๋ก ๊ฑฐ๋ฅธ ๋ค์์, Global Confidence Score๋ฅผ ํตํด์ ํ ๋ฒ๋ ๊ฑธ๋ฌ์ Noise๋ฅผ ์ ๊ฑฐํ๋ค. Predicate->Entity๋ก Message๋ฅผ ์ค ๋ ์์ ์๊ณผ ์ ์ฌํ์ง๋ง Global Confidence Score๋ฅผ Message์ ํ ๋ฒ ๋ ๊ณฑํด์ ๊ฑธ๋ฌ์ง๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
3. Bi-Level Resampling
Train Data๋ฅผ ํ์ต์ํฌ ๋ Randomํ๊ฒ Image๋ฅผ ๋ฝ๋ ๊ฒ์ด ์๋๋ผ Predicate์ Distribution์ ๋ฐ๋ผ ์ ํ๋๊ฒ ํ๋ ๊ฒ์ด๋ค. 2๋จ๊ณ์ ๊ฑธ์ณ์ Samplingํ๊ฒ ๋๋๋ฐ, ์ฒซ ๋ฒ์งธ๋ก Image-level๋ก Image๋ฅผ ์ฌ๋ฌ ๊ฐ๋ก ๋ง๋ค์ด๋ธ ๋ค์์, ๋ ๋ฒ์งธ๋ก Instance-Level Sampling์ผ๋ก ํ Image์์ Predicate๋ฅผ ์ผ์ ํ๋ฅ ๋ก Drop-out์ํจ๋ค.
Image-Level Over-Sampling
์์ ๊ทธ๋ฆผ ๋ ๋ฒ์งธ์ฒ๋ผ Image๋ฅผ ํ Image์์ ์ด๋ฏธ์ง ๋ด์ Predicate๊ฐ ๊ฐ์ฅ ๋ง์ ์๋งํผ Image๋ฅผ OverSamplingํ๋ค.
๊ฐ Image๋น Predicate์ Frequency๊ฐ ๋์ ๋น์จ๋ก Image๋ฅผ Oversamplingํ๊ฒ ๋๋ค.
Instance-level Under-Sampling
์์ ๊ทธ๋ฆผ ์ธ ๋ฒ์งธ์ฒ๋ผ Image๋ด์์ Predicate๋ฅผ Drop์ํฌ์ง ์ ์ํฌ์ง ๊ฒฐ์ ํ๊ฒ ๋๋ค. ๋ง์ฝ ์ ์ฒด์ ์ผ๋ก Predicate๊ฐ Head ๋ถ๋ถ์ผ๋ก ๋ง์ด ๋์ค๊ฒ ๋๋ค๋ฉด Dropํ๋ฅ ์ ์ฆ๊ฐ์์ผ Drop์ํจ๋ค.
Droput-Rate๋ ์์ ๊ฐ์ ์์ ํตํด์ ์ ํด์ง๋ค. ์์ ์์ผ๋ก ์์๋ฅผ ๋ค๋ฉด ์๋์ ๊ฐ๋ค.
Image-level๋ก $r_i$๊ฐ 0.5๋ก Image ์ค์ Max๊ฐ์ผ ๋, $c$๊ฐ ๊ฐ์์ง๋ก $r_c$๊ฐ 0.2์ด๊ณ Hyperparameter๊ฐ 1์ด๋ฉด 0.6($d_i^c$) ๊ฐ์ ๊ฐ๊ฒ ๋๋ค. ์ฆ, ๊ฐ์์ง๋ฅผ 0.6ํ๋ฅ ๋ก Dropout ์ํจ๋ค๋ ์๋ฏธ์ด๋ค.
Image-level๊ณผ Instance-level๋ก Bi-level Sampling์ ํ๊ฒ ๋๋ค๋ฉด Long-Tailed Distribution์ ๊ณ ๋ คํ์ฌ Samplingํ๊ฒ ๋ ๊ฒ์ด๋ค.
4. Experiment & Result
Experimental Setup
Datset Scene Graph Generation์ ํ ๊ฒฝ์ฐ์๋ Benchmark Dataset์ผ๋ก Visual Genome Dataset์ ๋ง์ด ์ฌ์ฉํ๋ค. ๊ทธ๋ฆฌ๊ณ Open Images๋ ์ฌ์ฉํ์ฌ ๋ค์ํ Baseline๊ณผ ๋น๊ตํ๋ค.
Baseline
Pcpl:Predicate-correlation perception learning for unbiased scene graph generation(MM 20) -SOTA
Neural motifs: Scene graph parsing with global contex(CVPR 18)
Graph r-cnn for scene graph generation(ECCV 18)
Learning to compose dynamic tree structures for visual contexts(CVPR 19)
Graphical Contrastive Losses for Scene Graph Generation(CVPR 19)
Knowledge-embedded routing network for scene graph generation(CVPR 19)
Gps-net: Graph property sensing network for scene graph generation(CVPR 20)
Unbiased scene graph generation from biased training(CVPR 20)
Training Setup Convolution Feature๋ฅผ ์ป์ด๋ด๊ธฐ ์ํด์ ResNet-101์ Backbone์ผ๋ก ์ฌ์ฉํ๊ณ , Faster R-CNN์ ํตํด Object Dectection์ ์งํํ๋ค. Trainingํ ๋๋ ์์ Parameter๋ฅผ Frozen์ํ๋ก Training์ ์งํํ๋ค. ์ฆ, Backbone์ชฝ๊ณผ Detector์ชฝ์ Parameter๋ฅผ Pretrained๋ ๊ฒ์ ์ฌ์ฉํ๋ค.
Evaluation Metric : Recall@K, mean recall@K PredCls : ํ Image์์ Subject-Predicate-Object๊ฐ ์ฃผ์ด์ก์ ๋, Predicate๋ง์ ๋ณด๊ณ ๋ง์ท๋์ง์ ๋ฐ๋ผ Recall๋ฅผ ์ค๋ค. SGCls : ํ Image์์ Subject-Predicate-Object๊ฐ ์์ ๋, 3๊ฐ์ Triple์ ๋ชจ๋ ๋ง์ท์ ๊ฒฝ์ฐ์ ๋ฐ๋ผ Recall๋ฅผ ์ค๋ค. SGGen : ์์ SGCls์ ์กฐ๊ฑด์๋ค๊ฐ Object Detect๋ฅผ ํ์ ๋, Ground Truth Bounding Box์์ IoU๊ฐ 0.5์ด์์ธ ๊ฒฝ์ฐ์ ๋ง์ท๋ค๊ณ ์๊ฐํ๋ค.
Result
์ด ๋ ผ๋ฌธ์ Long-Tailed Distribution์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์๊ธฐ ๋๋ฌธ์ Long-Tailed์ ํด๋นํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ฟ๋ง ์๋๋ผ ์ ์ฒด์ ์ธ Recall ๊ฐ์ Baseline Model๊ณผ ๋น๊ตํ์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์๋ค.
GPS-Net๊ณผ Unbias ๋ Model๋ Long-Tailed Distribution์ ๋ค๋ฃฌ ๋ ผ๋ฌธ์ด๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ํด๋น ๋ชจ๋ธ์ด Long-Tailed๋ฅผ ๋ ์ ์ก์๋ธ๋ค๊ณ ๋ณผ ์ ์๋ค.
๋ค๋ฅธ Baseline๊ณผ์ ์คํ ๋น๊ตํ ๊ฒฐ๊ณผ(Recall)๋ ์๋์ ๊ฐ๋ค.
SOTA Model์ ๊ฒฝ์ฐ์๋ PCPL์ผ๋ก mean Recall์์๋ ๋ฎ์ง๋ง, Recall์ ๊ฒฝ์ฐ์๋ Proposed Method๊ฐ ๋ ๋์ ๊ฒ์ ๋ณผ ์ ์์๋ค.
5. Conclusion
SGG์์ Long-Tailed ๋ฌธ์ ๊ฐ ๋ ์ฌ๊ฐํ๋ฐ ์ด ๋ ผ๋ฌธ์์๋ Confidence Module๋ฅผ ๋ฃ์ด ๋ Node์ Predicate๊ฐ Meaningํ์ง๋ฅผ ๋จผ์ ์ก์๋ด์ Noise๋ฅผ ์ก์๋ธ ํ, Message Passing์ ํ๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ Bi-Level Resampling ๋ฐฉ๋ฒ์ ์ด์ฉํ์ฌ Long-Tailed Distribution์ ๋ง๊ฒ Samplingํ๋ค.
Take home message (์ค๋์ ๊ตํ)
Scene Graph Generationํ ๋ Long-Tailed ๋ฌธ์ ๋ฅผ ๊ฐ์ด ๊ณ ๋ คํ๋ ๊ฒ์ด ์ด ๋ถ์ผ์์ ์ค์ํ๋ค๋ ๊ฒ์ ์๋ ค์ค๋ค.
๋ง์ฝ Long-Tailed ๋ฌธ์ ๋ฅผ Focusingํ๋ ๋ ผ๋ฌธ์ผ ๊ฒฝ์ฐ์ Recent Paper ์ค์ ํด๋น ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ณ ์๋ ๋ ผ๋ฌธ๊ณผ์ ๋น๊ต์ ํ์์ฑ ์กด์ฌ
Confidence Module๋ฅผ ํตํด Liveํ ๋ฐฉ๋ฒ์ผ๋ก Entity Pair๋ฅผ ์๋ผ๋ด๋ ๊ฒ์ด ์๋๋ผ, Module๋ด์์ ์๋ฏธ์๋ Predicate๊ฐ ์กด์ฌํ๋์ง ํ์ต๊ณผ์ ์์ ๋์ค๊ฒ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฅธ ๊ณณ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์กด์ฌ
Author / Reviewer information
Author
๊น๊ธฐ๋ฒ(Kibum Kim)
KAIST ISysE(์ฐ์ ๋ฐ์์คํ ๊ณตํ๊ณผ) ์์ฌ์
Research Topic : Recommendation, Graph Neural Network
Reference & Additional materials
Reference(Part)
Tang, K., Niu, Y., Huang, J., Shi, J., & Zhang, H. (2020). Unbiased scene graph generation from biased training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3716-3725)
Yan, S., Shen, C., Jin, Z., Huang, J., Jiang, R., Chen, Y., & Hua, X. S. (2020, October). Pcpl: Predicate-correlation perception learning for unbiased scene graph generation. In Proceedings of the 28th ACM International Conference on Multimedia (pp. 265-273).
Zellers, R., Yatskar, M., Thomson, S., & Choi, Y. (2018). Neural motifs: Scene graph parsing with global context. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 5831-5840). vision, pages 2980โ2988, 2017
Yang, J., Lu, J., Lee, S., Batra, D., & Parikh, D. (2018). Graph r-cnn for scene graph generation. In Proceedings of the European conference on computer vision (ECCV) (pp. 670-685).
Tang, K., Zhang, H., Wu, B., Luo, W., & Liu, W. (2019). Learning to compose dynamic tree structures for visual contexts. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6619-6628).
Zhang, J., Shih, K. J., Elgammal, A., Tao, A., & Catanzaro, B. (2019). Graphical Contrastive Losses for Scene Graph Generation.
Chen, T., Yu, W., Chen, R., & Lin, L. (2019). Knowledge-embedded routing network for scene graph generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6163-6171).
Suhail, M., Mittal, A., Siddiquie, B., Broaddus, C., Eledath, J., Medioni, G., & Sigal, L. (2021). Energy-Based Learning for Scene Graph Generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13936-13945).
Lin, X., Ding, C., Zeng, J., & Tao, D. (2020). Gps-net: Graph property sensing network for scene graph generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3746-3753). .....
Last updated
Was this helpful?