GIRAFFE [Kor]
Niemeyer et al. / GIRAFFE] Representing Scenes as Compositional Generative Neural Feature Fields / CVPR 2021 (oral, best paper award)
English version of this article is available.
1. Problem definition
GAN(Generative Adversarial Network) ์ ํตํด ์ฐ๋ฆฌ๋ ์ฌ์ค์ ์ธ ์ด๋ฏธ์ง๋ฅผ ๋ฌด์์๋ก ์์ฑํ ์ ์๊ฒ ๋์๊ณ , ๋ ๋์๊ฐ ๊ฐ๊ฐ์ ํํ(๋จธ๋ฆฌ์, ์ด๋ชฉ๊ตฌ๋น ๋ฑ)์ ๋ ๋ฆฝ์ ์ผ๋ก ์กฐ์ ํ ์ ์๋ ๊ฒฝ์ง์ ์ด๋ฅด๋ ๋ค. ํ์ง๋ง 3์ฐจ์ ์ธ๊ณ๋ฅผ 2D ๋ก ๋ํ๋์ผ๋ก์จ ํ๊ณ์ ๋ถ๋ชํ๊ฒ ๋์๊ณ , ์ต๊ทผ ์ฐ๊ตฌ๋ค์ 3D representation ์ ํจ๊ณผ์ ์ผ๋ก ๋ํ๋ด๋ ๊ฒ์ ์ฃผ๋ ฅํ๊ณ ์๋ค. ๊ฐ์ฅ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ 2์ฅ์์ ์๊ฐ๋ implicit neural representation ์ธ๋ฐ, ์ง๊ธ๊น์ง์ ์ฐ๊ตฌ๋ค์ ๋ฌผ์ฒด๊ฐ ํ๋์ด๊ฑฐ๋ ๋ณต์กํ์ง ์์ ์ด๋ฏธ์ง์ ๋ํด์๋ง ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๊ฐ๊ฐ์ ๋ฌผ์ฒด๋ฅผ 3D representation ์ ๊ฐ๋ณ์ ์ธ ๊ตฌ์ฑ ์์๋ก ๋ํ๋ ์์ฑ ๋ชจ๋ธ์ ์ ์ํ์ฌ ์ฌ๋ฌ ๋ฌผ์ฒด๊ฐ ์๋ ๋ณต์กํ ์ด๋ฏธ์ง์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
2. Motivation
Related work
Implicit Neural Representation (INR)
๊ธฐ์กด ์ธ๊ณต์ ๊ฒฝ๋ง(neural network) ์ ์ถ์ (ex. image classification) ๊ณผ ์์ฑ(ex. generative models) ์ ์ญํ ์ ์ํํ์๋ค. ์ด์ ๋ฐํด Implicit representation ์ ํํ์ ๊ธฐ๋ฅ์ ์ํํ์ฌ, network parameter ์์ฒด๊ฐ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์๋ฏธํ๊ฒ ๋๋ค. ๊ทธ๋์ ๋คํธ์ํฌ์ ํฌ๊ธฐ๋ ์ ๋ณด์ ๋ณต์ก๋์ ๋น๋กํ๊ฒ ๋๋ค (๋จ์ํ ์๋ณด๋ค ๋ฒ์ ์ฌ์ง์ ๋ํ๋ด๋ ๋ชจ๋ธ์ด ๋ ๋ณต์กํ๋ค). ๋ ๋์๊ฐ NeRF ์์ ์ฒ๋ผ ์ขํ๊ฐ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ค์ด์์ ๋ RGB ๊ฐ์ ์ฐ์ถํ๋ ์ฐ์์ ์ธ ํจ์๋ฅผ ํ์ตํจ์ผ๋ก์จ ์ฐ์์ ์ธ ํํ๋ ๊ฐ๋ฅํ๊ฒ ๋์๋ค.
NeRF : Neural Radiance Field
ํ๋์ ์ฅ๋ฉด์ 5D ์ขํ (3d ์์น์ ๋ฐฉํฅ) ์ ๋ํ RGB ๊ฐ๊ณผ ๋ถํผ intensity ์ ์ฐ์ถํ๋ fully connected layer ๋ก ํํ๋๋ค. ์ด๋ ๋ ๋์ ์ฐจ์์ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด 5D ์ ๋ ฅ๊ฐ์ positional encoding ์ ๊ฑฐ์น๊ฒ ๋๋ค. ํน์ ๋ฐฉํฅ์์ ๋น์ ์์์ ๋ ์๊ธฐ๋ camera ray ๋ด์ ์ ์ n ๊ฐ ์ํ๋งํ ํ, ๊ฐ๊ฐ์ color ์ density ๊ฐ์ volume rendering technique (3์ฅ Methods ์ ์ค๋ช ) ์ ํตํด ํฉ์นจ์ผ๋ก์จ ์ด๋ฏธ์ง pixel ์ ๊ฐ์ ์์ธกํ๋ค. ํ์ต์ GT(ground truth) posed ์ด๋ฏธ์ง์ ์์ธก๋ volume rendered ์ด๋ฏธ์ง ๊ฐ์ ์ฐจ์ด๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค.
GRAF : Generative Radiance Field
๋ณธ ๋ ผ๋ฌธ์ NeRF ์ ๋ฌ๋ฆฌ unposed image ๋ฅผ ํ์ฉํ์ฌ 3D representation ์ ํ์ตํ๋ค. Input ์ผ๋ก๋ sampling ๋ camera pose ฮต (์์ชฝ ๋ฐ๊ตฌ์์ ์ค์ฌ์ ๋ฐ๋ผ๋ณด๋ ๋ฐฉํฅ ์ค์์ uniform ํ๊ฒ sample) ๊ณผ sampling ๋ K x K patch (unposed image ์์ ์ค์ฌ์ด (u,v) ์ด๊ณ scale ์ด s ์ธ K x K ์ด๋ฏธ์ง) ๋ฅผ ๊ฐ์ง๋ค. ์ถ๊ฐ๋ก, shape ์ appearance ์ฝ๋๋ฅผ condition ์ผ๋ก ๋ฃ์ด์ฃผ์ด, patch ์ pixel ๊ฐ์ ์์ธกํ๊ณ , discriminator ์์ predicted patch ๋ fake, ์ด๋ฏธ์ง ๋ถํฌ์์ sampling ๋ image ์ ์ค์ K x K patch ๋ real ๋ก ๋ถ๋ฅํ๋ ํ์ต์ ์งํํ๋ค.
Idea
GRAF ๊ฐ ์ ์ด๊ฐ๋ฅํ ๊ณ ํด์๋์ image synthesis ๋ฅผ ํด๋ด์ง๋ง, ๋จ์ผ ๋ฌผ์ฒด๋ง ์๋ ๋น๊ต์ ๊ฐ๋จํ imagery ์์๋ง ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ํ๊ณ์ ์ ๊ฐ์ง๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์, GIRAFFE ์์๋ ๊ฐ๋ณ object ๋ฅผ ๊ตฌ๋ถํ์ฌ ๋ณํํ๊ณ ํ์ ์ํฌ ์ ์๋ neural representation ์ ์ ์ํ๋ค.
3. Method
Neural Feature Field : GRAF formulation ๊ณผ ์ ์ฌํ์ง๋ง, 3D color ๋ฅผ output ํ๋ ๊ฒ์ด ์๋๋ผ -dimensional feature ๋ฅผ output ํ๋ค. Object Representation NeRF ์ GRAF ์์๋ ์ ์ฒด scene ์ด ํ๋์ model ๋ก ํํ ๋์๋๋ฐ, ๊ฐ ๋ฌผ์ฒด๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ํด์ ๊ฐ๋ณ์ ์ธ feature field ๋ก ๋ํ๋ผ ๊ฒ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ ์ํ๋ค. ์ด๋ affine transformation๋ parameter ๋ฅผ dataset ์ ์์กด์ ์ธ ๋ถํฌ ํ์ฉํจ์ผ๋ก์จ (:scale, : translation, : rotation) ์์ ์ํ๋งํจ์ผ๋ก์จ pose, shape, appearance ๋ฅผ ๋ชจ๋ ์ ์ดํ ์ ์๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ ์ด์ฐ์ ์ผ๋ก ์ํ๋ง๋ 3D ๋ฐ์ดํฐ๋ฅผ 2D์ ๋งคํํ๋ volume rendering ์ ์๋ ์๊ณผ ๊ฐ์ด ์งํํ๋ค. Composition Operator ๊ฐ scene ์ N ๊ฐ์ง์ entitiy ๋ก ์ ์๋๋ค(N-1 objects, 1 background). ๊ฐ entity ์ density ์ feature ๋ฅผ ํฉ์น๊ธฐ ์ํด density-weighted mean ์ ์ฌ์ฉํ๋ค.
3D volume rendering ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ RGB value๋ฅผ volume render ํ๋ ๋ฐ๋ฉด, ๋ณธ ๋ ผ๋ฌธ์ -dimensional feature vector ๋ฅผ rendering ํ๋ค. ํน์ camera ray ๋ฅผ ๋ฐ๋ผ ์ํ๋ง๋ ๊ฐ์ ํฌ์ธํธ๋ฅผ operator ๋ฅผ ํตํด ์ต์ข feature vector ๋ฅผ ์ป๋๋ค. ๊ทธ ํ NeRF ์ ๋์ผํ๊ฒ numerical integration ์ ํด์ค๋ค. ์์ ์์์ ๋ ์ฃผ๋ณ ์ํ ํฌ์ธํธ์์ ๊ฑฐ๋ฆฌ๋ฅผ ์๋ฏธํ๊ณ , ๋ฐ๋๊ฐ ์ ํจ๊ป ์ํ๊ฐ ๋ฅผ ์ ์ํ๋ค. ์ด ์ํ๊ฐ๋ค์ ๋์ ํ์ฌ ํฌ๊ณผ๋ ๋ฅผ ์ ์ํ๊ณ , ์ต์ข feature vector ๋ ๊ฐ ํฝ์ ์ ๋ํด์ ์ ๊ณ์ฐํจ์ผ๋ก์จ ์ป์ด์ง๋ค. ๊ณ์ฐ ํจ์จ์ฑ์ ์ํด ํผ์ณ ๋งต์ ํฌ๊ธฐ๋ก ์ป๋๋ฐ, ์ด๋ ์ค์ ์ด๋ฏธ์ง์ ํด์๋์ธ ๋ ์ ๋ชป ๋ฏธ์น๋ค.
2D neural rendering ๊ทธ๋์ ๋ ๋์ ํด์๋๋ก upsampling ํ๊ธฐ ์ํด ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก 2D neural rendering ์ ์งํํ๋ค.
Training
Generator
Discriminator : CNN with leaky ReLU
Loss Function = non-saturating GAN loss + R1-regularization
4. Experiment & Result
Experimental setup
DataSet
single object dataset๋ก ์์ฃผ ์ฌ์ฉ๋๋ Chairs, Cats, CelebA, CelebA-HQ
single-object dataset ์ค ๊น๋ค๋กญ๋ค๊ณ ์๋ ค์ง CompCars, LSUN Churches, FFHQ
multi-object scenes์ผ๋ก๋ Clevr-N, Clevr-2345
Baseline
voxel-based PlatonicGAN, BlockGAN, HoloGAN
radiance field-based GRAF
Training setup
ํ ์ฅ๋ฉด ๋ด์ entity ์ , latent codes
camera pose , transformations โ ๊ณผ ๋ uniform distribution ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ๊ณ ์คํ์ ์งํํ๋ค (๋ฐ์ดํฐ ์ข ์์ ์ธ camera elavation ๊ณผ object transformation)
๊ฐ๋ณ object field ๋ ๋ชจ๋ MLP weight ๋ฅผ ๊ณต์ ํ๋ฉฐ ReLU activation ์ ์ฌ์ฉํ๋ค.(object ๋ค์ 8 layers MLP(hidden dimension of 128), ๋ฅผ ์ฌ์ฉํ๊ณ , background ๋ ์ด์ ์ ๋ฐ์ ์ฌ์ฉํ๋ค.)
๊ณผ ๋ฅผ positional encoding parameter
๊ฐ ray ๋ฐ๋ผ 64 points๋ฅผ sample ํ๊ณ image ๋ณ๋ก pixels ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ์ ์ป๋๋ค.
Evaluation Metric
20,000 real & fake samples ๋ก Frechet Inception Distance (FID) score ๊ณ์ฐ
Result
disentangled scene generation : background ์์ ๋ถ๋ฆฌ, feature ๊ฐ์ ๋ถ๋ฆฌ ๋ชจ๋ ์ ์ด๋ฃจ์ด์ง๋ค
comparison to baseline methods
ablation studies
importance of 2D neural rendering and its individual components
GRAF ์์ ๊ฐ์ฅ ํฐ ์ฐจ์ด๋ neural rendering ์ volumne rendering ๊ณผ ํจ๊ป ์ฌ์ฉํ๋ค๋ ์ ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ ํํ๋ ฅ์ ํฅ์์ํค๊ณ ๋ ๋ณต์กํ real scene ๋ ๋ค๋ฃฐ ์ ์๊ฒ ํ๋ค. ๋ ๋์๊ฐ, rendering ์๊ฐ๋ ๊ธฐ์กด GRAF ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋, pixels ์ด๋ฏธ์ง์์๋ 110.1ms ์์ 4.8ms ๋ก ์ค์๊ณ , pixels ์์๋ 1595.0ms ์์ 5.9ms ๋ก ์ค์๋ค.
positional encoding
limitations
๋ฐ์ดํฐ ๋ด์ inherent bias ๊ฐ ์์ผ๋ฉด ๊ฐ์ด ๋ณํํด์ผํ๋ factor ๋ค์ด ๊ณ ์ ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. (ex. ๋๊ณผ ํค์ด rotation)
camera pose ์ obejct ๋จ์์ transformation ์ด uniform distribution ์ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ๋๋ฐ, ์ค์ ๋ก๋ ๊ทธ๋ ์ง ์์ ๊ฒ์ด๊ธฐ์ ์๋์ ๊ฐ์ disentanglement failure ๊ฐ ๋ฐ์ํ๋ค.
5. Conclusion
โ ํ ์ฅ๋ฉด์ compositional generative neural feature field ๋ก ๋ํ๋์ผ๋ก์จ, ๊ฐ๋ณ object ๋ฅผ background ๋ฟ๋ง ์๋๋ผ shape ๊ณผ appenarance ๋ก๋ถํฐ disentangle ํ์๊ณ , ๋ณ๋ค๋ฅธ supervision ์์ด ์ด๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก control ํ ์ ์๋ค.
โ Future work
๊ฐ๋ณ object ์ tranformation ๊ณผ camera pose ์ distribution ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ ์๋ ์์๊น?
object mask ์ ๊ฐ์ด ์ป๊ธฐ ์ฌ์ด supervision ์ ํ์ฉํ๋ฉด ๋ ๋ณต์กํ multi-object scene ์ ๋ ๋ํ๋ผ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
Take home message (์ค๋์ ๊ตํ)
Implicit Neural Representation ์ ํ์ฉํ 3D scene representation ์ ์ต๊ทผ์ ๊ฐ๊ด ๋ฐ๊ณ ์๋ ๋ฐฉ์์ด๋ค.
๊ฐ๊ฐ์ entity ๋ฅผ ๊ฐ๋ณ feature field ๋ก ๋ํ๋ด๋ ๊ฒ์ ๊ทธ๋ค์ movement ๋ฅผ disentangle ํ๋๋ฐ ๋์์ด ๋๋ค.
๊ฐ feature ๋ฅผ ์๋ dimension ๊ทธ๋๋ก๋ก ์ฌ์ฉํ๊ธฐ ๋ณด๋ค๋ positional encoding ์ด๋ neural rendering ์ ํตํด ๋ high dimensional space ๋ก embedding ํ์ฌ ํ์ฉํ๋ฉด ๋ ํ๋ถํ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๊ฒ ๋๋ค.
Author / Reviewer information
Author
๊น์ํฌ(Sohee Kim)
KAIST AI
Contact: joyhee@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Last updated
Was this helpful?