NeRF [Kor]
1. Problem definition
NeRF๊ฐ ์ํํ๊ณ ์ ํ๋ View Synthesis ๋ผ๋ ๋ฌธ์ ๋, ๋ค์ํ ์นด๋ฉ๋ผ ๊ฐ๋์์ ์ฐ์ ๋ฌผ์ฒด์ ์ด๋ฏธ์ง๋ค์ input์ผ๋ก ๋ฐ์, ์๋ก์ด ๊ฐ๋์์ ๋ฐ๋ผ๋ณด๋ ๋ฌผ์ฒด์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๋(์์ธกํ๋) ๊ฒ์ ๋๋ค. ์๋์ figure๊ฐ ๊ทธ ์์์ ๋๋ค.
NeRF๋ ํด๋น ๋ฌธ์ ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด formulateํฉ๋๋ค. ๊ณต๊ฐ ์ขํ $x = (x,y,z)$์ ๋ณด๋ ๊ฐ๋ $d = (\theta, \phi)$๋ฅผ input์ผ๋ก ๋ฐ์(์ด 5D ์ขํ), ํด๋น ๋ฌผ์ฒด์ volume density์ emitter color์ ์ฐ์ถํ๊ณ , ์ด๋ก๋ถํฐ ์ ํต์ ์ธ ๋๋๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ 2D ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ ๋๋ค. ํด๋น ์ด๋ฏธ์ง๋ฅผ ground truth์ ๋น๊ตํ์ฌ loss๋ฅผ ๊ณ์ฐํ๊ณ , ๋ชจ๋ ๊ณผ์ ์ด ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ์ ์ฒด ๋ชจ๋ธ์ ํ ๋ฒ์ ํ์ตํฉ๋๋ค.

2. Motivation
2.1. Related work
- Neural 3D shape representations
์ต๊ทผ์ 3D ๋ฌผ์ฒด์ ๋ํ ํํ(3D shape representation)์ ์ป๊ธฐ ์ํ ๋ง์ ์ฐ๊ตฌ๋ค์ด ์ ์๋๊ณ ์์ต๋๋ค. ๋ํ์ ์ผ๋ก 3์ฐจ์์ ์์น ์ ๋ณด $(x, y, z)$ ์ input์ผ๋ก ๋ฐ์, signed distance ํจ์ ํน์ occupancy field๋ก mappingํ๋ neural network์ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ค์ด ์์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๊ต์ฅํ ๋น์ฉ์ด ํฐ ground truth 3D ์ด๋ฏธ์ง๋ฅผ ํ์๋ก ํ๋ ํ๊ณ์ ์ด ์์ต๋๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์ค์ง 2D ์ด๋ฏธ์ง๋ง์ ์ฌ์ฉํ์ฌ ํ์ต์ ์งํํ๋ ์ฐ๊ตฌ๋ค์ด ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์์ต๋๋ค. Niemeyer et al. , Sitzmann et al. ์ ์ฐ๊ตฌ๋ค์ด ๋ํ์ ์ ๋๋ค.
์ด ๋ฐฉ๋ฒ๋ค์ 2D ์ด๋ฏธ์ง ๋ง์ ์ฌ์ฉํ์ฌ ๋งค์ฐ ํจ์จ์ ์ด๊ณ ๊ฝค๋ ์ ํํ ๋๋๋ง ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํ์ง๋ง, ์ด๋ค ๋ชจ๋ ๊ตฌ์กฐ๊ฐ ๊ทธ๋ฆฌ ๋ณต์กํ์ง ์์ ๋ฌผ์ฒด๋ค์ ๋ํด์๋ง ์ฌ์ฉ๋์๊ณ , ํ๋ฉด ๊ตฌ์กฐ๊ฐ ๋ณต์กํ ๊ฒ๋ค์ ๋ํด์๋ oversmoothing๋๋ ํ๊ณ์ ์ด ์์์ต๋๋ค. NeRF๋ 5D์ radiance field์ ์ธ์ฝ๋ฉํ๋ neural network์ ๋์์ธํ์ฌ ๊ณ ํด์๋์ ๋ณต์กํ ๊ตฌ์กฐ์ ๋ฌผ์ฒด๋ค๋ photorealisticํ ๋ทฐ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
- View synthesis and image-based rendering
๊ธฐ์กด์ ๋นฝ๋นฝํ๊ฒ ์ฌ๋ฌ ๊ฐ๋์์ ์ดฌ์๋ ์ด๋ฏธ์ง๋ค์ ์ฌ์ฉํ์ฌ ๋๋๋งํ๋ ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์๋ค๋ฉด, ์ต๊ทผ์๋ ํจ์ฌ ์ ์ ์์ (๋ช ๊ฐ์ ๊ฐ๋์์๋ง ์ดฌ์๋) ์ด๋ฏธ์ง๋ค์ ์ฌ์ฉํ์ฌ ๋๋๋งํ๋ ๋ฐฉ๋ฒ๋ค์ด ์ฃผ๋ก ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค. ๊ฐ์ฅ ์ ๋ช ํ ๋ฐฉ๋ฒ์ด mesh ๊ธฐ๋ฐ์ ํํ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค. ๋ฏธ๋ถ ๊ฐ๋ฅํ rasterizer ํน์ pathtracer์ gradient descent์ ์ฌ์ฉํ์ฌ mesh representation์ ์ง์ ์ ์ผ๋ก ์ต์ ํํ ์ ์๊ฒ ํฉ๋๋ค. ํ์ง๋ง ์ด์ ๊ฐ์ด ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ์ mesh ์ต์ ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ reprojectionํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ต์ด๋ฐ, ๋ณดํต local minima์ ๋น ์ง๊ธฐ ์ฝ๊ณ , ์ต์ ํ๋ฅผ ์์ํ๊ธฐ ์ ์ด๊ธฐํ ๋จ๊ณ์์ ํ์ค์์ ๋ณดํต ์ป์ ์ ์๋ ํ ํํ mesh๋ฅผ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ ๋ค๋ฅธ ์ ํ์ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ฒด์ ์ธก์ ์์(volumetric) ๋ฐฉ๋ฒ๋ค์ด ์์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ์ ์ต์ ํ์ ๊ต์ฅํ ์ ๋์ํ๊ณ , ๋ฐ๋ผ์ mesh ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ํ์ ์ผ๋ก CNN์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์๋๋ฐ, ์ด๋ ํ๋ผ๋ฏธํฐ ์๊ฐ ๊ต์ฅํ ๋ง๊ณ , ๋ณต์กํ ๊ตฌ์กฐ๋ ๊ณ ํ์ง์ ๋ฌผ์ฒด์ ๋ํด ๋ค๋ฃฐ ๋ scalableํ์ง ์๊ฑฐ๋ ์ฑ๋ฅ์ด ์ข์ง ์์์ต๋๋ค. NeRF๋ ์ ํ์ต๋ MLP๋ก๋ถํฐ ์ฐ์์ ์ธ volume representation์ ๋ง๋ค์ด ๋ผ ์ ์๊ณ , ๋์์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์ซ์๋ ํฌ๊ฒ ์ค์์ต๋๋ค.
2.2. Main Idea
๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ด 3์ฐจ์์ ์์น ์ ๋ณด $(x,y,z)$ ๋ก๋ถํฐ 3D ๋ฌผ์ฒด์ ๋ํ ํํ์ ์ป์ผ๋ ค๊ณ ํ๋ค๋ฉด, NeRF๋ 3์ฐจ์์ ์์น ์ ๋ณด์ 2D์ ๋ณด๋ ๊ฐ๋(viewing direction)์ ๋ํ์ฌ 5D ๋ฒกํฐ๋ฅผ input์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
๋ํ, NeRF๋ ๋๋๋ง ๊ณผ์ ์์ discreteํ ์ ๋ถ์ ํ์ง ์๊ณ , stratified sampling approach์ ์ด๋ฅผ ๋ ๊ฐํํ Hierarchical volume sampling์ ์ฌ์ฉํ์ฌ ๋๋๋ง์ ์ฑ๋ฅ์ ๋์ ๋๋ค.
์ถ๊ฐ์ ์ผ๋ก, ๊ธฐ์กด์ ๋ชจ๋ธ๋ค์ ์ ํ์ง ํน์ ๊ตฌ์กฐ๊ฐ ๊ฐ๋จํ ๋ฌผ์ฒด์ ๋ ํธํฅ๋์ด ํ์ตํ์ฌ ๊ณ ํ์ง, ๊ตฌ์กฐ๊ฐ ๋ณต์กํ ๋ฌผ์ฒด์์ ์ฑ๋ฅ์ด ๋งค์ฐ ๋จ์ด์ก์ต๋๋ค. NeRF๋ Positional Encoding์ ์ฌ์ฉํ์ฌ input์ ๊ณ ์ฐจ์์ space๋ก ๋ณํํ์ฌ ์ฌ์ฉํ์ฌ ๊ณ ํ์ง, ๊ตฌ์กฐ๊ฐ ๋ณต์กํ ๋ฌผ์ฒด์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, NeRF๋ CNN ๋์ ์ค์ง MLP๋ง์ ์ฌ์ฉํ์ฌ ํจ์ฌ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
๊ฐ๊ฐ์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ์๋์์ ์์ธํ ์๊ฐํ๊ฒ ์ต๋๋ค.
3. Method
3.1. Neural Radiance Field Scene Representation
๋จผ์ , NeRF๋ 3์ฐจ์์ ์์น ์ ๋ณด $X = (x, y, z)$์ 2์ฐจ์์ ๋ณด๋ ๋ฐฉํฅ $d = (\theta, \phi)$ ์ input์ผ๋ก ๋ฐ์ ์์ $c = (r, g, b)$์ ์ฒด์ ๋ฐ๋(volume density) $\sigma$์ output์ผ๋ก ๋ด๋ MLP๋ฅผ $F_{\Theta} : (X,d) \rightarrow (c,\sigma)$ ๋ฅผ ํ์ตํฉ๋๋ค.
๊ตฌ์ฒด์ ์ธ $F_{\Theta}$์ ๊ตฌ์กฐ๋ ์๋์ Figure์ ๊ฐ์ต๋๋ค. ์ด๋ก์์ด Input ๋ฒกํฐ์ด๊ณ , ์ค๊ฐ์ hidden layer๊ฐ ํ๋์, output ๋ฒกํฐ๊ฐ ๋นจ๊ฐ์์ผ๋ก ํ์๋์ด ์์ต๋๋ค. ๋ชจ๋ layer๋ fully-connected์ด๊ณ , ๊ฒ์์ ํ์ดํ๋ ReLU activation, ์ฃผํฉ์ ํ์ดํ๋ without activation function, ๊ฒ์์ ์ ์ ํ์ดํ๋ sigmoid activation์ด ๋ํด์ง ๊ฒ์ ์๋ฏธํฉ๋๋ค.
NeRF๋ ํน์ ์๊ฐ์์ ๋ณด์ด๋ ๋ทฐ๋ง ์ ํํํ์ง ์๊ณ ๋ชจ๋ ๊ฐ๋์์ ๋ฌผ์ฒด๊ฐ ์ ํํ๋๊ธฐ(multiview consistent) ์ํด ๋ค์๊ณผ ๊ฐ์ด ์ค๊ณํฉ๋๋ค. ๋จผ์ , ์ฒด์ ๋ฐ๋ $\sigma$ ๋ ์ค์ง ์์น ์ ๋ณด $X$๋ง ๊ฐ์ง๊ณ ์์ธกํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋จผ์ $X$๋ง ์ด๊ธฐ 8๊ฐ layer์ ํต๊ณผ์์ผ ์ฒด์ ๋ฐ๋๋ฅผ ์์ธกํฉ๋๋ค. ๋ค์์ผ๋ก, ์์์ ์์ธกํ ๋๋ ์์น ์ ๋ณด์ ๋ณด๋ ๋ฐฉํฅ์ ๋ชจ๋ ์ฌ์ฉํฉ๋๋ค. ์ฒด์ ๋ฐ๋๋ฅผ ์ป์ step์ feature ๋ฒกํฐ์์ ๋ณด๋ ๋ฐฉํฅ์ธ $d$๋ฅผ concatenateํ์ฌ feature์ ๋ง๋ค๊ณ , ํ๋์ layer์ ํต๊ณผ์์ผ view-dependentํ RGB ์์์ ์ป์ต๋๋ค.
3.2. Volume Rendering with Radiance Field
NeRF๋ ์ ํต์ ์ธ volume rendering ๊ธฐ๋ฒ๋ค์ ์ฌ์ฉํ์ฌ ๋ ๋๋ง์ ์งํํฉ๋๋ค. ์นด๋ฉ๋ผ ์์น์์ ๋์๊ฐ๋ ๊ด์ $r(t) = o + td$์ด ๋ฌผ์ฒด๋ฅผ $t_n$๋ถํฐ $t_f$๊น์ง ํต๊ณผํ๋ค๊ณ ํ ๋, ํด๋น ๋ฌผ์ฒด์ ์์ ์์ $C(r)$์ ๋ค์๊ณผ ๊ฐ์ ์ ๋ถ์์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
์ด๋ฌํ $C(r)$์ ์ ๋ถ์์ ๊ณ์ฐํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ณดํต discretized voxel grid์ ๋ ๋๋งํ ๋ ๋ง์ด ์ฌ์ฉ๋๋ Deterministic quadrature์ด ์์ต๋๋ค. ํ์ง๋ง, ์ด๋ ๊ฒฐ๊ตญ discreteํ ์ ๋ถ์ ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ์ข์ง ์์์ง๊ฒ ๋ฉ๋๋ค. NeRF๋ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋์ stratified sampling approach์ ์ฌ์ฉํฉ๋๋ค.
stratified sampling approach์ $t_n$๋ถํฐ $t_f$ ๊น์ง์ ์ ๋ถ ๊ตฌ๊ฐ์ N๊ฐ์ bin์ผ๋ก ์ชผ๊ฐ ํ, ๊ฐ bin์์ ํ๋์ ์ํ์ uniformํ๊ฒ ๋ฝ์์, ์ด๋ค์ ์ ๋ถ ๊ตฌ๊ฐ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋น๋ก ์ ๋ถ์์ ๊ทผ์ฌํ๊ธฐ ์ํด discreteํ ์ํ์ ์ฌ์ฉํ๊ธฐ๋ ํ์ง๋ง, MLP๊ฐ ์ต์ ํ ๊ณผ์ ์์ ์ฐ์์ ์ธ ํฌ์ง์ ์์ ๊ณ์ ํ๊ฐ๋๋ฉฐ ํ์ต๋ ์ ์๊ธฐ ๋๋ฌธ์, ํด๋น ๋ฌผ์ฒด์ ๋ํ ์ฐ์์ ์ธ scene representation์ ์ป์ ์ ์์ต๋๋ค.
3.3. Optimizing a Neural Radiance Field
3.1๊ณผ 3.2์์ NeRF์ ํต์ฌ์ ์ธ ๋ถ๋ถ์ ๋ค๋ค์ต๋๋ค. ํ์ง๋ง, ์ ์๋ ์ด ๋๊ฐ์ง๋ง ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ์ ๋๋ ๋ง์กฑ์ค๋ฝ์ง ์์ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค๊ณ ๋งํฉ๋๋ค. (์ด๋ ๋ค์ Ablation Study์์ ํ์ธํ ์ ์์ต๋๋ค.) ๋ฐ๋ผ์, ๊ณ ํ์ง์ ๋ณต์กํ ๋ฌผ์ฒด์ ๋ํด์ NeRF๊ฐ ์ ์ํํ ์ ์๋๋ก ์ถ๊ฐ์ ์ธ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- Positional Encoding
์ฒซ๋ฒ์งธ๋ ๋ฐ๋ก Positional Encoding์ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค. ์๋ฌด๋ฆฌ Neural network๊ฐ ์ด๋ก ์ ์ผ๋ก๋ ๋ชจ๋ ํจ์๋ฅผ ๊ทผ์ฌํ ์ ์๋๋ผ๋, ๋ง์ $F_{\Theta}$๋ฅผ ํ์ตํ๋ฉด ๋์ ํด์๋์ ๋ณต์ก๋ ์์ญ์์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋๋ค. ์ด๋ MLP๊ฐ ๋ฎ์ ํด์๋์ ๋ณต์ก๋ ์์ญ์ ํธํฅ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. (์ฌ๊ธฐ์, ๋์ ํด์๋์ ๋ณต์ก๋๋ฅผ high-frequency, ๋ฎ์ ํด์๋์ ๋ณต์ก๋๋ฅผ low-frequency๋ผ๊ณ ํํํฉ๋๋ค.)
๋ฐ๋ผ์, NeRF๋ ๋์ frequency ํจ์๋ฅผ ํตํด 5D input์ ๋ ๋์ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ๋ณด๋ธ ํ์ ์ด๋ฅผ input์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ๋ฐ๋ผ์, ์ฐ๋ฆฌ์ $F_{\Theta}$๋ฅผ ์๋์ ๋์ ์ฐจ์์ผ๋ก ๋งคํํ๋ ํจ์์ธ $\gamma$์ ํฉ์ฑํ์ฌ ์ฌ์ฉํ์์ ๋, ์ฑ๋ฅ์ด ๋งค์ฐ ํฅ์๋์์ต๋๋ค.
- Hierarchical volume sampling
๋ค์์ stratified sampling์ ๋ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ Hierarchical volume sampling ๋ฐฉ๋ฒ์ ๋๋ค. ์ค์ ๋ก N๊ฐ์ bin์ ๋ง๋ค์ด์, ๊ฐ bin์์ uniformํ๊ฒ ์ํ๋งํ์ฌ ์ ๋ถ์ ํ๋ ๊ฒ์ ๋นํจ์จ์ ์ด๊ณ ์ฑ๋ฅ๋ ์ข์ง ์์์ต๋๋ค. ๋ฐ๋ผ์, ์ด๋ฅผ ๋ณด์ํ๊ณ ์ coarse network์ fine network์ ๋ ๊ฐ์ง neural network์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ๋จผ์ , coarse network์ ์์ ์ค๋ช ํ stratified sampling๊ณผ ๋์ผํ๊ฒ ์งํํฉ๋๋ค.(bin = $N_c$) ํ์ต๋ coarse network๋ก๋ถํฐ ์ฐ๋ฆฌ๋ ๋ ์กด์ฌํ ๋งํ ํฌ์ธํธ๋ค์ ๋ฝ์ ์ ์์ต๋๋ค. fine network๋ inverse transform sampling์ ์ฌ์ฉํ์ฌ ๋ง์ฐฌ๊ฐ์ง๋ก $N_f$ ๊ฐ์ bin์ผ๋ก๋ถํฐ ์ํ๋ง์ ํ๊ณ , coarse network์์ ์ป์ ํฌ์ธํธ๋ค์ ๋ํ์ฌ ์ด $N_c+N_f$ ๊ฐ์ ์ํ๋ก๋ถํฐ $C_f(r)$์ ๊ณ์ฐํ ์ ์๊ฒ ํฉ๋๋ค. ์์ฝํ๋ฉด, ๋ฌผ์ฒด๊ฐ ์กด์ฌํ ๋งํ ๊ตฌ๊ฐ์ ๋ํด ๋ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ํ์ฌ ๋๋๋ง์ ์ฑ๋ฅ์ ๋์ ๋๋ค.
NeRF๋ฅผ overall๋ก ์๋์ figure์ ๊ฐ์ด ์์ฝํ ์ ์์ต๋๋ค.
4. Experiment & Result
4.1. Experimental setup
- Dataset
Synthetic ๋ ๋๋ง ๋ฐ์ดํฐ์ : Diffuse Synthetic 360ยบ, Realistic Synthetic 360ยบ
DeepVoxels ๋ฐ์ดํฐ์
- Baselines
Neural Volumes (NV)
Scene Representation Networks (SRN)
Local Light Field Fusion (LLFF)
- Training setup
batch size = 4096
Adam optimizer (lr = 5e-4, exponentially-decaying to 5e-5)
ํ๋์ scene์ ๋ํด 100-300k ์ ๋์ iteration
single NVIDIA V100 GPU (ํ๋ฃจ์์ ์ดํ ์ ๋ ๊ฑธ๋ฆผ)
- Evaluation metric
PSNR
SSIM
LPIPS
4.2. Result
NeRF๋ 3๊ฐ์ ๋ฐ์ดํฐ์ ์์ ํ ๊ฐ์ง ๊ฐ์ ์ ์ธํ๊ณ ๊ธฐ์กด์ baseline๋ค์ ๋ชจ๋ outperformํ์ต๋๋ค. ๋ํ, ๋๋๋งํ ์ด๋ฏธ์ง๋ฅผ ๋ดค์ ๋ ๋ํ, ๋ค๋ฅธ baseline๋ค์ over-smoothing๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋๋ฐ, ground truth์ ๊ฐ๊น๊ฒ ๋๋๋ง ๋์์์ ํ์ธํ ์ ์์์ต๋๋ค.




4.3. Ablation Study
Ablation Study์ Realistic Synthetic 360ยบ์์ ์งํํ์์ต๋๋ค. ์ด๋ฅผ ํตํด, Positional Encoding, View Dependence, Hierarchical sampling๊ฐ ํจ๊ณผ๊ฐ ์๋ค๋ ๊ฒ์ ํ์ธ ํ ์ ์์ต๋๋ค.

5. Conclusion
NeRF๋ 3์ฐจ์์ ์์น ์ ๋ณด์ 2D์ ๋ณด๋ ๊ฐ๋(viewing direction)์ ๋ํ 5D ๋ฒกํฐ๋ก๋ถํฐ ์์๊ณผ ์ฒด์ ๋ฐ๋(volume density)๋ฅผ ๊ณ์ฐํ๋ MLP๋ฅผ ํ์ตํ๊ณ , ์ด์ output์ ๊ธฐ์กด์ ๋๋๋ง ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ํ๋ ์์น์์ ๋ฐ๋ผ๋ณธ ๋ฌผ์ฒด์ 2D ์ด๋ฏธ์ง๋ฅผ ๋ง๋ญ๋๋ค. ์ฌ๊ธฐ์ ๋๋๋ง ๊ณผ์ ์์ discreteํ ์ ๋ถ์ ํ์ง ์๊ณ , stratified sampling approach์ ์ด๋ฅผ ๋ ๊ฐํํ Hierarchical volume sampling์ ์ฌ์ฉํ์ฌ ๋๋๋ง์ ์ฑ๋ฅ์ ๋์ด๊ณ , ๋์ ์ฐจ์์ space๋ก mappingํ๋ Positional Encoding์ ์ฌ์ฉํ์์ต๋๋ค. ํด๋น ๋ฐฉ๋ฒ๋ค์ ํตํด ๊ธฐ์กด์ baseline์ outperformํ๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , ๊ณ ํ์ง, ๊ตฌ์กฐ๊ฐ ๋ณต์กํ ๋ฌผ์ฒด์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ์ ์งํ์์ต๋๋ค. ์ด๋ฅผ ์ค์ง MLP๋ง์ ์ฌ์ฉํ์ฌ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ง์ผ๋ก ๋ฌ์ฑํ์์ต๋๋ค. ์ต๊ทผ์ NeRF๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๋ ๋ฐ์ ๋ ๋ ผ๋ฌธ๋ค์ด ๋ง์ด ๋์ค๊ณ ์๋๋ฐ, ์ด๋ค์ด ์ด๋ ํ ๋ฐฉ๋ฒ๋ค์ ์ถ๊ฐํ๊ณ ์๋์ง ๋ณด๋ ๊ฒ ๋ํ ํฅ๋ฏธ๋ก์ธ ๊ฒ ๊ฐ์ต๋๋ค.
Take home message (์ค๋์ ๊ตํ)
Please provide one-line (or 2~3 lines) message, which we can learn from this paper.
AI๋ฅผ ์ํ๋ ค๋ฉด ์ํ์ด ๋งค์ฐ ์ค์ํ๋ค.
๋ฌธ์ ๋ฅผ ์ง์ํ๊ฒ ํ๋ฉด ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
Author / Reviewer information
Author
์ ํํ (Taehyung Yu)
KAIST AI
KAIST Data Mining Lab.
taehyung.yu@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." European conference on computer vision. Springer, Cham, 2020.
Official (unofficial) GitHub repository
Citation of related work
Other useful materials
...
Last updated
Was this helpful?