MipNerF [Kor]
(Description) Jonathan T. Barron et al. / Mip-Nerf - A Multiscale Representation for Anti-Aliasing Neural Radiance Fields / ICCV 2021
Mip-Nerf: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields [Kor]
1. Problem definition
NeRF๋ ํ ์ฅ๋ฉด์ ๋ํ๋ธ ์ฌ๋ฌ ๊ฐ์ ์ฌ์ง๋ค์ ๊ธฐ๋ฐ์ผ๋ก ํด๋น ์ฅ๋ฉด์ 3์ฐจ์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๋ชจ๋ธ์ด๋ค. ์๋์ ์์์ ํตํด์ ํด๋น ๋ฌธ์ ๋ฅผ ์ํ์ ์ผ๋ก ์ ์ํ ์ ์๋ค.

์ฌ๊ธฐ์ x, y, z๋ ๊ณต๊ฐ ์์์์ ์์น๋ฅผ ๋ปํ๋ฉฐ, theta์ phi๋ ํด๋น ์์น๋ฅผ ๋ฐ๋ผ๋ณด๋ ๊ฐ๋๋ฅผ ๋ํ๋ธ๋ค. (r, g, b)๋ ๋ชจ๋ธ์ ์ํด์ ์ฐ์ถ๋๋ ๋ณต์๋ ์ด๋ฏธ์ง์์์ ์์์ ๋ปํ๋ฉฐ, sigma๋ ๋ณต์๋ ์ด๋ฏธ์ง์์์ ๋ฐ๋๋ฅผ ๋ปํ๋ค.
์๋์ ๊ทธ๋ฆผ์ ํตํด์ ์ด๋ป๊ฒ NeRF๊ฐ ์ฌ๋ฌ ๊ฐ์ ๊ฐ๋์์ ์ฐ์ ์ฌ์ง์ ๊ธฐ๋ฐ์ผ๋ก 3์ฐจ์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋์ง๋ฅผ ํ์ธํ ์ ์๋ค.

2. Motivation
์์ ๊ทธ๋ฆผ์ฒ๋ผ ํ์ต๊ณผ ์์ ์ฌ์ฉํ ์ด๋ฏธ์ง๊ฐ ๊ฐ์ฒด๋ก๋ถํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ์์ ์ฐํ ํด์๋๊ฐ ๊ฐ์ ์ํฉ์ธ ๊ฒฝ์ฐ๋ฉด ๊ธฐ์กด์ NeRF ๋ฐฉ๋ฒ๋ก ์ด ํจ๊ณผ์ ์ด์ง๋ง, ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ 3์ฐจ์ ์ด๋ฏธ์ง ๋ณต์ ์ ์๋์ ๊ทธ๋ฆผ์ฒ๋ผ ์ด๋ฏธ์ง๊ฐ ๊นจ์ง๋ ํ์์ด ๊ด์ฐฐ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๊น์ด ๊ณณ์์ ์ฐํ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ํ๋ฆฟํ๊ฒ ๋ณต์๋๋ฉฐ, ๋จผ ๊ณณ์์ ์ฐํ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ๋ณต์๋ ์ด๋ฏธ์ง๊ฐ ๋๊ธฐ๋ ํ์(aliasing)์ด ๋ฐ์ํ๋ค.

์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ด ์ ์๋์์ผ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ์์๋ ์๋ฟํํ์ ๊ด์ ์ ํ๋์ ํฝ์ ์ ๋์ํ์๊ณ , ํ๋ฅ ๋ถํฌ ํจ์ ํํ์ ์ฐ์ํจ์๋ก ํน์ฑ(feature)์ ํํํจ์ผ๋ก์จ ์ด๋ฅผ ํด๊ฒฐํ์๋ค.
Related work
Mipmapping ๊ธฐ๋ฒ์ ์ด๋ฏธ์ง๊ฐ ๋๊ธฐ๋ ํ์์ ๋ฐฉ์งํ๊ธฐ ์ํ pre-filtered ๊ธฐ๋ฐ ์ ์ฒ๋ฆฌ ๋ฐฉ์์ด๋ค. ์ด ๊ธฐ๋ฒ์ ์ฐ์์ ์ธ ๊ณต๊ฐ์ ๋ํด์ ํน์ฑ์ ์ฐ์ถํจ์ผ๋ก์จ ์ด๋ฏธ์ง ๋ ๋๋ง ์์ ์ด๋ฏธ์ง๊ฐ ๋๊ธฐ๋ ํ์์ ๋ฐฉ์งํ ์ ์๋ค. Mipmapping์์๋ ํฝ์ ์ ํต๊ณผํ๋ ๋จ์ผ ๊ด์ ์ด ์๋ ์๋ฟํํ์ ๊ตฌ์กฐ๋ฅผ ํ๋์ ํฝ์ ์ ๋์์์ผ์ ๊ณต๊ฐ ์์ญ์ ํน์ฑ(feature)์ 3์ฐจ์ Gaussian ๋ถํฌ๋ก ๊ทผ์ฌํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด ์ธ์๋ supersampling ๊ธฐ๋ฐ์ผ๋ก ๋ ๋๋ง ์์ ์ฌ๋ฌ ๊ฐ์ ๊ด์ ์ ํ๋์ ํฝ์ ์ ๋์์ํด์ผ๋ก์จ ํด์๋๋ฅผ ๋์ด๋ ๋ฐฉ์์ ์ด์ฉํ์ฌ ์ด๋ฏธ์ง ๋๊น ํ์์ ๋ฐฉ์งํ๊ธฐ๋ ํ๋ค.
Pumarola et al.(2020)์ D-NeRF๋ 5์ฐจ์์ ์ธํ ๋ฐ์ดํฐ์ ์๊ฐ ์ฐจ์์ ๋ํด 6์ฐจ์ ์ธํ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ 3์ฐจ์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ฏ๋ก์จ ์ ์ ์ธ ๊ฐ์ฒด ๋ฟ๋ง ์๋๋ผ ๋์ ์ธ ๊ฐ์ฒด์ 3์ฐจ์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๋ฐ ์ฑ๊ณตํ์๋ค. Martin-Brualla et al.(2020)์ด ์ ์ํ NeRF-W๋ ๋ชจ๋ธ์ ์ธ ๊ฐ์ ๋ชจ๋๋ก ๊ตฌ์ฑํจ์ผ๋ก์จ ์ธํ ๋ฐ์ดํฐ์ ํด์๋๊ฐ ๋ค๋ฅธ ์ํฉ์์๋ 3์ฐจ์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋๋ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋๋ก ํ์๋ค. ๊ทธ๋ค์ด ์ ์ํ ์ธ๊ฐ์ง ๋ชจ๋์ ์ฒซ๋ฒ์งธ๋ ์ผ์์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๋ชจ๋, ๋๋ฒ์งธ๋ ์๊ตฌ์ ์ผ๋ก ๋จ์์๋ ๋ชจ๋, ๊ทธ๋ฆฌ๊ณ ๋ณต์์ ๋ถํ์ค์ฑ์ ๋ค๋ฃจ๋ ๋ชจ๋์ด๋ค. ์ด๋ฅผ ํตํด์ ๋ค์ํ ํํ์ ์ธํ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ๋๋ผ๋ 3์ฐจ์ ์ด๋ฏธ์ง์ ๋ณต์ ์ฑ๋ฅ์ด ๋์์ง๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
Idea
๊ธฐ์กด์ NeRF ๋ชจ๋ธ์ ํ๋์ ๊ด์ ์ด ํ๋์ ์ด๋ฏธ์ง ํฝ์ ์ ๋์๋๋ค๋ ๊ฐ์ ํ์ ๋ชจ๋ธ์ ๊ตฌ์ถํ์๋ค. ํ์ง๋ง ์ด๋ฅผ ํตํด์๋ ๊ฐ์ฒด๋ก๋ถํฐ ๋ค์ํ ๊ฑฐ๋ฆฌ์์ ์์ง๋๋ ์ด๋ฏธ์ง๋ค์ด ๋ชจ๋ธ์ ์ ๋ ฅ๋์์ ๋ ๋ณต์๋ 3์ฐจ์ ์ด๋ฏธ์ง๊ฐ ๊นจ์ง๊ฒ ๋๋ ํ๊ณ๊ฐ ์กด์ฌํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ์ฌ๋ฌ ๊ฐ์ ๊ด์ ์ ํ๋์ ํฝ์ ์ ๋์์ํค๋ฉด ์ด๋ฏธ์ง ๋ณต์ ์์ ๊ณ์ฐ๋์ด ๋๋ฌด ์ปค์ ์ค์ฉ์ ์ด์ง ์์ ์ค์ ์ด๋ค.
์ด์ ์ ์๋ค์ ์๋ฟํํ์ ๊ด์ ์ ํ๋์ ํฝ์ ์ ๋์์์ผฐ์ผ๋ฉฐ, ๊ด์์ผ๋ก๋ถํฐ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด์ง์ ๋ฐ๋ผ์ ๋์๋๋ ๋ฉด์ ์ด ๋์ด์ง๋ ๊ฒ์ ๋ฐ์ํ๊ธฐ ์ํด์ ํน์ฑ(feature)์ ์ฐ์ํจ์๋ก ๊ตฌ์ฑํ์๋ค. ๋ํ, ๋จ์ผ ์ ์ด ์๋ ๊ณต๊ฐ ์์ญ์ ํน์ฑํ ํ๊ธฐ ์ํด์ ๋จ์ํ ์์น ์ธ์ฝ๋ฉ์ด ์๋ ์ ๋ถ ํํ์ ์์น ์ธ์ฝ๋ฉ(integrated positional encoding)๋ฐฉ์์ ์ ์ํ์๋ค. ์ด๋ฅผ ํตํด์ ๊ณต๊ฐ ์์ญ์ ํด๋นํ๋ ์ฐ์์ ์ธ ํน์ฑ์ ์ด์ฉํจ์ผ๋ก์จ 3์ฐจ์ ์ด๋ฏธ์ง ๋ณต์ ์ ์ด๋ฏธ์ง๊ฐ ๋๊ธฐ๋ ํ์(aliasing)์ ํด๊ฒฐํ์๋ค.
3. Method
๋จผ์ ๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉํ ์๋ฟ ํํ์ ๊ตฌ์กฐ ๋ด์์์ ์์น ์งํฉ์ ์๋์ ๊ฐ์ด ์ํ์ ์ผ๋ก ๋ํ๋ผ ์ ์๋ค.

์ด ๊ตฌ์กฐ์ ํน์ฑ์ ์ ๋ถ์ ํตํด์ ๊ณ์ฐํ์์ผ๋ฉฐ, ์ ๋ถ์์ ์ฌ์ฉ ์์ 3์ฐจ์ Gaussian ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ํด๋น ์ ๋ถ์ ๊ณต๊ฐ์ ๋ํด์ ๋ซํ์๋๋ก ํ์๋ค. ์ฌ๊ธฐ์ ์๋ฟ ํํ์ ๊ณต๊ฐ ์์ญ ๋ด์์ ์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ์ฌ Gaussian ๋ถํฌ๋ฅผ ์ถ์ ํ์๋ค.

์ต์ ํ ๊ณผ์ ์์ ์ฌ์ฉํ loss ํจ์๋ ์๋์ ์์์ผ๋ก ํํ๋๋ค. ์๋์ ์์์์ ์ฌ์ฉํ coarse sample์ stratified sampling ๊ณผ์ ์ ํตํด์ ์ถ์ถํ 128๊ฐ์ ์ํ์ ์ด์ฉํ๋ฉฐ, fine sample์ alpha composite weight ๊ธฐ๋ฐ์ 128๊ฐ์ ์ํ์ ์ด์ฉํ๋ค.

4. Experiment & Result
Experimental setup
์คํ ๊ณผ์ ์์๋ ๋ ๊ฐ์ ๋ฐ์ดํฐ ์ ์ด ์ฌ์ฉ๋์๋ค. ํ๋๋ NeRF ์ฐ๊ตฌ์์ ์ฌ์ฉ๋๋ Blender Dataset๊ณผ ํ๋๋ ์์๋ก ํด์๋๋ฅผ ์กฐ์ ํ Multiscale Blender Dataset์ด๋ค. ๊ธฐ์กด์ ์ฐ๊ตฌ์์ ์ฌ์ฉํ๋ Blender Dataset์ ๊ฐ์ ๊ฑฐ๋ฆฌ์์ ๊ฐ์ฒด๋ฅผ ์ฐ์ ์ด๋ฏธ์ง๋ง์ ์ด์ฉํ์ฌ 3์ฐจ์ ์ด๋ฏธ์ง ๋ณต์ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. ์ด๋ฅผ ํตํด์ NeRF์ ์ฝ์ ์ ๊ฐ์ถ ์๋ ์์์ง๋ง ํ์ค ์ธ๊ณ์์ ์ฌ์ฉ๋๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ ๋ค์ํ ํด์๋๋ฅผ ๋๊ฒ ๋๋ค. ์ด ์ํฉ์ ๋ํด์ ํ๊ฐํ๊ธฐ ์ํด์ Blender Dataset์ ํด์๋๋ฅผ 1/2, 1/4, 1/8๋ก ๋ฎ์ถ ์ด๋ฏธ์ง๋ฅผ ํฌํจ์ํจ Multiscale Blender Dataset์ ์คํ์ ์ฌ์ฉํ์๋ค.
์คํ์์ ์ฌ์ฉํ ๋น๊ต๊ตฐ์ ์๋์ NeRF ๋ชจ๋ธ๊ณผ Mip-NeRF์ ์ฃผ์ component๋ฅผ ํ๋์ฉ ์ ๊ฑฐํ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์๋ค. ์ด๋ฅผ ํตํด์ ์ ์ํ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ํจ๊ณผ์ ์ธ์ง, ๋ํ ์ฌ์ฉํ ๊ฐ๊ฐ์ component๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋์ง ํ์ธํ ์ ์๋ค. ํ์ต ๊ณผ์ ์ ๋ฐฉ๋ฒ๋ก ํํธ์์ ์ค๋ช ํ ๊ฒ๊ณผ ๊ฐ์ด coarse์ fine sample ๊ฐ๊ฐ 128๊ฐ๋ฅผ ์ด์ฉํ์์ผ๋ฉฐ, ํด์๋๋ฅผ ๋จ์ด๋จ๋ฆฐ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ์ฌ ํ์ต์ํฌ ๊ฒฝ์ฐ Loss์ ๊ฐ์ค์น๋ฅผ ๊ณฑํ์ฌ์ ๊ณต์ ํ ํ์ต์ ๊ฐ๋ฅ์ผํ์๋ค (์์: 1/2 ํด์๋: 4๋ฐฐ, 1/4 ํด์๋: 16๋ฐฐ).
ํ๊ฐ์ ์ฌ์ฉํ ์งํ๋ ์ด๋ฏธ์ง ๋ณต์ ํ๊ฐ์์ ํํ ์ฌ์ฉ๋๋ PSNR, SSIM, LPIPS๋ฅผ ์ฌ์ฉํ์๋ค. ์ฌ๊ธฐ์ PSNR์ SSIM์ ๋์ ์๋ก, LPIPS๋ ๋ฎ์ ์๋ก ๋ณต์ ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ด๋ค.
Result

์์ ์์ ์ ์ ์๋ฏ์ด ์ ์ํ Mip NerF๊ฐ ์ด๋ฏธ์ง ๋ณต์์ ์์ด์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ํนํ ์๋์ NerF ๋ชจ๋ธ์ ์ ๋ ฅ๋๋ ์ด๋ฏธ์ง์ ํด์๋๊ฐ ๋ฎ์์ง์ ๋ฐ๋ผ์ ๋ณต์์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๊ฐ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์์ง๋ง ์ ์ํ Mip-NerF์ ๊ฒฝ์ฐ ๋ณต์ ์ฑ๋ฅ์ด ๊ฐ์ํ์ง ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ด๋ฅผ ํตํด์ ๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ ๋ชจ๋ธ์ด ๋ณด๋ค ํ์ค์ ์ธ ์ด๋ฏธ์ง ๋ณต์์ ์์ด์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ๊ฒ์์ ์ ์ ์๋ค.
5. Conclusion
๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ Mip-NerF ๋ชจ๋ธ์ ์๋ฟ ํํ์ ๊ตฌ์กฐ๋ฅผ ํ๋์ ํฝ์ ์ ๋์์์ผ์ ๊ณต๊ฐ ์์ญ์ ํน์ฑ(feature)์ 3์ฐจ์ Gaussian ๋ถํฌ๋ก ๊ทผ์ฌํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ์ ๋จ์ผ ํด์๋์ ์ธํ ๋ฐ์ดํฐ์์๋ง ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ NeRF ๋ชจ๋ธ์ ๋ค์ํ ํด์๋์์์ ์ด๋ฏธ์ง๋ค์์๋ ์ ์๋ํ ์ ์๋๋ก ํ์๋ค. ์คํ ๊ฒฐ๊ณผ ์ฐ๋ฆฌ๊ฐ ์ ์ํ Multiscale ๋ฐ์ดํฐ์ ์์๋ ๊ธฐ์กด์ NeRF ๋ชจ๋ธ์ ๋นํด์ ์ฑ๋ฅ์ด 60% ์ข์์ผ๋ฉฐ, ๊ธฐ์กด์ ์ฌ์ฉํ๋ ๋จ์ผ ํด์๋ Blender Dataset์์๋ 17% ์ฑ๋ฅ ๊ฐ์ ์ ํ์๋ค. ๋ํ ํ์ต ์๊ฐ๋ NeRF ๋ชจ๋ธ์ ๋นํด์ 7% ์ ๋ ๋นจ๋ผ์ง๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
Take home message (์ค๋์ ๊ตํ)
์ ์๋ค์ ๊ธฐ์กด์ Anti-aliasing mipmapping ํํฐ๋ง ๋ฐฉ๋ฒ์ NeRF ๋ชจ๋ธ์ ์ ์ฉํจ์ผ๋ก์จ NeRF ๋ชจ๋ธ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์๋ค.
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ตฌ์ถ ์ ๋ฌธ์ ์ ์ ๋ช ํํ๊ฒ ์ ์ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ตฌ์ถ ์ ๋ฌธ์ ์ ์ ํด๊ฒฐ๋ฐฉ์์ ๋์ถํ ๋ ๊ธฐ์กด์ ์ ํต์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ฐธ๊ณ ํ๋ ๊ฒ์ด ์๋นํ ๋์์ด ๋ ์ ์๋ค.
Author information
Author
์กฐํด์ฐฌ (Haechan Cho)
Affiliation (KAIST AI)
I am eager to learn new things.
Contact information (gkqkemwh@kaist.ac.kr)
Last updated
Was this helpful?