Video Frame Interpolation via Adaptive Convolution [Kor]
Niklaus et al. / Video Frame Interpolation via Adaptive Convolution / CVPR 2017
1. Problem definition
Video frame interpolation์ ๊ธฐ์กด์ ํ๋ ์๋ค์ ์ด์ฉํ์ฌ ์ฐ์๋๋ ํ๋ ์ ์ฌ์ด ์ค๊ฐ ํ๋ ์์ ์๋ก ์์ฑํจ์ผ๋ก์จ ๋น๋์ค ํ๋ ์์จ์ ๋์ด๋ task์ ๋๋ค. 1์ด์ ๋ช๊ฐ์ ํ๋ ์์ด ์ฌ์์ด ๋๋์ง๋ฅผ ๋ํ๋ด๋ ํ๋ ์์จ์ด ์์ผ๋ฉด ์์์ด ์ฐ์์ ์ด์ง ์์ ๋ฎ์ ํ๋ฆฌํฐ๋ฅผ ๋ณด์ด๊ฒ ๋ฉ๋๋ค. ์ด๋ video frame interpolation์ ์ด์ฉํ์ฌ ์ค๊ฐ ํ๋ ์๋ค์ ์๋กญ๊ฒ ์์ฑํด๋์ผ๋ก์จ ์์์ ๋์ฑ ์ฐ์์ ์ด๊ฒ ๋ณด์ด๊ฒํ์ฌ ๋์ ํ๋ฆฌํฐ๋ฅผ ๊ฐ์ง๋๋ก ๋ง๋ค ์ ์์ต๋๋ค.
ํ๋์ ๋น๋์ค์ 5๊ฐ์ ์ฐ์๋ ํ๋ ์์ด ์๋ค๊ณ ๊ฐ์ ํ์์ ๋, video frame interpolation์ ํตํด ์ฐ์๋๋ ํ๋ ์ ์ฌ์ด์ ํ๋์ ํ๋ ์์ ์๋กญ๊ฒ ๋ง๋ค์ด๋์ผ๋ก์จ ์ด 9๊ฐ์ ํ๋ ์์ ๊ฐ์ง ๋น๋์ค๋ฅผ ๋ง๋ค์ด ๋ผ ์ ์์ต๋๋ค. ์ด๋ก์จ ๋ฌผ์ฒด์ ์์ง์์ด ๋์ฑ ์ฐ์์ ์ผ๋ก, ์์ฐ์ค๋ฝ๊ฒ ๋ณด์ผ ์ ์๋๋ก ๋ง๋๋ ๊ฒ์ ๋๋ค.

Figure 1: Convert low frame rate to high frame rate
2. Motivation
๋ณดํต์ video frame interpolation ๊ธฐ๋ฒ์ ํ๋ ์๋ค ๊ฐ์ ์์ง์์ ์ถ์ ํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ธฐ์กด์ ํ๋ ์๋ค์ ํฝ์ ๊ฐ์ ํฉ์ฑํ๊ฒ ๋ฉ๋๋ค. ์ด๋ interpolation ๊ฒฐ๊ณผ๋ ํ๋ ์ ์ฌ์ด์ ์์ง์์ด ์ผ๋ง๋ ์ ํํ๊ฒ ์ถ์ ์ด ๋๋์ง์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ฒ ๋ฉ๋๋ค. ํด๋น ๋ ผ๋ฌธ์ ์์ง์ ์ถ์ ๊ณผ ํฝ์ ํฉ์ฑ์ ๋ ๋จ๊ณ ๊ณผ์ ์ ํ ๋จ๊ณ๋ก ํฉ์นจ์ผ๋ก์จ ๊ฐ์ธํ video frame interpolation ๊ธฐ๋ฒ์ ์ ์ํ์์ต๋๋ค.
Related work
๊ธฐ์กด์ frame interpolation ๊ธฐ๋ฒ
Werlberger et al. Yu et al. Baker et al. ์์ ์ ์๋ ๊ธฐ์กด์ ๋ง์ frame interpolation ๊ธฐ๋ฒ๋ค์ optical flow ๋๋ stereo matching์ ์ด์ฉํ์ฌ ๋ ์ฐ์๋ ํ๋ ์๋ค ์ฌ์ด์ ๋ชจ์ ์ ์์ธกํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ ํ๋ ์ ์ฌ์ด์ ํ๋ ๋๋ ์ฌ๋ฌ ๊ฐ์ ํ๋ ์์ interpolate ํ์์ต๋๋ค.
Meyer et al.์ ๊ธฐ์กด์ motion estimation ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ input ํ๋ ์๋ค ์ฌ์ด์ phase ์ฐจ์ด๋ฅผ ๊ตฌํ๊ณ ์ด phase ์ ๋ณด๋ฅผ multi-scale pyramid level์์ propagating ์ํด๋ก์จ ๋ ์ข์ video frame interpolation ๊ฒฐ๊ณผ๋ฅผ ์ป๊ณ ์ ํ์์ต๋๋ค.
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ frame interpolation ๊ธฐ๋ฒ
Zhou et al.์ ๋ ผ๋ฌธ์์๋ ๋์ผํ ๋ฌผ์ฒด๋ฅผ ์ฌ๋ฌ ๋ค๋ฅธ ์๊ฐ์ผ๋ก ๋ฐ๋ผ๋ณธ ๊ฒ๋ค์ ์๋ก ์ฐ๊ด์ฑ์ด ๋๋ค๋ ์ ์ ์ด์ฉํ์ฌ ์๋ก์ด frame interpolation์ ์ ์ํ์์ต๋๋ค. ์ฌ๋ฌ input view๋ค์ ํ๋ฆ์ ๋ฐ๋ผ warping ์ํค๊ณ , ๊ทธ๊ฒ๋ค์ ํฉ์นจ์ผ๋ก์จ ์๋ก์ด view ํฉ์ฑ์ ์ํ ์ ๋นํ ํฝ์ ์ ๊ณ ๋ฅด๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค.
Flynn et al. ์ input ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ๊ฐ์ depth plane์ผ๋ก projection์ ์ํค๊ณ ๊ฐ๊ฐ์ depth plane์ ์๋ ์๋ค์ ํฉ์นจ์ผ๋ก์จ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑํ๊ณ ์ ํ์์ต๋๋ค.
Idea
ํด๋น video frame interpolation ๊ธฐ๋ฒ์ ๊ธฐ์กด์ ๋ถ๋ฆฌ๋์ด ์งํ๋๋ ๋ชจ์ ์ถ์ ๊ณผ ํฝ์ ํฉ์ฑ์ ํ๋์ ๊ณผ์ ์ผ๋ก ํฉ์ณค์ต๋๋ค. ํ๋ ์ ์ฌ์ด์ ์์ง์์ ๋ํ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ์ด๋ค ํฝ์ ๋ค์ด ํฉ์ฑ์ ์ด์ฉ๋ ๊ฒ์ธ์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ค ์ค ์ด๋ค ํฝ์ ์ ๋ ๋ง์ weight๋ฅผ ์ค ๊ฒ์ธ์ง๋ฅผ ๋ํ๋ด์ฃผ๋ interpolation coefficient๊ฐ ํํ๋์ด ์๋ convolution kernel์ ์์ธกํ๊ณ ์ ํ ๊ฒ ์ ๋๋ค. ์ด๋ ๊ฒ ์์ธก๋ kernel์ input ์ด๋ฏธ์ง์ ๊ฒฐํฉ์ํด์ผ๋ก์จ ์ต์ข ์ค๊ฐ ํ๋ ์์ ์ป์ ์ ์๊ฒ ๋ฉ๋๋ค.
์ด๋, ์ ์ํ ๊ธฐ๋ฒ์ ๋ณ๋๋ก optical flow๋ multiple depth plane์ ์ด์ฉํ์ฌ input ์ด๋ฏธ์ง๋ฅผ warping ์ํค๋ ๊ณผ์ ์ ๊ฑฐ์น์ง ์์๋ ๋๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ๋์ด ๊ฐ์ํ๊ณ , occlusion๊ณผ ๊ฐ์ด ํฉ์ฑ์ด ์ด๋ ค์ด ๊ฒฝ์ฐ์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ณด๋ผ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
3. Method
์ ์ํ๋ video frame interpolation ๊ธฐ๋ฒ์ ๋ ๊ฐ์ input frame I1, I2๊ฐ ์์ ๋ ๋ ํ๋ ์์ ์ค๊ฐ์ ์๋, ์๋ก์ด ํ๋ ์
์ interpolate ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
Overall method
Figure 2: Interpolation by convolution (a): previous work (b): proposed method
Figure 2 (a)์์ ๋ณผ ์ ์๋ฏ์ด, ๊ธฐ์กด์ video frame interpolation ๊ธฐ๋ฒ์ ๋ชจ์
์ถ์ ์ ํตํด
์ ํฝ์
(x, y)์ ์์ํ๋ I1, I2์์์ ํฝ์
๋ค์ ๊ตฌํ๊ณ ์ด๋ค์ weighted sum์ ํ์ฌ ์ต์ข
interpolate frame๋ฅผ ๊ตฌํ์์ต๋๋ค. ๋ฐ๋ฉด Figure 2 (b)์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๋ชจ์
์ถ์ ๊ณผ ํฝ์
ํฉ์ฑ์ ํ๋์ ๊ณผ์ ์ผ๋ก ํฉ์น๊ธฐ์ํด interpolation์ ๋ํ ์ ๋ณด๊ฐ ๋ค์ด์๋ kernel์ ์์ธกํ๊ณ ,์
๋ ฅ ํ๋ ์๋ค์ patch์ธ P1,P2์ kernel์ local convolution์ ์ํํจ์ผ๋ก interpolation์ ์งํํ์์ต๋๋ค.
Figure 3: Overall process of proposed method
Figure 3๋ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ์ ๋ฐ์ ์ธ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
์์ ์ป๊ณ ์ํ๋ ํฝ์
์ ์์น๋ฅผ (x, y) ๋ผ๊ณ ํ์ ๋, ๊ฐ๊ฐ I1, I2์์ (x, y)๋ฅผ ์ค์ฌ์ผ๋ก ํ๋ receptive field patch R1, R2๊ฐ fully convolutional neural network(Convnet)์ input์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋ฉ๋๋ค. ์ด๋ Convnet์ input ํ๋ ์์ ์ ๋ณด๋ค์ ์ด์ฉํ์ฌ ํ๋ ์๋ค ์ฌ์ด์ ๋ชจ์
์ ์ถ์ ํจ์ผ๋ก์จ input์ ์ด๋ค ํฝ์
๋ค์ interpolation์ ์ด์ฉํ ์ง, ๊ทธ ์ค ์ด๋ ํฝ์
์ ๋น์ค์ ๋์ด ํฉ์ฑํ ์ง์ ๋ํ ์ ๋ณด๊ฐ ๋ด๊ธด kernel์ output์ผ๋ก ๋ด๋ณด๋ด๊ฒ ๋ฉ๋๋ค.
์ด๋ ๊ฒ ์ป์ kernel์ input frame patch P1, P2 ์ convolve ๋ฉ๋๋ค. ์ด๋ P1, P2๋ ์์ Convnet์ input R1, R2 ๋ณด๋ค๋ ์์ ์ฌ์ด์ฆ์ด์ง๋ง, (x, y)๋ฅผ center๋ก ํ๋ input patch๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฆ, kernel K๋ฅผ ์ด์ฉํ์ฌ P1, P2์์ convolution์ ์งํํจ์ผ๋ก์จ ์ต์ข interpolated frame์ (x, y)์ ํด๋นํ๋ ์์น์ pixel ๊ฐ์ ์ป์ ์ ์๋ ๊ฒ์ด๋ค.

์ด ๊ณผ์ ์
์ ๋ชจ๋ ํฝ์
์ ๋ํด ๋ฐ๋ณตํจ์ผ๋ก์จ,
์ ๋ชจ๋ ํฝ์
๊ฐ์ ์ป์ด ์ต์ข
interpolated๋ frame์ ์ป์ ์ ์์ต๋๋ค.
Convolution kernel estimation
Table 1: Architecture of Convnet
Table 1์ receptive field patch R1, R2๋ฅผ input์ผ๋ก ํ์ฌ kernel K๋ฅผ output์ผ๋ก ๋ด๋ณด๋ด๋ Convnet์ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ด๊ณ ์์ต๋๋ค. Input์ผ๋ก๋ 79 * 79์ spatial size์ RGB 3๊ฐ์ ์ฑ๋์ ๊ฐ์ง๋ R1, R2๊ฐ concat๋์ด ๋ค์ด๊ฐ๊ณ , ์ด input์ ์ฌ๋ฌ๊ฐ์ convolutional layer๋ค์ ๊ฑฐ์น๊ฒ ๋ฉ๋๋ค. ๋ง์ง๋ง feature map์ spatial softmax๋ฅผ ๊ฑฐ์ณ ๋ชจ๋ weight์ ํฉ์ด 1์ด ๋๋๋ก ํด์ฃผ๊ณ , reshape ํจ์๋ฅผ ์ด์ฉํ ์ด๋ฏธ์ง size ์กฐ์ ์ ํตํด output์ผ๋ก ๋ด๋ณด๋ด๊ฒ ๋ฉ๋๋ค. ์ด๋ output์ ํฌ๊ธฐ๋ 41 * (41+41)์ ํํ๋ก, 41 * 41์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ input patch P1, P2 ์ local convolution์ด ์ํ๋ฉ๋๋ค.
์ด๋, ๋ Convnet์ input์ธ R1, R2๋ channel ์ถ์ผ๋ก, output์ธ P1, P2๋ width ์ถ์ผ๋ก concatenate๊ฐ ๋ฉ๋๋ค. R1, R2์ width ์ถ์ผ๋ก concatenate๋ฅผ ํ์ฌ convnet์ input์ผ๋ก ๋ง๋ค์ด๋ฒ๋ฆฌ๋ฉด concat๋ ์ด๋ฏธ์ง๊ฐ ํ๋์ ์ด๋ฏธ์ง๋ก ์ธ์์ด ๋์ด convolution ์ฐ์ฐ์ด ๊ฐ์ด ์งํ๋๊ธฐ ๋๋ฌธ์ ๋ ์ด๋ฏธ์ง๊ฐ spatial dimension์์ ์์ธ์ฑ๋ก feature map์ด ๋ง๋ค์ด์ง๊ฒ ๋ฉ๋๋ค. ์ฆ, ๋ receptive field๊ฐ spatial information์ ์์ด๋ฒ๋ฆฌ๊ฒ ๋๊ธฐ ๋๋ฌธ์ receptive field๋ channel ์ถ์ผ๋ก concatenate๊ฐ ์ด๋ฃจ์ด์ง๊ฒ ๋๋๊ฒ์ ๋๋ค. ๋ํ kernel๊ณผ input patch์์ ๊ณฑ์ ์์๋ P1, P2๊ฐ channel์ถ์ผ๋ก concatenate๋ ํํ๋ก ๋์ค๊ฒ ๋๋๋ผ๋ kernel๋ ๊ฐ๊ฐ์ patch์ ๋ง๊ฒ ๊ณฑํด์ง ์ ์๋ ํํ๋ก ๋์ค๊ฒ ๋๋ค๋ฉด, ๋ฌธ์ ๊ฐ ์์๊ฒ์ด๋ผ๊ณ ์์์ด ๋ฉ๋๋ค.
Loss function
๋จผ์ , ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๋๊ฐ์ง loss ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฒซ๋ฒ์งธ๋ก, Color loss๋ L1 loss๋ฅผ ์ฌ์ฉํ์ฌ interpolated pixel color์ ground-truth color ์ฌ์ด์ ์ฐจ๋ฅผ ๊ตฌํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋จ์ํ color loss๋ง ์ฌ์ฉํ์ ๋ ๋ฐ์ํ๋ ๋ธ๋ฌ ๋ฌธ์ ๋ gradient loss๋ฅผ ์ฌ์ฉํ์ฌ ์ํ์์ผ์ฃผ๊ฒ ๋ฉ๋๋ค. Gradient loss๋ input patch์ gradient๋ฅผ convnet์ ์ ๋ ฅ์ผ๋ก ํ์ ๋์ output๊ณผ ground-truth gradient ์ฌ์ด์ L1 loss๋ฅผ ํตํด ๊ตฌํ ์ ์์ต๋๋ค. ์ด๋ gradient๋ ์ค์ฌ ํฝ์ ์ ๊ธฐ์ค์ผ๋ก 8๊ฐ์ neighboring pixel๊ณผ ์ค์ฌ ํฝ์ ์ ์ฐจ์ด๋ฅผ ์๋ฏธํฉ๋๋ค.
4. Experiment & Result
Experimental setup
4.1. Training dataset
ํด๋น ๋ ผ๋ฌธ์ dataset์ optical flow์ ๊ฐ์ ๋ณ๋์ ground-truth๊ฐ ํ์ ์๊ธฐ ๋๋ฌธ์ ์ธํฐ๋ท์ ๋ชจ๋ ๋น๋์ค๋ฅผ ์ฌ์ฉ๊ฐ๋ฅํฉ๋๋ค. ๋ฐ๋ผ์ ํด๋น ๋ ผ๋ฌธ์์๋ Flickr with a Creative Commons license๋ก๋ถํฐ "driving", "dancing", "surfing", "riding", ๊ทธ๋ฆฌ๊ณ "skiing"์ ํค์๋๊ฐ ๋ด๊ธด 3000๊ฐ์ ๋น๋์ค๋ฅผ ์ป์์ต๋๋ค. ์ด ์ค์์ ์ ํ์ง์ ๋น๋์ค๋ ์ ๊ฑฐํ๊ณ 1280 * 720์ ํด์๋๋ก scaling์ ํ ํ, ์ฐ์์ ์ธ ์ธ๊ฐ์ ํ๋ ์์ฉ ๋ฌถ์ด triple-frame group์ ํ์ฑํ์์ต๋๋ค. ์ด๋ค ์ค ๋ชจ์ ์ด ์์๊ฒ๋ค์ ์ต๋ํ ํผํ๊ธฐ ์ํด ํ๋ ์๋ค ์ฌ์ด์ optical flow์ ์ํธ๋กํผ๊ฐ ๋์ 250,000๊ฐ์ triple-patch ๊ทธ๋ฃน์ ์ ๋ณํจ์ผ๋ก์จ ๋น๊ต์ ๋์ ๋ชจ์ ์ ๊ฐ์ง frame์ผ๋ก ์ด๋ฃจ์ด์ง dataset์ ๊ตฌ์ฑํ์์ต๋๋ค.
4.2. Hyper-parameter selection
Deep neural network๋ฅผ ์ํด ์ค์ ํด์ผํ ๋๊ฐ์ง ์ค์ํ hyper-parameter๋ convolution kernel size์ receptive field path size์ ๋๋ค. ๋ชจ์ ์์ธก์ ์ํ๊ธฐ ์ํด์ kernel์ size๋ training data์์ ํ๋ ์๊ฐ์ ์ต๋ motion ํฌ๊ธฐ์๋ 38 pixel ๋ณด๋ค ํฐ 41 pixel, ์ฆ 41 * 41๋ก ์ ํ์์ต๋๋ค. ๋ํ receptive field patch์ size๋ convolution kernel size๋ณด๋ค ํฌ์ง๋ง ๋๋ฌด ๋ง์ ์ฐ์ฐ๋์ ์ฐจ์งํ์ง ์๋๋ก 79 * 79๋ก ์ ํ์์ต๋๋ค.
4.3. Training setup
-Parameter initialization: Xaiver initialization
-Optimizer: AdaMax with ![]()
-Learning rate: 0.001
-Batch size: 128
-Inference time: 9.1 second for 1280*720
Result
Quantitative result
Table 2: Evaluation on the Middlebury testing set (average interpolation error)
Table 2์์ real-world scene์ ๋ค๊ฐ์ง ์์(Backy, Baske, Dumpt, Everg)์ ๋ํด์๋ ๊ฐ์ฅ ๋ฎ์ interpolation error, ์ฆ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํ์ง๋ง syntheticํ frame ์ด๊ฑฐ๋ lab scene์ ๋ค๊ฐ์ง ์์(Mequ., Schef., Urban, Teddy)์ ๋ํด์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง ์๋๊ฒ์ ์ ์ ์์ต๋๋ค. ๊ทธ ์ด์ ์ค ํ๋๋ก, training dataset์ ์ฐจ์ด๋ฅผ ๋ค ์ ์์ต๋๋ค. ์์ ์ธ๊ธํ ๊ฒ์ฒ๋ผ ์ ์ํ๋ ๋คํธ์ํฌ๋ ์ ํ๋ธ์ ๊ฐ์ด ์ธํฐ๋ท์์ ๊ตฌํ ์ ์๋ ์ค์ ์์, real-world scene์ frame๋ค์ dataset์ผ๋ก ์ฌ์ฉํ์์ต๋๋ค. ํฉ์ฑ์ด ๋ frame๋ค๊ณผ real-world์ frame์ ํน์ฑ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ํฉ์ฑ์ผ๋ก ๋ง๋ค์ด์ง frame์ ๋ํด์๋ ์ฑ๋ฅ์ด ๋น๊ต์ ์ข์ง ์๊ฒ ๋๋ ๊ฒ ์ ๋๋ค.
Qualitative result
-Blur
Figure 4: Qualitative evaluation on blurry videos
Figure 4์์๋ ์นด๋ฉ๋ผ์ ์์ง์, ํผ์ฌ์ฒด์ ์์ง์ ๋ฑ์ผ๋ก ์ธํ์ฌ ๋ธ๋ฌ๊ฐ ์๋ ๋น๋์ค์ ๋ํ video frame interpolation ๊ฒฐ๊ณผ์ ๋๋ค. ์ ์ํ ๋ฐฉ๋ฒ๊ณผ Meyer et al์์์ ๋ฐฉ๋ฒ์ด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ๋นํด artifact๊ฐ ๊ฑฐ์ ์๊ณ sharpํ ์ด๋ฏธ์ง๋ฅผ ๋ธ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
-Abrupt brightness change
Figure 5: Qualitative evaluation in video with abrupt brightness change
Figure 5์์๋ input frame๋ค ์ฌ์ด์ ๊ฐ์์ค๋ฌ์ด ๋ฐ๊ธฐ ๋ณํ๋ก ์ธํด brightness consistency์ ๋ํ ๊ฐ์ ์ด ์นจํด๋ ๊ฒฝ์ฐ์ ๋ํ video frame interpolation ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. ์ด ๊ฒฝ์ฐ์๋ ์ ์ํ๋ ๋ฐฉ๋ฒ๊ณผ Meyer et al์์ ์ ์ํ ๋ฐฉ๋ฒ์ด artifact๊ฐ ๊ฑฐ์ ์๋ ๊ฒฐ๊ณผ๊ฐ ๋์์ต๋๋ค. ๊ทธ ์ค์์๋ ํนํ, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ด ํ๋ฆฟํจ ์์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
-Occlusion
Figure 6: Qualitative evaluation with respect to occlusion
Figure 6์์๋ ์๋ก์ด ํผ์ฌ์ฒด์ ์ ์ ๋ฑ์ผ๋ก occlusion์ด ๋ฐ์ํ ๋์ video frame interpolation ๊ฒฐ๊ณผ๋ฅผ ํ์ธ ํ ์ ์์ต๋๋ค. Artifact๊ฐ ์๊ธฐ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ๋นํด์ ์ ์ํ๋ ๋ฐฉ๋ฒ์์๋ ์ ๋ช ํ๊ฒ, ์ ํฉ์ฑ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋ ๊ฒ์ ํ์ธํจ์ผ๋ก์จ ์ ์ํ๋ ๋ฐฉ๋ฒ์ด occlusion๊ณผ ๊ฐ์ ์ด๋ ค์ด ๊ฒฝ์ฐ์๋ frame interpolation์ ์ ํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
์ฆ, ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ ์ํ๋ ๋ฐฉ๋ฒ์ด ๊ธฐ์กด์ video frame interpolation์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ด๋ ค์ด blur, abrupt brightness change, occlusion ๊ณผ ๊ฐ์ ์ํฉ์์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค๋ ๊ฒ์ ํ์ธ ํ ์ ์์ต๋๋ค.
5. Conclusion
์ ์๋ ๋ชจ์ ์ถ์ ๊ณผ ํฝ์ ํฉ์ฑ์ ๋๊ฐ์ง ๊ณผ์ ์ ํ๋์ ๊ณผ์ ์ผ๋ก ํฉ์นจ์ผ๋ก์จ ๋์ฑ ๋ ๊ฐ์ธํ video frame interpolation ๊ธฐ๋ฒ์ ์ ์ํ์์ต๋๋ค. ๊ฐ ํฝ์ ๋ง๋ค ๋ชจ์ ๊ณผ ํฉ์ฑ์ ๋ํ ์ ๋ณด๊ฐ ๋ด๊ธด ์๋ก์ด kernel์ ๋ง๋ค์ด interpolation์ ์ํํจ์ผ๋ก์จ occlusion๊ณผ ๊ฐ์ด video frame interpolation์ ํ๊ธฐ ์ด๋ ค์ด ์ํฉ์์๋ ์ข์ ์ฑ๋ฅ์ ์ด๋์ด ๋์ต๋๋ค.
ํ์ง๋ง ๊ฐ pixel๋ง๋ค ํฐ ํฌ๊ธฐ์ kernel์ ์์ฑํด๋ด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ฌด ๋ง์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ฌ์ฉ๋๊ณ ์ฐ์ฐ๋์ด ๋ง๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
Take home message (์ค๋์ ๊ตํ)
๊ผญ optical flow๊ณผ ๊ฐ์ motion estimation์ ์ํ ์ถ๊ฐ์ ์ธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์๋๋ผ๋ ์ข์ ์ฑ๋ฅ์ video frame interpolation์ ์ํ ํ ์ ์๋ค
๊ฐ ํฝ์ ์ ์ํ kernel์ ์์ธกํด ๋์ผ๋ก์จ ๊ฐ ํฝ์ ์ ์ํฉ์ ๋ง๊ฒ ํฝ์ ํฉ์ฑ์ ํ ์ ์๊ณ , ์ด๊ฒ์ด ๋์ฑ ๊ฒฐ๊ณผ๋ฅผ ์ข๊ฒ ํ ์ ์๋ค.
Author / Reviewer information
Author
์ด์ ์ง (Yujin Lee)
KAIST
dldbwls0505@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
โฆ
Reference & Additional materials
S. Baker, D. Scharstein, J. P. Lewis, S. Roth, M. J. Black, and R. Szeliski. A database and evaluation methodology for optical flow. International Journal of Computer Vision, 92(1):1โ31, 2011.
M. Werlberger, T. Pock, M. Unger, and H. Bischof. Optical flow guided TV-L 1 video interpolation and restoration. In Energy Minimization Methods in Computer Vision and Pattern Recognition, volume 6819, pages 273โ286, 2011
Z. Yu, H. Li, Z. Wang, Z. Hu, and C. W. Chen. Multi-level video frame interpolation: Exploiting the interaction among different levels. IEEE Trans. Circuits Syst. Video Techn., 23(7):1235โ1248, 2013
S. Meyer, O. Wang, H. Zimmer, M. Grosse, and A. SorkineHornung. Phase-based frame interpolation for video. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1410โ1418, 2015
J. Flynn, I. Neulander, J. Philbin, and N. Snavely. DeepStereo: Learning to predict new views from the worldโs imagery. In IEEE Conference on Computer Vision and Pattern Recognition, pages 5515โ5524, 2016
T. Zhou, S. Tulsiani, W. Sun, J. Malik, and A. A. Efros. View synthesis by appearance flow. In ECCV, volume 9908, pages 286โ301, 2016
Last updated
Was this helpful?