Local Implicit Image Function [Kor]
Chen et al. / Learning Continuous Image Representation with Local Implicit Image Function / CVPR 2021
English version of this article is available.
š 1. Problem Definition
Image as a Function
Image Representationģ ėķ źø°ģ“ė ģ“미ģ§ė„¼ ķØģė” ėķė“ėė°ģ ģģķ©ėė¤. ķØģė ģ ė „ģ ė£ģ¼ė©“ ė¬“ģøź° ź°ģ ė°ķķ“ģ£¼ė ź±°ģ£ . ģ ė°ė¼ģ ģ ź°ģ“ ė°ėėė°, Figure 1ģ ė¤ķķØģ, ģ§ģķØģ, ģ¼ź°ķØģģ²ė¼ ģ¬ģø ģė ģź³ , ģėė©“ Figure 2 ģ²ė¼ ė¬“ģ§ ė³µģ”ķ ģė ģģµėė¤.
ėØģķ ķķģ ķØģė ķØģģģ ģ ģ¶ķźø° ģ½ģµėė¤.
ģ“미ģ§ģ²ė¼ ź° ķ½ģ¹ ģģ¹ģ ėķ“ģ RGBź°ģ“ ė¤ģķ ź²½ģ°, ģģ¹ź° 주ģ“ģ”ģ ė, R,G,B넼 ė§µķķė ķØģ넼 ģ°¾ė ź²ģ ģ“ė ¤ģµėė¤.
Image -> Function : ģ“미ģ§ė ķ½ģ ģ¢ķģ ėķ“ģ RGB ź°ģ ė°ķķė ķØģė” ģź°ķ ģ ģģµėė¤. Figure 2 ģ²ė¼ ģ“ėÆøģ§ ķØģė ķėģ ė“ė źµģ„ķ ė³µģ”ķź³ , ģ¬źø°ģ ė§ė ė¤ķķØģė ķØģ넼 ģ°¾ė ź²ģ ė¶ź°ė„ģ ź°ź¹ģµėė¤. ź·øė¬ėÆė” ģ“미ģ§ģ ź°ģ ėģģķ¤ė ķØģ넼 ģ°¾ė ź²ģ ź²°ģ½ ģ¬ģ“ ź² ģėź³ , ģ“넼 ģøź³µģ ź²½ė§ģ¼ė” ķģµķė ¤ė ģėź° ģģģµėė¤. ģ“ ė¶ģ¼ė„¼ Neural Implicit Represenation (NIR) ģ“ė¼ź³ ķ©ėė¤.
Why we need NIR??
źµ³ģ“ ģ“미ģ§ė„¼ ķØģė” ķģµģķ¤ė ėŖ©ģ ģ ė¤ģź³¼ ź°ģ“ 2ź°ģ§ź° ģģµėė¤.
Neural Networkģ ķė¼ėÆøķ° ģź° ģ“ėÆøģ§ ė°ģ“ķ° ģ¬ģ“ģ¦ė³“ė¤ ģė¤ė©“ ė°ģ“ķ° ģģ¶ķØź³¼ź° ģģµėė¤.
ģ“미ģ§ė źø°ė³øģ ģ¼ė” Discrete (Pixel 1, Pixel 2, ...) ģøė°, ģ°ģģ ģø ķØģė” ėķėģ¼ė”ģØ ķ½ģ ģ¬ģ“ģ ģģ¹ģ ėķ RGB넼 ģ ģ ģģµėė¤. (ā)
ķ¬ģ¤ķ ģģ ģź°ķė ė ¼ė¬øė CVPR 2021ģ ģ¶ķė NIR ź“ė Ø ė ¼ė¬øģ¼ė” (ā) ė ė²ģ§ø ėŖ©ģ (Continuous Representation)ģ ė¤ė¤ģµėė¤.ė³ø ķ¬ģ¤ķ ģ ė ¼ė¬øģ ė ź°ģ§ contributionģ ģ¤ėŖ ķ©ėė¤.
Discrete Image넼 Continuous ķ ģ“ėÆøģ§ ķķģ¼ė” ķģµģķ¤ė ė°©ė²
Continuous Representationģ ķµķ“ ė ėģ Resolutionģ ė§ėė ė°©ė²
š 2. Local Implicit Image Function (LIIF)
Definition
ķ½ģ ģ ėķ“ģ RGB ź°ģ ģ ģ¶ķė ķØģė ė” ėķė¼ ģ ģģµėė¤. ėŖØėøģ ķ½ģ ģģ¹ ģ 볓넼 źø°ė°ģ¼ė” RGBź°(ķ¹ģ Grey scale)ģ ģ ģ¶ķ©ėė¤. ģ ģķ ėŖØėøģø Local Implicit Image Function(LIIF) ė Latent Code넼 ģ“ģ©ķģ¬ Image ģ ėķ ģ 볓 ź° ģģ ė, ģ“넼 Continuous image ė” ķģµģķ¤ė ź²ģ ėŖ©ģ ģ¼ė” ķ©ėė¤. ģģ¹ ģ 볓 ėæė§ ģėė¼, Latent Codeģė ģ씓ģķØ LIIFģ ėŖØėøģ ė¤ģź³¼ ź°ģµėė¤.
Latent Code for continuous position
Latent Codeė ģ“ėÆøģ§ź° ģģ ė, ź° ķ½ģ ė§ė¤ Latent Codeź° ģģµėė¤. ė°ė¼ģ ģ 첓 ź°ģ Latent Codeź° ģģµėė¤. ģ“ė¦ģ“ Latent Codeģø ģ“ģ ė, ź° Low Resolution ģ“미ģ§ģ ėķ ķ¬źø°ģ“źø° ė문ģ, ģė ģ“미ģ§ė³“ė¤ ķ½ģ ģź° ģ źø° ė문ģ ėė¤. ģ“ė”ė¶ķ° ģķė continuous ģģ¹ ź° ģģ ė, ź°ź¹ģ“ Latent code넼 ģ ķķ“주멓 ė©ėė¤. Figure 4ģģė ģģ¹ģ ėķ“ģ 1ź°ź° ģė 4 ź°ģ Latent Code넼 ģ ķķģėė°, ģ“넼 ė ¼ė¬øģģė Local ensembleģ“ė¼ź³ ė¶ė¦ ėė¤. ģ“넼 ģ¬ģ©ķė ģ“ģ ė 4.3 ģģ ė¤ė£Øź² ģµėė¤.
ģ 첓 4x4 Pixelģ“ ģģ ė, Latent Codeė 4x4 ź°ź° ź° ģģ¹ė³ė” ź³ ė„“ź² ė¶ķ¬ėģ“ ģģµėė¤.
continuous ķ ģģ¹ ģ ėķ“ģ ė ģģ ź°ź¹ģ“ 4ź°ģ Latent Codeė” ģ ķ“ģ§ėė¤.
Continuous Representation using Latent Code
ģ“미ģ§ģ ėķ Latent Codeź° ź³ ģ ėģ“ ģģ¼ėÆė” ģ“넼 źø°ė°ģ¼ė” Continuous Imageģ ģ¢ķģ ėķ RGB ź°ģ Latent Codeģ ģģ¹ ģ ģ ģ°Øģ“넼 ģ ė „ģ¼ė” ė£ģ“ģ ź³ģ°ė©ėė¤. Latent codeģ ģėģģ¹ė„¼ ė£ė continous representationģ ė¤ģź³¼ ź°ģµėė¤.
ģ ė „ģ¼ė” Latent Codeģģ ź±°ė¦¬ ģ°Øģ“ź° 주ģ“ģ§źø° ė문ģ, continuous ķ ź±°ė¦¬ ģ°Øģ“넼 ģ ė „ģ¼ė” ė£ź² ėė¤ė©“, ģ“미ģ§ģ ėķ continuous representation ģ ģ»ź² ė©ėė¤. Figure 5 ģģ ėķėėÆģ“, ģ°ģģ ģø ė¤ģ ė¤ģķź² ģ ķķ ģ ģź³ , continousķ ģėģģ¹ ź°ģ“ ź³ģ°ė©ėė¤.

š 3. Pipeline
ģģģ Latent Codeģ LIIF ķØģģ ģ미넼 ģ“ķ“들ģµėė¤. 주ģ“ģ§ ė°ģ“ķ°ģ ėķ“ģ ķ“ė¹ ėŖØėøģ ķģµģķ¤źø° ģķ“ģ ģ ģė Self-Supervised Learning ė°©ė²ģ ģ ģķģģµėė¤. ė°ģ“ķ°ģ ķģµ ė°©ė²ģ ėķ“ģ ģģė³“ź² ģµėė¤.
āļø Data Preparation ėØź³
āļø Training ėØź³
Data Preparation
Data Preparationģģė Down-samplingė ģ“미ģ§(ģ“미ģ§ģ ķ½ģ ģ ź°ģ)ģ ģģø”ķ pixel ģģ¹ ģ RGB ź° ģ ģ¤ė¹ķ©ėė¤. Figure 6 ģ ėķėģėÆģ“, 주ģ“ģ§ ģ“미ģ§ė„¼ Down-samplingķģ¬ ķ¬źø°ė„¼ ģ¤ģ“ź³ ģ“ ģ 볓ė”ė¶ķ° ģ¬ģ“ģ¦ź° ķ° ģė ģ“미ģ§ģ ķ½ģ ģ ėķ RGB넼 ģģø”ķ©ėė¤. ģ¦, Higer resolutionģ ķź²ķ ķģ¬ ķģµķź³ ģ ķ©ėė¤. ķ½ģ ģ ėķ ė“ģ©ģ ė°ģģ ģ”°źø ė ģģøķ ģ¤ėŖ ķź² ģµėė¤.

Training
ķģµķ ėė Down-samplingė ģ“미ģ§()넼 pretrained encoderģ ė£ģ“ģ feature vector넼 ė½ģģ¤ėė¤. ģ“ ź°ģ“ Latent Code ģķ ģ ķė©°, pretrained encoderė ģ“미ģ§ģ ģ¬ģ“ģ¦ė„¼ ź·øėė” ģ ģ§ķ“ģ¤ėė¤. Figure 7 ģ²ė¼ Data Preparation ėØź³ģģ ģ»ģ ź³¼ Latent Codeė¤ģ LIIF modelģ ė£ģ“ģ¤ģ¼ė”ģØ, ģķė RGBź° ģ ģģø”ķ©ėė¤. ģ“ķ ģ¤ģ ź°ź³¼ Lossė” ź³ģ°ķ“주멓 ķģµģ“ ė©ėė¤.
šØ ģøģ½ėģ ģķ ģ ģ“ėÆøģ§ ź°ė³ģ ėķ Latent Code넼 ė½ģė“ė ź² ģ ėė¤. ė°ė¼ģ ė¤ģķ ģ“ėÆøģ§ ģķģ ėķ ķģµģ“ ź°ė„ķ©ėė¤. 기씓ģ NIRģ“ ģ“ėÆøģ§ ķėģ ėķ“ģ Fitting ķė ź²ź³¼ ģ°Øģ“ź° ģģµėė¤.

š§ inputģ ķ¬źø°ė 48x48 ģøė°, 224x224 넼 ģ»ė ė°©ė²ģ 묓ģģ¼ź¹?
š 4. Additional Engineering
LIIF ė°©ė²ģ ģ¶ź°ģ ģø ė°©ė²ė¤ģ ķµķ“ģ ģ±ė„ģ ģ¬ė¦“ ģ ģģµėė¤. ģ¬źø°ģė ģ“ 3ź°ģ ė°©ė²ģ“ ģ ģėė©°, ģ ė¤ ģ¬ģ©ķģ ė, ź°ģ„ ģ¢ģ ģ±ė„ģ 볓ģ ėė¤.
āļø Featuer Unfolding : Latent Code넼 ģ£¼ė³ 3x3 Latent Code ģ Concatenation
āļø Local Ensemble : continuous position ģ ėķ“ģ 4ź°ģ Latetn Code ģ ķ
āļø Cell Decoding : RGB넼 Predictionķ ė, ģķė cell size ģ¶ź°.
Feature Unfolding
Encoderė”ė¶ķ° ėģØ Feature (Latent Code)ģ ėķ“ģ, ģ£¼ė³ 3x3ģ ėķ concatenationģ ķØģ¼ė”ģØ, ģģ¹ģ ėķ ķķė „ģ ėģ ėė¤. ģ“ ź²½ģ°, inputģ dimesionģ ėķ sizeė 9ė°° ģ¦ź°ķź² ė©ėė¤.
Local Ensemble
거리 źø°ė°ģ¼ė” Latent Code넼 ģ ķķėė° ķ ź°ģ§ 문ģ ģ ģ“ ģģµėė¤. 거리 źø°ė°ģ¼ė” ģ ķķź² ėė¤ė©“ Figure 8 ģ²ė¼ ė¤ģ Latent Codeė” ėģ“ź°ź² ėė ģģ ģģ ė ģ¬ģ“ģ ź±°ė¦¬ź° źµģ„ķ ź°ź¹ģøģ§ė¼ė Latent Codeź° ė¤ė„¼ ģ ģė¤ė ź² ģ ėė¤. ģ“넼 ķ“ź²°ķźø° ģķ“ģ Figure 9ģ²ė¼ ģ£¼ė³ 4ź°ģ Latent Codes넼 ģ ķķė ė°©ė²ģ ėė¤.
ė§ģ¼ ź°ģ„ ź°ź¹ģ“ Latent Code ķėė§ ź³ ė„øė¤ė©“, ė²ģ넼 ėģ“ź°ė©“ģ Latent Codeź° źøė³ķė ķģģ“ ėķė©ėė¤.
ģ¬ė¶ė©“ģ ėķ“ģ ź°ź¹ģ“ 4ź°ė„¼ ź³ ė„øė¤ė©“ ģ ķģ ėķ ė²ģ넼 ėģ“ź° ė ģ ė°ė§ ė°ėź² ė©ėė¤. ģ¼ģŖ½ ģ ėķ“ģė ź°ź¹ģ“ ģģ¹ģ ģė Latent Codeź° ģ ķėė©°, ģ¤ė„øģŖ½ xģ ėķ“ģė ź°ź¹ģ“ ģģ¹ģ ģė ź° ģ ķė©ėė¤.
Cell Decoding
LIIF ėŖØėøģ ģģ¹ģ ėķ ģ ė³“ģ ź·¼ģ² Latent Codeģ ģ 볓넼 ģ¤ėė¤. ķģ§ė§ ģ°ė¦¬ź° ģ“ė ģ ėģ Resolutionģ ėŖ©ķė” ķėģ§ ģė ¤ģ£¼ģ§ ėŖ»ķ©ėė¤. ģ넼 ė¤ģ“ģ, ģģ ė” ķ“ģė넼 ėģ¼ ė, ģ¢ķģ ėķ ģ 볓ė 주ģ§ė§, ģ°ė¦¬ź° ėŖ©ķė” ķė Decoding Cellģ ģ¬ģ“ģ¦ė„¼ ģ£¼ģ§ ėŖ»ķ©ėė¤. ģģģģė ķ“ė¹ ģģ¹ė”ė¶ķ° ģ ķ¬źø°ė„¼ ģķė¤ė ź²ģ ģė ¤ģ¤ģ¼ ķ©ėė¤. Cell Decodingģ ķ¬ķØķ LIIF ė ė¤ģź³¼ ź°ģµėė¤. 기씓 Pixcelź°ģ Cell ķ¬źø°ė„¼ ģ¶ź°ģ ģ¼ė” ė¶ģ¬ģ ģ ė „ģ¼ė” ė£ģ“ģ¤ėė¤.
š 5. Experiments
High Resolution Benchmark
Figure 10 ģ High Resolution Benchmarkģø DIV2K ė°ģ“ķ°ģ ģ ėķ“ģ ģ±ė„ģ 볓ģ¬ģ¤ėė¤. 첫 ė²ģ§ø Row Groupģ EDSR ģøģ½ė넼, ė ė²ģ§ø Row Groupģ RDN ģøģ½ė넼 ģ¬ģ©ķ ź²½ģ°ė„¼ ėķė ėė¤.
EDSR ģ ģ¬ģ©ķ ź²½ģ°, ė¤ė„ø High Resolution ė°©ģė¤ė³“ė¤ ė ėģ ģ±ė„ģ 볓ģ ėė¤. ėķ Out-of-distributionģ ėķ“ģė ģ ģė ėŖØėøģ“ ėģ± ėģ ģ±ė„ģ 볓ģ ėė¤. ģ“ė x1~x4ė°°ė” high resolutionģ ė§ė¤ėė” ķģµķ ėŖØėøģ ė ėģ resoltuionģ ģźµ¬ķ ź²½ģ°ģ ėė¤. LIIFėŖØėøģ“ ė ėģ ģ±ė„ģ 볓ģ“ė ź²ģ Latent codeģ ģė ģģ¹ė„¼ źø°ė°ģ¼ė” ģģø”ķźø° ė문ģ¼ė” ģ¶ģø”ķ©ėė¤.
RDN ģøģ½ė넼 ģ¬ģ©ķ ź²½ģ°ė, in-distributionģ ėķ“ģ ė¹ģ·ķ ģ±ė„ģ 볓ģ“ģ§ė§ ė§ģ°¬ź°ģ§ė” out-of-distributionģ ėķ“ģ ėģ ģ±ė„ģ 볓ģ ėė¤.
š” ź²°ź³¼ģ ģ¼ė” LIIF ėŖØėøģ ė ėģ resolutionģ ģźµ¬ķė ź²½ģ°, ė¤ė„ø ėŖØėøģ ė¹ķ“ģ ģė±ķ ģ±ė„ģ 볓ģøė¤ė ź²ģ ķģøķ ģ ģģµėė¤.

Continuous Representation
Continuous Representationģ ģ ķģµķė¤ė©“ ģ“미ģ§ė„¼ ķėķģ ėė ėźø°ģ§ ģź³ ģ ėė” ė³“ģ¬ģ¼ ķ©ėė¤. ė¤ė„ø NIRģ“ė High resolution ėŖØėøė¤ź³¼ ė¹źµķģ ė, LIIFģ ģ“미ģ§ė ėģ± ģ°ģģ ģø ķķė” ėķėź² ė©ėė¤. ė¤ė„ø ėŖØėøė¤ģ“ ģ½ź°ģ ėźø°ė ķģģ“ė, Blur ķØź³¼ź° ģė ė°ė©“, LIIF ėŖØėøģ ģģ±ė ģ“ėÆøģ§ź° źµģ„ķ ė¶ėė¬ģ“ ź²ģ ķģøķ ģ ģģµėė¤.

š 6. Conclusion
ģ“ ė ¼ė¬øģģė ģ°ģģ ģø ģ“ėÆøģ§ ķķģ ģķ Local Implicit Image Function()ģ ģ ģķģģµėė¤. Latent codeģ ģģ¹ģģ ķ¹ģ ģģ¹ź¹ģ§ ėØģ“ģ§ ģ ģ RGB ź°ģ ģ ģ¶ķØģ¼ė”ģØ continuous image representationģ ź°ė„ķź² ė§ė¤ģģµėė¤. ėķ ģ“ėÆøģ§ ź°ė³ģ“ ģė, ģ“미ģ§ė„¼ pre-trained encoder넼 ģ¬ģ©ķģ¬ ģ“미ģ§ģ ėķ feature vector넼 latent codeģ źø°ė°ģ¼ė” ģ¬ģ©ķØģ¼ė”ģØ, ė¤ģķ ģ“미ģ§ģ ėķ“ ģ ģ©ź°ė„ķ Training źø°ė²ģ ģ ģķģģµėė¤.
ģ“미ģ§ė ķ½ģ ģģ¹ģ ėķ“ģ RGB ź°ģ ź°ģ§źø° ė문ģ, ė묓 ķ° ģ“미ģ§ė ė°ģ“ķ°ģ ģ©ėģ ėķ ģ“ģė” ģ ģ„ķźø° ģ“ė ¤ģ“ ģ ģ“ ģģµėė¤. ė§ģ¼ NIRģ“ ėģ± ė°ė¬ķģ¬, ķØģ¬ ģ ģ ėŖØėøė” ģ“미ģ§ė„¼ ģøģø ģ ģė ėŖØėøģ“ ģė¤ė©“, ė°ģ“ķ° ģ ģ” ģ, ģ“미ģ§ė„¼ 볓ė“ė ź²ģ“ ģėė¼, Neural Network넼 볓ė“ė ź²ė ķ„ķģė ź°ė„ķ ź² ź°ģµėė¤.
Take Home Message
ė³“ķµ Implicit Neural Represenationģ 주ģ“ģ§ ė°ģ“ķ°ė”ė¶ķ° ė°ė” ķØģ넼 ķģµģķ¤ė ź²ģ ėŖ©ķė” ķ©ėė¤. ź·øėģ ė°ģ“ķ°ź° ģģ ėė§ė¤ ķØģ넼 ģė” ķģµķ“ģ¼ ķģ£ . ė„ė¬ėģ ģ“ģ©ķė©“, ģ“미ģ§ė”ė¶ķ° Feature Vector넼 ė½ģ ģ ģźø°ģ, Feature Vector넼 inputģ¼ė” ģ¼ė°ķģģ¼ģ ķģµģķ¤ė ź²ģ“ ź°ė„ķ ź²ģ ģ“ ė ¼ė¬øģģ ķģøķ ģ ģģģµėė¤. ėķ Continuous Domainģ Featureė”ė¶ķ° ź±°ė¦¬ė” ķ“ģķ ź²ė ģ¢ģ ģ ź·¼ė²ģ ėė¤.
š Author / Reviewer information
Author
ė°ė²ģ§ (Bumjin Park): KAIST / bumjin@kaist.ac.kr
Reviewer
None
š° References & Additional materials
Last updated
Was this helpful?