Local Implicit Image Function [Kor]
Chen et al. / Learning Continuous Image Representation with Local Implicit Image Function / CVPR 2021
English version of this article is available.
π 1. Problem Definition
Image as a Function
Image Representationμ λν κΈ°μ΄λ μ΄λ―Έμ§λ₯Ό ν¨μλ‘ λνλ΄λλ°μ μμν©λλ€. ν¨μλ μ λ ₯μ λ£μΌλ©΄ 무μΈκ° κ°μ λ°νν΄μ£Όλ κ±°μ£ . μ λ°λΌμ μ κ°μ΄ λ°λλλ°, Figure 1μ λ€νν¨μ, μ§μν¨μ, μΌκ°ν¨μμ²λΌ μ¬μΈ μλ μκ³ , μλλ©΄ Figure 2 μ²λΌ λ¬΄μ§ λ³΅μ‘ν μλ μμ΅λλ€.
λ¨μν ννμ ν¨μλ ν¨μμμ μ μΆνκΈ° μ½μ΅λλ€.
μ΄λ―Έμ§μ²λΌ κ° ν½μΉ μμΉμ λν΄μ RGBκ°μ΄ λ€μν κ²½μ°, μμΉκ° μ£Όμ΄μ‘μ λ, R,G,Bλ₯Ό 맡ννλ ν¨μλ₯Ό μ°Ύλ κ²μ μ΄λ €μ΅λλ€.
Image -> Function : μ΄λ―Έμ§λ ν½μ μ’νμ λν΄μ RGB κ°μ λ°ννλ ν¨μλ‘ μκ°ν μ μμ΅λλ€. Figure 2 μ²λΌ μ΄λ―Έμ§ ν¨μλ νλμ λ΄λ κ΅μ₯ν 볡μ‘νκ³ , μ¬κΈ°μ λ§λ λ€νν¨μλ ν¨μλ₯Ό μ°Ύλ κ²μ λΆκ°λ₯μ κ°κΉμ΅λλ€. κ·Έλ¬λ―λ‘ μ΄λ―Έμ§μ κ°μ λμμν€λ ν¨μλ₯Ό μ°Ύλ κ²μ κ²°μ½ μ¬μ΄ κ² μλκ³ , μ΄λ₯Ό μΈκ³΅μ κ²½λ§μΌλ‘ νμ΅νλ €λ μλκ° μμμ΅λλ€. μ΄ λΆμΌλ₯Ό Neural Implicit Represenation (NIR) μ΄λΌκ³ ν©λλ€.
Why we need NIR??
κ΅³μ΄ μ΄λ―Έμ§λ₯Ό ν¨μλ‘ νμ΅μν€λ λͺ©μ μ λ€μκ³Ό κ°μ΄ 2κ°μ§κ° μμ΅λλ€.
Neural Networkμ νλΌλ―Έν° μκ° μ΄λ―Έμ§ λ°μ΄ν° μ¬μ΄μ¦λ³΄λ€ μλ€λ©΄ λ°μ΄ν° μμΆν¨κ³Όκ° μμ΅λλ€.
μ΄λ―Έμ§λ κΈ°λ³Έμ μΌλ‘ Discrete (Pixel 1, Pixel 2, ...) μΈλ°, μ°μμ μΈ ν¨μλ‘ λνλμΌλ‘μ¨ ν½μ μ¬μ΄μ μμΉμ λν RGBλ₯Ό μ μ μμ΅λλ€. (β)
ν¬μ€ν μμ μκ°νλ λ Όλ¬Έλ CVPR 2021μ μΆνλ NIR κ΄λ ¨ λ Όλ¬ΈμΌλ‘ (β) λ λ²μ§Έ λͺ©μ (Continuous Representation)μ λ€λ€μ΅λλ€.λ³Έ ν¬μ€ν μ λ Όλ¬Έμ λ κ°μ§ contributionμ μ€λͺ ν©λλ€.
Discrete Imageλ₯Ό Continuous ν μ΄λ―Έμ§ ννμΌλ‘ νμ΅μν€λ λ°©λ²
Continuous Representationμ ν΅ν΄ λ λμ Resolutionμ λ§λλ λ°©λ²
π 2. Local Implicit Image Function (LIIF)
Definition
ν½μ μ λν΄μ RGB κ°μ μ μΆνλ ν¨μλ λ‘ λνλΌ μ μμ΅λλ€. λͺ¨λΈμ ν½μ μμΉ μ 보λ₯Ό κΈ°λ°μΌλ‘ RGBκ°(νΉμ Grey scale)μ μ μΆν©λλ€. μ μν λͺ¨λΈμΈ Local Implicit Image Function(LIIF) λ Latent Codeλ₯Ό μ΄μ©νμ¬ Image μ λν μ 보 κ° μμ λ, μ΄λ₯Ό Continuous image λ‘ νμ΅μν€λ κ²μ λͺ©μ μΌλ‘ ν©λλ€. μμΉ μ 보 λΏλ§ μλλΌ, Latent Codeμλ μμ‘΄μν¨ LIIFμ λͺ¨λΈμ λ€μκ³Ό κ°μ΅λλ€.
Latent Code for continuous position
Latent Codeλ μ΄λ―Έμ§κ° μμ λ, κ° ν½μ λ§λ€ Latent Codeκ° μμ΅λλ€. λ°λΌμ μ 체 κ°μ Latent Codeκ° μμ΅λλ€. μ΄λ¦μ΄ Latent CodeμΈ μ΄μ λ, κ° Low Resolution μ΄λ―Έμ§μ λν ν¬κΈ°μ΄κΈ° λλ¬Έμ, μλ μ΄λ―Έμ§λ³΄λ€ ν½μ μκ° μ κΈ° λλ¬Έμ λλ€. μ΄λ‘λΆν° μνλ continuous μμΉ κ° μμ λ, κ°κΉμ΄ Latent codeλ₯Ό μ νν΄μ£Όλ©΄ λ©λλ€. Figure 4μμλ μμΉμ λν΄μ 1κ°κ° μλ 4 κ°μ Latent Codeλ₯Ό μ ννμλλ°, μ΄λ₯Ό λ Όλ¬Έμμλ Local ensembleμ΄λΌκ³ λΆλ¦ λλ€. μ΄λ₯Ό μ¬μ©νλ μ΄μ λ 4.3 μμ λ€λ£¨κ² μ΅λλ€.
μ 체 4x4 Pixelμ΄ μμ λ, Latent Codeλ 4x4 κ°κ° κ° μμΉλ³λ‘ κ³ λ₯΄κ² λΆν¬λμ΄ μμ΅λλ€.
continuous ν μμΉ μ λν΄μ λ μμ κ°κΉμ΄ 4κ°μ Latent Codeλ‘ μ ν΄μ§λλ€.
π§ Latent codeκ°μ λν λͺ κ°μ§ μλ¬Έμ μ μ§κ³ λμ΄κ°κ² μ΅λλ€.
Q1. Latent Codeκ°(νΉμ μ΄κΈ°κ°)μ 무μμΈκ°?
A1. Pretrained Encoder(EDSR νΉμ RDN)λ‘ μ΄λ―Έμ§λ₯Ό μΈμ½λ© ν μ»μ Feature Vector
Q2. μ¬λ¬ μ΄λ―Έμ§κ° μμ λ, Latent Codeλ 곡μ λλκ°?
A2. (No) Pretrained Modelλ‘λΆν° μ΄λ―Έμ§λ₯Ό μΈμ½λ©νκΈ° λλ¬Έμ μ΄λ―Έμ§λ§λ€ Latent Codeκ° μκΈ΄λ€.
Q3. LIIF Training μ Latent Codeλ λ³νλκ°?
A3. (Yes), Freezing νμ§ μλλ€.
Continuous Representation using Latent Code
μ΄λ―Έμ§μ λν Latent Codeκ° κ³ μ λμ΄ μμΌλ―λ‘ μ΄λ₯Ό κΈ°λ°μΌλ‘ Continuous Imageμ μ’νμ λν RGB κ°μ Latent Codeμ μμΉ μ μ μ°¨μ΄λ₯Ό μ λ ₯μΌλ‘ λ£μ΄μ κ³μ°λ©λλ€. Latent codeμ μλμμΉλ₯Ό λ£λ continous representationμ λ€μκ³Ό κ°μ΅λλ€.
μ λ ₯μΌλ‘ Latent Codeμμ 거리 μ°¨μ΄κ° μ£Όμ΄μ§κΈ° λλ¬Έμ, continuous ν 거리 μ°¨μ΄λ₯Ό μ λ ₯μΌλ‘ λ£κ² λλ€λ©΄, μ΄λ―Έμ§μ λν continuous representation μ μ»κ² λ©λλ€. Figure 5 μμ λνλλ―μ΄, μ°μμ μΈ λ€μ λ€μνκ² μ νν μ μκ³ , continousν μλμμΉ κ°μ΄ κ³μ°λ©λλ€.
π 3. Pipeline
μμμ Latent Codeμ LIIF ν¨μμ μλ―Έλ₯Ό μ΄ν΄λ΄€μ΅λλ€. μ£Όμ΄μ§ λ°μ΄ν°μ λν΄μ ν΄λΉ λͺ¨λΈμ νμ΅μν€κΈ° μν΄μ μ μλ Self-Supervised Learning λ°©λ²μ μ μνμμ΅λλ€. λ°μ΄ν°μ νμ΅ λ°©λ²μ λν΄μ μμλ³΄κ² μ΅λλ€.
βοΈ Data Preparation λ¨κ³
βοΈ Training λ¨κ³
Data Preparation
Data Preparationμμλ Down-samplingλ μ΄λ―Έμ§(μ΄λ―Έμ§μ ν½μ μ κ°μ)μ μμΈ‘ν pixel μμΉ μ RGB κ° μ μ€λΉν©λλ€. Figure 6 μ λνλμλ―μ΄, μ£Όμ΄μ§ μ΄λ―Έμ§λ₯Ό Down-samplingνμ¬ ν¬κΈ°λ₯Ό μ€μ΄κ³ μ΄ μ 보λ‘λΆν° μ¬μ΄μ¦κ° ν° μλ μ΄λ―Έμ§μ ν½μ μ λν RGBλ₯Ό μμΈ‘ν©λλ€. μ¦, Higer resolutionμ νκ²ν νμ¬ νμ΅νκ³ μ ν©λλ€. ν½μ μ λν λ΄μ©μ λ°μμ μ‘°κΈ λ μμΈν μ€λͺ νκ² μ΅λλ€.
Training
νμ΅ν λλ Down-samplingλ μ΄λ―Έμ§()λ₯Ό pretrained encoderμ λ£μ΄μ feature vectorλ₯Ό λ½μμ€λλ€. μ΄ κ°μ΄ Latent Code μν μ νλ©°, pretrained encoderλ μ΄λ―Έμ§μ μ¬μ΄μ¦λ₯Ό κ·Έλλ‘ μ μ§ν΄μ€λλ€. Figure 7 μ²λΌ Data Preparation λ¨κ³μμ μ»μ κ³Ό Latent Codeλ€μ LIIF modelμ λ£μ΄μ€μΌλ‘μ¨, μνλ RGBκ° μ μμΈ‘ν©λλ€. μ΄ν μ€μ κ°κ³Ό Lossλ‘ κ³μ°ν΄μ£Όλ©΄ νμ΅μ΄ λ©λλ€.
π¨ μΈμ½λμ μν μ μ΄λ―Έμ§ κ°λ³μ λν Latent Codeλ₯Ό λ½μλ΄λ κ² μ λλ€. λ°λΌμ λ€μν μ΄λ―Έμ§ μνμ λν νμ΅μ΄ κ°λ₯ν©λλ€. κΈ°μ‘΄μ NIRμ΄ μ΄λ―Έμ§ νλμ λν΄μ Fitting νλ κ²κ³Ό μ°¨μ΄κ° μμ΅λλ€.
π§ inputμ ν¬κΈ°λ 48x48 μΈλ°, 224x224 λ₯Ό μ»λ λ°©λ²μ 무μμΌκΉ?
π 4. Additional Engineering
LIIF λ°©λ²μ μΆκ°μ μΈ λ°©λ²λ€μ ν΅ν΄μ μ±λ₯μ μ¬λ¦΄ μ μμ΅λλ€. μ¬κΈ°μλ μ΄ 3κ°μ λ°©λ²μ΄ μ μλλ©°, μ λ€ μ¬μ©νμ λ, κ°μ₯ μ’μ μ±λ₯μ 보μ λλ€.
βοΈ Featuer Unfolding : Latent Codeλ₯Ό μ£Όλ³ 3x3 Latent Code μ Concatenation
βοΈ Local Ensemble : continuous position μ λν΄μ 4κ°μ Latetn Code μ ν
βοΈ Cell Decoding : RGBλ₯Ό Predictionν λ, μνλ cell size μΆκ°.
Feature Unfolding
Encoderλ‘λΆν° λμ¨ Feature (Latent Code)μ λν΄μ, μ£Όλ³ 3x3μ λν concatenationμ ν¨μΌλ‘μ¨, μμΉμ λν ννλ ₯μ λμ λλ€. μ΄ κ²½μ°, inputμ dimesionμ λν sizeλ 9λ°° μ¦κ°νκ² λ©λλ€.
Local Ensemble
거리 κΈ°λ°μΌλ‘ Latent Codeλ₯Ό μ ννλλ° ν κ°μ§ λ¬Έμ μ μ΄ μμ΅λλ€. 거리 κΈ°λ°μΌλ‘ μ ννκ² λλ€λ©΄ Figure 8 μ²λΌ λ€μ Latent Codeλ‘ λμ΄κ°κ² λλ μμ μμ λ μ¬μ΄μ κ±°λ¦¬κ° κ΅μ₯ν κ°κΉμΈμ§λΌλ Latent Codeκ° λ€λ₯Ό μ μλ€λ κ² μ λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄μ Figure 9μ²λΌ μ£Όλ³ 4κ°μ Latent Codesλ₯Ό μ ννλ λ°©λ²μ λλ€.
λ§μΌ κ°μ₯ κ°κΉμ΄ Latent Code νλλ§ κ³ λ₯Έλ€λ©΄, λ²μλ₯Ό λμ΄κ°λ©΄μ Latent Codeκ° κΈλ³νλ νμμ΄ λνλ©λλ€.
μ¬λΆλ©΄μ λν΄μ κ°κΉμ΄ 4κ°λ₯Ό κ³ λ₯Έλ€λ©΄ μ νμ λν λ²μλ₯Ό λμ΄κ° λ μ λ°λ§ λ°λκ² λ©λλ€. μΌμͺ½ μ λν΄μλ κ°κΉμ΄ μμΉμ μλ Latent Codeκ° μ νλλ©°, μ€λ₯Έμͺ½ xμ λν΄μλ κ°κΉμ΄ μμΉμ μλ κ° μ νλ©λλ€.
Cell Decoding
LIIF λͺ¨λΈμ μμΉμ λν μ 보μ κ·Όμ² Latent Codeμ μ 보λ₯Ό μ€λλ€. νμ§λ§ μ°λ¦¬κ° μ΄λ μ λμ Resolutionμ λͺ©νλ‘ νλμ§ μλ €μ£Όμ§ λͺ»ν©λλ€. μλ₯Ό λ€μ΄μ, μμ λ‘ ν΄μλλ₯Ό λμΌ λ, μ’νμ λν μ 보λ μ£Όμ§λ§, μ°λ¦¬κ° λͺ©νλ‘ νλ Decoding Cellμ μ¬μ΄μ¦λ₯Ό μ£Όμ§ λͺ»ν©λλ€. μμμμλ ν΄λΉ μμΉλ‘λΆν° μ ν¬κΈ°λ₯Ό μνλ€λ κ²μ μλ €μ€μΌ ν©λλ€. Cell Decodingμ ν¬ν¨ν LIIF λ λ€μκ³Ό κ°μ΅λλ€. κΈ°μ‘΄ Pixcelκ°μ Cell ν¬κΈ°λ₯Ό μΆκ°μ μΌλ‘ λΆμ¬μ μ λ ₯μΌλ‘ λ£μ΄μ€λλ€.
π 5. Experiments
High Resolution Benchmark
Figure 10 μ High Resolution BenchmarkμΈ DIV2K λ°μ΄ν°μ μ λν΄μ μ±λ₯μ 보μ¬μ€λλ€. 첫 λ²μ§Έ Row Groupμ EDSR μΈμ½λλ₯Ό, λ λ²μ§Έ Row Groupμ RDN μΈμ½λλ₯Ό μ¬μ©ν κ²½μ°λ₯Ό λνλ λλ€.
EDSR μ μ¬μ©ν κ²½μ°, λ€λ₯Έ High Resolution λ°©μλ€λ³΄λ€ λ λμ μ±λ₯μ 보μ λλ€. λν Out-of-distributionμ λν΄μλ μ μλ λͺ¨λΈμ΄ λμ± λμ μ±λ₯μ 보μ λλ€. μ΄λ x1~x4λ°°λ‘ high resolutionμ λ§λ€λλ‘ νμ΅ν λͺ¨λΈμ λ λμ resoltuionμ μꡬν κ²½μ°μ λλ€. LIIFλͺ¨λΈμ΄ λ λμ μ±λ₯μ 보μ΄λ κ²μ Latent codeμ μλ μμΉλ₯Ό κΈ°λ°μΌλ‘ μμΈ‘νκΈ° λλ¬ΈμΌλ‘ μΆμΈ‘ν©λλ€.
RDN μΈμ½λλ₯Ό μ¬μ©ν κ²½μ°λ, in-distributionμ λν΄μ λΉμ·ν μ±λ₯μ 보μ΄μ§λ§ λ§μ°¬κ°μ§λ‘ out-of-distributionμ λν΄μ λμ μ±λ₯μ 보μ λλ€.
π‘ κ²°κ³Όμ μΌλ‘ LIIF λͺ¨λΈμ λ λμ resolutionμ μꡬνλ κ²½μ°, λ€λ₯Έ λͺ¨λΈμ λΉν΄μ μλ±ν μ±λ₯μ 보μΈλ€λ κ²μ νμΈν μ μμ΅λλ€.
π§ Difference between RDN and EDSR
RDNμ Residual Deep Networkλ₯Ό λνλ΄λ©° EDSRμ Enhanced Deep Residual NetworksμΌλ‘ RDN μ΄ν κ°λ°λ λͺ¨λΈμ λλ€. λ λ€ Low ResolutionμΌλ‘λΆν° High Resolutionμ νκ²ν νλ CNN + Upsampling κ΅¬μ‘°μΈ κ²μ λμΌμ§νλ§, EDSRμ Batch-Normalizaitonμ μ¬μ©νμ§ μμΌλ©°, νλΌλ―Έν° μκ° RDNλ³΄λ€ μ μΌλ©΄μ λ μ’μ μ±λ₯μ λ΄λ λͺ¨λΈμ λλ€. High Resolutionμ μν΄, μ΄λ―Έμ§λ₯Ό μΈμ½λ©νλ λνμ μΈ λͺ¨λΈμ λλ€.
Continuous Representation
Continuous Representationμ μ νμ΅νλ€λ©΄ μ΄λ―Έμ§λ₯Ό νλνμ λλ λκΈ°μ§ μκ³ μ λλ‘ λ³΄μ¬μΌ ν©λλ€. λ€λ₯Έ NIRμ΄λ High resolution λͺ¨λΈλ€κ³Ό λΉκ΅νμ λ, LIIFμ μ΄λ―Έμ§λ λμ± μ°μμ μΈ ννλ‘ λνλκ² λ©λλ€. λ€λ₯Έ λͺ¨λΈλ€μ΄ μ½κ°μ λκΈ°λ νμμ΄λ, Blur ν¨κ³Όκ° μλ λ°λ©΄, LIIF λͺ¨λΈμ μμ±λ μ΄λ―Έμ§κ° κ΅μ₯ν λΆλλ¬μ΄ κ²μ νμΈν μ μμ΅λλ€.
π 6. Conclusion
μ΄ λ Όλ¬Έμμλ μ°μμ μΈ μ΄λ―Έμ§ ννμ μν Local Implicit Image Function()μ μ μνμμ΅λλ€. Latent codeμ μμΉμμ νΉμ μμΉκΉμ§ λ¨μ΄μ§ μ μ RGB κ°μ μ μΆν¨μΌλ‘μ¨ continuous image representationμ κ°λ₯νκ² λ§λ€μμ΅λλ€. λν μ΄λ―Έμ§ κ°λ³μ΄ μλ, μ΄λ―Έμ§λ₯Ό pre-trained encoderλ₯Ό μ¬μ©νμ¬ μ΄λ―Έμ§μ λν feature vectorλ₯Ό latent codeμ κΈ°λ°μΌλ‘ μ¬μ©ν¨μΌλ‘μ¨, λ€μν μ΄λ―Έμ§μ λν΄ μ μ©κ°λ₯ν Training κΈ°λ²μ μ μνμμ΅λλ€.
μ΄λ―Έμ§λ ν½μ μμΉμ λν΄μ RGB κ°μ κ°μ§κΈ° λλ¬Έμ, λ무 ν° μ΄λ―Έμ§λ λ°μ΄ν°μ μ©λμ λν μ΄μλ‘ μ μ₯νκΈ° μ΄λ €μ΄ μ μ΄ μμ΅λλ€. λ§μΌ NIRμ΄ λμ± λ°λ¬νμ¬, ν¨μ¬ μ μ λͺ¨λΈλ‘ μ΄λ―Έμ§λ₯Ό μΈμΈ μ μλ λͺ¨λΈμ΄ μλ€λ©΄, λ°μ΄ν° μ μ‘ μ, μ΄λ―Έμ§λ₯Ό 보λ΄λ κ²μ΄ μλλΌ, Neural Networkλ₯Ό 보λ΄λ κ²λ ν₯νμλ κ°λ₯ν κ² κ°μ΅λλ€.
Take Home Message
λ³΄ν΅ Implicit Neural Represenationμ μ£Όμ΄μ§ λ°μ΄ν°λ‘λΆν° λ°λ‘ ν¨μλ₯Ό νμ΅μν€λ κ²μ λͺ©νλ‘ ν©λλ€. κ·Έλμ λ°μ΄ν°κ° μμ λλ§λ€ ν¨μλ₯Ό μλ‘ νμ΅ν΄μΌ νμ£ . λ₯λ¬λμ μ΄μ©νλ©΄, μ΄λ―Έμ§λ‘λΆν° Feature Vectorλ₯Ό λ½μ μ μκΈ°μ, Feature Vectorλ₯Ό inputμΌλ‘ μΌλ°νμμΌμ νμ΅μν€λ κ²μ΄ κ°λ₯ν κ²μ μ΄ λ Όλ¬Έμμ νμΈν μ μμμ΅λλ€. λν Continuous Domainμ Featureλ‘λΆν° κ±°λ¦¬λ‘ ν΄μν κ²λ μ’μ μ κ·Όλ²μ λλ€.
π Author / Reviewer information
Author
λ°λ²μ§ (Bumjin Park): KAIST / bumjin@kaist.ac.kr
Reviewer
None
π° References & Additional materials
Last updated
Was this helpful?