Local Implicit Image Function [Kor]

Chen et al. / Learning Continuous Image Representation with Local Implicit Image Function / CVPR 2021

English version of this article is available.

πŸ“‘ 1. Problem Definition

Image as a Function

Image Representation에 λŒ€ν•œ κΈ°μ΄ˆλŠ” 이미지λ₯Ό ν•¨μˆ˜λ‘œ λ‚˜νƒ€λ‚΄λŠ”λ°μ„œ μ‹œμž‘ν•©λ‹ˆλ‹€. ν•¨μˆ˜λŠ” μž…λ ₯을 λ„£μœΌλ©΄ 무언가 값을 λ°˜ν™˜ν•΄μ£ΌλŠ” κ±°μ£ . XX에 λ”°λΌμ„œ YY의 값이 λ°”λ€ŒλŠ”λ°, Figure 1의 λ‹€ν•­ν•¨μˆ˜, μ§€μˆ˜ν•¨μˆ˜, μ‚Όκ°ν•¨μˆ˜μ²˜λŸΌ μ‰¬μšΈ μˆ˜λ„ 있고, μ•„λ‹ˆλ©΄ Figure 2 처럼 무지 λ³΅μž‘ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.

Figure 1
Figure 2

λ‹¨μˆœν•œ ν˜•νƒœμ˜ ν•¨μˆ˜λŠ” ν•¨μˆ˜μ‹μ„ μœ μΆ”ν•˜κΈ° μ‰½μŠ΅λ‹ˆλ‹€.

μ΄λ―Έμ§€μ²˜λŸΌ 각 ν”½μ„Ή μœ„μΉ˜μ— λŒ€ν•΄μ„œ RGB값이 λ‹€μ–‘ν•œ 경우, μœ„μΉ˜κ°€ μ£Όμ–΄μ‘Œμ„ λ•Œ, R,G,Bλ₯Ό λ§΅ν•‘ν•˜λŠ” ν•¨μˆ˜λ₯Ό μ°ΎλŠ” 것은 μ–΄λ €μŠ΅λ‹ˆλ‹€.

Image -> Function : μ΄λ―Έμ§€λŠ” ν”½μ…€ (x,y)(x,y) μ’Œν‘œμ— λŒ€ν•΄μ„œ RGB 값을 λ°˜ν™˜ν•˜λŠ” ν•¨μˆ˜λ‘œ 생각할 수 μžˆμŠ΅λ‹ˆλ‹€. Figure 2 처럼 이미지 ν•¨μˆ˜λŠ” ν•œλˆˆμ— 봐도 ꡉμž₯히 λ³΅μž‘ν•˜κ³ , 여기에 λ§žλŠ” λ‹€ν•­ν•¨μˆ˜λ‚˜ Sine,CosiseSine, Cosise ν•¨μˆ˜λ₯Ό μ°ΎλŠ” 것은 λΆˆκ°€λŠ₯에 κ°€κΉμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ―€λ‘œ μ΄λ―Έμ§€μ˜ 값을 λŒ€μ‘μ‹œν‚€λŠ” ν•¨μˆ˜λ₯Ό μ°ΎλŠ” 것은 κ²°μ½” μ‰¬μš΄ 게 μ•„λ‹ˆκ³ , 이λ₯Ό μΈκ³΅μ‹ κ²½λ§μœΌλ‘œ ν•™μŠ΅ν•˜λ €λŠ” μ‹œλ„κ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. 이 λΆ„μ•Όλ₯Ό Neural Implicit Represenation (NIR) 이라고 ν•©λ‹ˆλ‹€.

Why we need NIR??

ꡳ이 이미지λ₯Ό ν•¨μˆ˜λ‘œ ν•™μŠ΅μ‹œν‚€λŠ” λͺ©μ μ€ λ‹€μŒκ³Ό 같이 2가지가 μžˆμŠ΅λ‹ˆλ‹€.

  1. Neural Network의 νŒŒλΌλ―Έν„° μˆ˜κ°€ 이미지 데이터 μ‚¬μ΄μ¦ˆλ³΄λ‹€ μž‘λ‹€λ©΄ 데이터 μ••μΆ•νš¨κ³Όκ°€ μžˆμŠ΅λ‹ˆλ‹€.

  2. μ΄λ―Έμ§€λŠ” 기본적으둜 Discrete (Pixel 1, Pixel 2, ...) 인데, 연속적인 ν•¨μˆ˜λ‘œ λ‚˜νƒ€λƒ„μœΌλ‘œμ¨ ν”½μ…€ μ‚¬μ΄μ˜ μœ„μΉ˜μ— λŒ€ν•œ RGBλ₯Ό μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. (⭐)

ν¬μŠ€νŒ…μ—μ„œ μ†Œκ°œν•˜λŠ” 논문도 CVPR 2021에 좜판된 NIR κ΄€λ ¨ λ…Όλ¬ΈμœΌλ‘œ (⭐) 두 번째 λͺ©μ  (Continuous Representation)을 λ‹€λ€˜μŠ΅λ‹ˆλ‹€.λ³Έ ν¬μŠ€νŒ…μ€ λ…Όλ¬Έμ˜ 두 가지 contribution을 μ„€λͺ…ν•©λ‹ˆλ‹€.

  • Discrete Imageλ₯Ό Continuous ν•œ 이미지 ν‘œν˜„μœΌλ‘œ ν•™μŠ΅μ‹œν‚€λŠ” 방법

  • Continuous Representation을 톡해 더 높은 Resolution을 λ§Œλ“œλŠ” 방법

πŸ“‘ 2. Local Implicit Image Function (LIIF)

Definition

ν”½μ…€ xx 에 λŒ€ν•΄μ„œ RGB 값을 μœ μΆ”ν•˜λŠ” ν•¨μˆ˜λŠ” s=fΞΈ(x)s = f_\theta (x) 둜 λ‚˜νƒ€λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€. λͺ¨λΈμ€ ν”½μ…€ μœ„μΉ˜ 정보λ₯Ό 기반으둜 RGBκ°’(ν˜Ήμ€ Grey scale)을 μœ μΆ”ν•©λ‹ˆλ‹€. μ œμ•ˆν•œ λͺ¨λΈμΈ Local Implicit Image Function(LIIF) λŠ” Latent Codeλ₯Ό μ΄μš©ν•˜μ—¬ Image 에 λŒ€ν•œ 정보 M∈RHΓ—WΓ—DM \in \mathbb{R}^{H\times W \times D} κ°€ μžˆμ„ λ•Œ, 이λ₯Ό Continuous image II 둜 ν•™μŠ΅μ‹œν‚€λŠ” 것을 λͺ©μ μœΌλ‘œ ν•©λ‹ˆλ‹€. μœ„μΉ˜ 정보 xx 뿐만 μ•„λ‹ˆλΌ, Latent Code에도 μ˜μ‘΄μ‹œν‚¨ LIIF의 λͺ¨λΈμ€ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

s=fΞΈ(z,x)s = f_\theta (z,x)

Latent Code for continuous position

Latent CodeλŠ” [0,H]Γ—[0,W][0,H]\times [0,W] 이미지가 μžˆμ„ λ•Œ, 각 ν”½μ…€λ§ˆλ‹€ Latent Codeκ°€ μžˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ 전체 HΓ—WH \times W 개의 Latent Codeκ°€ μžˆμŠ΅λ‹ˆλ‹€. 이름이 Latent Code인 μ΄μœ λŠ”, HΓ—WH\times W κ°€ Low Resolution 이미지에 λŒ€ν•œ 크기이기 λ•Œλ¬Έμ—, μ›λž˜ 이미지보닀 ν”½μ…€ μˆ˜κ°€ 적기 λ•Œλ¬Έμž…λ‹ˆλ‹€. μ΄λ‘œλΆ€ν„° μ›ν•˜λŠ” continuous μœ„μΉ˜ xx κ°€ μžˆμ„ λ•Œ, κ°€κΉŒμš΄ Latent codeλ₯Ό 선택해주면 λ©λ‹ˆλ‹€. Figure 4μ—μ„œλŠ” xx μœ„μΉ˜μ— λŒ€ν•΄μ„œ 1κ°œκ°€ μ•„λ‹Œ 4 개의 Latent Codeλ₯Ό μ„ νƒν•˜μ˜€λŠ”λ°, 이λ₯Ό λ…Όλ¬Έμ—μ„œλŠ” Local ensemble이라고 λΆ€λ¦…λ‹ˆλ‹€. 이λ₯Ό μ‚¬μš©ν•˜λŠ” μ΄μœ λŠ” 4.3 μ—μ„œ λ‹€λ£¨κ² μŠ΅λ‹ˆλ‹€.

Figure 3
Figure 4

전체 4x4 Pixel이 μžˆμ„ λ•Œ, Latent CodeλŠ” 4x4 κ°œκ°€ 각 μœ„μΉ˜λ³„λ‘œ κ³ λ₯΄κ²Œ λΆ„ν¬λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

continuous ν•œ μœ„μΉ˜ xx 에 λŒ€ν•΄μ„œ zβˆ—z^* λŠ” xx μ—μ„œ κ°€κΉŒμš΄ 4개의 Latent Code둜 μ •ν•΄μ§‘λ‹ˆλ‹€.

🧐 Latent code값에 λŒ€ν•œ λͺ‡ 가지 μ˜λ¬Έμ μ„ 집고 λ„˜μ–΄κ°€κ² μŠ΅λ‹ˆλ‹€.

Q1. Latent Codeκ°’(ν˜Ήμ€ μ΄ˆκΈ°κ°’)은 무엇인가?

A1. Pretrained Encoder(EDSR ν˜Ήμ€ RDN)둜 이미지λ₯Ό 인코딩 ν›„ 얻은 Feature Vector

Q2. μ—¬λŸ¬ 이미지가 μžˆμ„ λ•Œ, Latent CodeλŠ” κ³΅μœ λ˜λŠ”κ°€?

A2. (No) Pretrained Modelλ‘œλΆ€ν„° 이미지λ₯Ό μΈμ½”λ”©ν•˜κΈ° λ•Œλ¬Έμ— μ΄λ―Έμ§€λ§ˆλ‹€ Latent Codeκ°€ 생긴닀.

Q3. LIIF Training μ‹œ Latent CodeλŠ” λ³€ν•˜λŠ”κ°€?

A3. (Yes), Freezing ν•˜μ§€ μ•ŠλŠ”λ‹€.

Continuous Representation using Latent Code

이미지에 λŒ€ν•œ Latent Codeκ°€ κ³ μ •λ˜μ–΄ μžˆμœΌλ―€λ‘œ 이λ₯Ό 기반으둜 Continuous Image의 xx μ’Œν‘œμ— λŒ€ν•œ RGB 값은 Latent Code의 μœ„μΉ˜ vβˆ—v* 와 xx의 차이λ₯Ό μž…λ ₯으둜 λ„£μ–΄μ„œ κ³„μ‚°λ©λ‹ˆλ‹€. Latent code와 μƒλŒ€μœ„μΉ˜λ₯Ό λ„£λŠ” continous representation은 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

I(x)=βˆ‘t∈{00,01,10,11}StSβ‹…fΞΈ(ztβˆ—,xβˆ’vtβˆ—)I(x) = \sum_{t \in \{ 00, 01,10,11 \}} \frac{S_t}{S} \cdot f_\theta (z_t^*, x - v_t^*)

μž…λ ₯으둜 Latent Codeμ™€μ˜ 거리 차이가 주어지기 λ•Œλ¬Έμ—, continuous ν•œ 거리 차이λ₯Ό μž…λ ₯으둜 λ„£κ²Œ λœλ‹€λ©΄, 이미지에 λŒ€ν•œ continuous representation 을 μ–»κ²Œ λ©λ‹ˆλ‹€. Figure 5 μ—μ„œ λ‚˜νƒ€λ‚˜λ“―μ΄, 연속적인 xx듀을 λ‹€μ–‘ν•˜κ²Œ 선택할 수 있고, continousν•œ μƒλŒ€μœ„μΉ˜ xβˆ’vtβˆ—x - v_t^* 값이 κ³„μ‚°λ©λ‹ˆλ‹€.

πŸ“‘ 3. Pipeline

μœ„μ—μ„œ Latent Code와 LIIF ν•¨μˆ˜μ˜ 의미λ₯Ό μ‚΄νŽ΄λ΄€μŠ΅λ‹ˆλ‹€. 주어진 데이터에 λŒ€ν•΄μ„œ ν•΄λ‹Ή λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κΈ° μœ„ν•΄μ„œ μ €μžλŠ” Self-Supervised Learning 방법을 μ œμ•ˆν•˜μ˜€μŠ΅λ‹ˆλ‹€. 데이터와 ν•™μŠ΅ 방법에 λŒ€ν•΄μ„œ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

  1. βœ”οΈ Data Preparation 단계

  2. βœ”οΈ Training 단계

Data Preparation

Data Preparationμ—μ„œλŠ” Down-sampling된 이미지(μ΄λ―Έμ§€μ˜ ν”½μ…€ 수 κ°μ†Œ)와 μ˜ˆμΈ‘ν•  pixel μœ„μΉ˜ xhrx_{hr} 와 RGB κ°’ shrs_{hr} 을 μ€€λΉ„ν•©λ‹ˆλ‹€. Figure 6 에 λ‚˜νƒ€λ‚˜μžˆλ“―μ΄, 주어진 이미지λ₯Ό Down-samplingν•˜μ—¬ 크기λ₯Ό 쀄이고 이 μ •λ³΄λ‘œλΆ€ν„° μ‚¬μ΄μ¦ˆκ°€ 큰 μ›λž˜ μ΄λ―Έμ§€μ˜ 픽셀에 λŒ€ν•œ RGBλ₯Ό μ˜ˆμΈ‘ν•©λ‹ˆλ‹€. 즉, Higer resolution을 νƒ€κ²ŸνŒ…ν•˜μ—¬ ν•™μŠ΅ν•˜κ³ μž ν•©λ‹ˆλ‹€. 픽셀에 λŒ€ν•œ λ‚΄μš©μ€ λ°‘μ—μ„œ 쑰금 더 μžμ„Ένžˆ μ„€λͺ…ν•˜κ² μŠ΅λ‹ˆλ‹€.

Training

ν•™μŠ΅ν•  λ•ŒλŠ” Down-sampling된 이미지(48Γ—4848\times48)λ₯Ό pretrained encoder에 λ„£μ–΄μ„œ feature vectorλ₯Ό λ½‘μ•„μ€λ‹ˆλ‹€. 이 값이 Latent Code 역할을 ν•˜λ©°, pretrained encoderλŠ” μ΄λ―Έμ§€μ˜ μ‚¬μ΄μ¦ˆλ₯Ό κ·ΈλŒ€λ‘œ μœ μ§€ν•΄μ€λ‹ˆλ‹€. Figure 7 처럼 Data Preparation λ‹¨κ³„μ—μ„œ 얻은 xhrx_{hr} κ³Ό Latent Code듀을 LIIF model에 λ„£μ–΄μ€ŒμœΌλ‘œμ¨, μ›ν•˜λŠ” RGBκ°’ shrs_{hr}을 μ˜ˆμΈ‘ν•©λ‹ˆλ‹€. 이후 μ‹€μ œ κ°’κ³Ό L1L1 Loss둜 계산해주면 ν•™μŠ΅μ΄ λ©λ‹ˆλ‹€.

🚨 μΈμ½”λ”μ˜ 역할은 이미지 κ°œλ³„μ— λŒ€ν•œ Latent Codeλ₯Ό λ½‘μ•„λ‚΄λŠ” 것 μž…λ‹ˆλ‹€. λ”°λΌμ„œ λ‹€μ–‘ν•œ 이미지 μƒ˜ν”Œμ— λŒ€ν•œ ν•™μŠ΅μ΄ κ°€λŠ₯ν•©λ‹ˆλ‹€. 기쑴에 NIR이 이미지 ν•˜λ‚˜μ— λŒ€ν•΄μ„œ Fitting ν•˜λŠ” 것과 차이가 μžˆμŠ΅λ‹ˆλ‹€.

🧐 input의 ν¬κΈ°λŠ” 48x48 인데, 224x224 λ₯Ό μ–»λŠ” 방법은 λ¬΄μ—‡μΌκΉŒ?

πŸ“‘ 4. Additional Engineering

LIIF 방법에 좔가적인 방법듀을 ν†΅ν•΄μ„œ μ„±λŠ₯을 올릴 수 μžˆμŠ΅λ‹ˆλ‹€. μ—¬κΈ°μ„œλŠ” 총 3개의 방법이 μ œμ•ˆλ˜λ©°, μ…‹λ‹€ μ‚¬μš©ν–ˆμ„ λ•Œ, κ°€μž₯ 쒋은 μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.

  1. βœ”οΈ Featuer Unfolding : Latent Codeλ₯Ό μ£Όλ³€ 3x3 Latent Code 와 Concatenation

  2. βœ”οΈ Local Ensemble : continuous position xx에 λŒ€ν•΄μ„œ 4개의 Latetn Code 선택

  3. βœ”οΈ Cell Decoding : RGBλ₯Ό Predictionν•  λ•Œ, μ›ν•˜λŠ” cell size μΆ”κ°€.

Feature Unfolding

Encoderλ‘œλΆ€ν„° λ‚˜μ˜¨ Feature (Latent Code)에 λŒ€ν•΄μ„œ, μ£Όλ³€ 3x3에 λŒ€ν•œ concatenation을 ν•¨μœΌλ‘œμ¨, μœ„μΉ˜μ— λŒ€ν•œ ν‘œν˜„λ ₯을 λ†’μž…λ‹ˆλ‹€. 이 경우, input의 dimesion에 λŒ€ν•œ sizeλŠ” 9λ°° μ¦κ°€ν•˜κ²Œ λ©λ‹ˆλ‹€.

M^jk=Concat({Mj+l,k+m}l,m∈{βˆ’1,0,1})\hat{M}_{jk} = Concat(\{ M_{j+l, k+m} \}_{l,m \in \{-1,0,1\}})

Local Ensemble

거리 기반으둜 Latent Codeλ₯Ό μ„ νƒν•˜λŠ”λ° ν•œ 가지 문제점이 μžˆμŠ΅λ‹ˆλ‹€. 거리 기반으둜 μ„ νƒν•˜κ²Œ λœλ‹€λ©΄ Figure 8 처럼 λ‹€μŒ Latent Code둜 λ„˜μ–΄κ°€κ²Œ λ˜λŠ” μ‹œμ μ—μ„œ 두 xx μ‚¬μ΄μ˜ 거리가 ꡉμž₯히 κ°€κΉŒμšΈμ§€λΌλ„ Latent Codeκ°€ λ‹€λ₯Ό 수 μžˆλ‹€λŠ” 것 μž…λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄μ„œ Figure 9처럼 μ£Όλ³€ 4개의 Latent Codesλ₯Ό μ„ νƒν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€.

Figure 8
Figure 9

만일 κ°€μž₯ κ°€κΉŒμš΄ Latent Code ν•˜λ‚˜λ§Œ κ³ λ₯Έλ‹€λ©΄, λ²”μœ„λ₯Ό λ„˜μ–΄κ°€λ©΄μ„œ Latent Codeκ°€ κΈ‰λ³€ν•˜λŠ” ν˜„μƒμ΄ λ‚˜νƒ€λ‚©λ‹ˆλ‹€.

사뢄면에 λŒ€ν•΄μ„œ κ°€κΉŒμš΄ 4개λ₯Ό κ³ λ₯Έλ‹€λ©΄ 선택에 λŒ€ν•œ λ²”μœ„λ₯Ό λ„˜μ–΄κ°ˆ λ•Œ 절반만 λ°”λ€Œκ²Œ λ©λ‹ˆλ‹€. μ™Όμͺ½ xx 에 λŒ€ν•΄μ„œλŠ” κ°€κΉŒμš΄ μœ„μΉ˜μ— μžˆλŠ” z12,z13,z22,z23z_{12}, z_{13}, z_{22}, z_{23} Latent Codeκ°€ μ„ νƒλ˜λ©°, 였λ₯Έμͺ½ x에 λŒ€ν•΄μ„œλŠ” κ°€κΉŒμš΄ μœ„μΉ˜μ— μžˆλŠ” z13,z14,z23,z24z_{13}, z_{14}, z_{23}, z_{24}κ°€ μ„ νƒλ©λ‹ˆλ‹€.

Cell Decoding

LIIF λͺ¨λΈμ€ μœ„μΉ˜μ— λŒ€ν•œ 정보와 근처 Latent Code의 정보λ₯Ό μ€λ‹ˆλ‹€. ν•˜μ§€λ§Œ μš°λ¦¬κ°€ μ–΄λŠ μ •λ„μ˜ Resolution을 λͺ©ν‘œλ‘œ ν•˜λŠ”μ§€ μ•Œλ €μ£Όμ§€ λͺ»ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄μ„œ, 48Γ—4848\times 48 μ—μ„œ 224Γ—224224 \times 224 둜 해상도λ₯Ό 높일 λ•Œ, μ’Œν‘œμ— λŒ€ν•œ μ •λ³΄λŠ” μ£Όμ§€λ§Œ, μš°λ¦¬κ°€ λͺ©ν‘œλ‘œ ν•˜λŠ” Decoding Cell의 μ‚¬μ΄μ¦ˆλ₯Ό 주지 λͺ»ν•©λ‹ˆλ‹€. μ˜ˆμ‹œμ—μ„œλŠ” ν•΄λ‹Ή μœ„μΉ˜λ‘œλΆ€ν„° 2Γ—22\times2의 크기λ₯Ό μ›ν•œλ‹€λŠ” 것을 μ•Œλ €μ€˜μ•Ό ν•©λ‹ˆλ‹€. Cell Decoding을 ν¬ν•¨ν•œ LIIF λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. κΈ°μ‘΄ Pixcel값에 Cell 크기λ₯Ό μΆ”κ°€μ μœΌλ‘œ λΆ™μ—¬μ„œ μž…λ ₯으둜 λ„£μ–΄μ€λ‹ˆλ‹€.

s=fcell(z,[x,c])s = f_{cell} (z, [x,c])

πŸ“‘ 5. Experiments

High Resolution Benchmark

Figure 10 은 High Resolution Benchmark인 DIV2K 데이터셋에 λŒ€ν•΄μ„œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. 첫 번째 Row Group은 EDSR 인코더λ₯Ό, 두 번째 Row Group은 RDN 인코더λ₯Ό μ‚¬μš©ν•œ 경우λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

  • EDSR 을 μ‚¬μš©ν•œ 경우, λ‹€λ₯Έ High Resolution 방식듀보닀 더 높은 μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€. λ˜ν•œ Out-of-distribution에 λŒ€ν•΄μ„œλŠ” μ œμ•ˆλœ λͺ¨λΈμ΄ λ”μš± 높은 μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€. μ΄λŠ” x1~x4배둜 high resolution을 λ§Œλ“€λ„λ‘ ν•™μŠ΅ν•œ λͺ¨λΈμ— 더 높은 resoltuion을 μš”κ΅¬ν•œ κ²½μš°μž…λ‹ˆλ‹€. LIIFλͺ¨λΈμ΄ 더 높은 μ„±λŠ₯을 λ³΄μ΄λŠ” 것은 Latent code의 μƒλŒ€ μœ„μΉ˜λ₯Ό 기반으둜 μ˜ˆμΈ‘ν•˜κΈ° λ•Œλ¬ΈμœΌλ‘œ μΆ”μΈ‘ν•©λ‹ˆλ‹€.

  • RDN 인코더λ₯Ό μ‚¬μš©ν•œ κ²½μš°λŠ”, in-distribution에 λŒ€ν•΄μ„œ λΉ„μŠ·ν•œ μ„±λŠ₯을 λ³΄μ΄μ§€λ§Œ λ§ˆμ°¬κ°€μ§€λ‘œ out-of-distribution에 λŒ€ν•΄μ„œ 높은 μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.

πŸ’‘ 결과적으둜 LIIF λͺ¨λΈμ€ 더 높은 resolution을 μš”κ΅¬ν•˜λŠ” 경우, λ‹€λ₯Έ λͺ¨λΈμ— λΉ„ν•΄μ„œ μ›”λ“±ν•œ μ„±λŠ₯을 λ³΄μΈλ‹€λŠ” 것을 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

🧐 Difference between RDN and EDSR

RDN은 Residual Deep Networkλ₯Ό λ‚˜νƒ€λ‚΄λ©° EDSR은 Enhanced Deep Residual Networks으둜 RDN 이후 개발된 λͺ¨λΈμž…λ‹ˆλ‹€. λ‘˜ λ‹€ Low ResolutionμœΌλ‘œλΆ€ν„° High Resolution을 νƒ€κ²ŸνŒ…ν•˜λŠ” CNN + Upsampling ꡬ쑰인 것은 λ™μΌμ§€νžˆλ§Œ, EDSR은 Batch-Normalizaiton을 μ‚¬μš©ν•˜μ§€ μ•ŠμœΌλ©°, νŒŒλΌλ―Έν„° μˆ˜κ°€ RDN보닀 μ μœΌλ©΄μ„œ 더 쒋은 μ„±λŠ₯을 λ‚΄λŠ” λͺ¨λΈμž…λ‹ˆλ‹€. High Resolution을 μœ„ν•΄, 이미지λ₯Ό μΈμ½”λ”©ν•˜λŠ” λŒ€ν‘œμ μΈ λͺ¨λΈμž…λ‹ˆλ‹€.

Continuous Representation

Continuous Representation을 잘 ν•™μŠ΅ν–ˆλ‹€λ©΄ 이미지λ₯Ό ν™•λŒ€ν–ˆμ„ λ•Œλ„ λŠκΈ°μ§€ μ•Šκ³  μ œλŒ€λ‘œ 보여야 ν•©λ‹ˆλ‹€. λ‹€λ₯Έ NIRμ΄λ‚˜ High resolution λͺ¨λΈλ“€κ³Ό λΉ„κ΅ν–ˆμ„ λ•Œ, LIIF의 μ΄λ―Έμ§€λŠ” λ”μš± 연속적인 ν˜•νƒœλ‘œ λ‚˜νƒ€λ‚˜κ²Œ λ©λ‹ˆλ‹€. λ‹€λ₯Έ λͺ¨λΈλ“€μ΄ μ•½κ°„μ˜ λŠκΈ°λŠ” ν˜„μƒμ΄λ‚˜, Blur νš¨κ³Όκ°€ μžˆλŠ” 반면, LIIF λͺ¨λΈμ€ μƒμ„±λœ 이미지가 ꡉμž₯히 λΆ€λ“œλŸ¬μš΄ 것을 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

πŸ“‘ 6. Conclusion

이 λ…Όλ¬Έμ—μ„œλŠ” 연속적인 이미지 ν‘œν˜„μ„ μœ„ν•œ Local Implicit Image Function(f(z,xβˆ’v)f(z, x-v))을 μ œμ•ˆν•˜μ˜€μŠ΅λ‹ˆλ‹€. Latent code의 μœ„μΉ˜μ—μ„œ νŠΉμ • μœ„μΉ˜κΉŒμ§€ 떨어진 점의 RGB 값을 μœ μΆ”ν•¨μœΌλ‘œμ¨ continuous image representation을 κ°€λŠ₯ν•˜κ²Œ λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ 이미지 κ°œλ³„μ΄ μ•„λ‹Œ, 이미지λ₯Ό pre-trained encoderλ₯Ό μ‚¬μš©ν•˜μ—¬ 이미지에 λŒ€ν•œ feature vectorλ₯Ό latent code의 기반으둜 μ‚¬μš©ν•¨μœΌλ‘œμ¨, λ‹€μ–‘ν•œ 이미지에 λŒ€ν•΄ μ μš©κ°€λŠ₯ν•œ Training 기법을 μ œμ•ˆν•˜μ˜€μŠ΅λ‹ˆλ‹€.

μ΄λ―Έμ§€λŠ” ν”½μ…€ μœ„μΉ˜μ— λŒ€ν•΄μ„œ RGB 값을 가지기 떄문에, λ„ˆλ¬΄ 큰 μ΄λ―Έμ§€λŠ” λ°μ΄ν„°μ˜ μš©λŸ‰μ— λŒ€ν•œ 이슈둜 μ €μž₯ν•˜κΈ° μ–΄λ €μš΄ 점이 μžˆμŠ΅λ‹ˆλ‹€. 만일 NIR이 λ”μš± λ°œλ‹¬ν•˜μ—¬, 훨씬 적은 λͺ¨λΈλ‘œ 이미지λ₯Ό μ™ΈμšΈ 수 μžˆλŠ” λͺ¨λΈμ΄ μžˆλ‹€λ©΄, 데이터 전솑 μ‹œ, 이미지λ₯Ό λ³΄λ‚΄λŠ” 것이 μ•„λ‹ˆλΌ, Neural Networkλ₯Ό λ³΄λ‚΄λŠ” 것도 ν–₯ν›„μ—λŠ” κ°€λŠ₯ν•  것 κ°™μŠ΅λ‹ˆλ‹€.

Take Home Message

보톡 Implicit Neural Represenation은 주어진 λ°μ΄ν„°λ‘œλΆ€ν„° λ°”λ‘œ ν•¨μˆ˜λ₯Ό ν•™μŠ΅μ‹œν‚€λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. κ·Έλž˜μ„œ 데이터가 μžˆμ„ λ•Œλ§ˆλ‹€ ν•¨μˆ˜λ₯Ό μƒˆλ‘œ ν•™μŠ΅ν•΄μ•Ό ν•˜μ£ . λ”₯λŸ¬λ‹μ„ μ΄μš©ν•˜λ©΄, μ΄λ―Έμ§€λ‘œλΆ€ν„° Feature Vectorλ₯Ό 뽑을 수 μžˆκΈ°μ—, Feature Vectorλ₯Ό input으둜 μΌλ°˜ν™”μ‹œμΌœμ„œ ν•™μŠ΅μ‹œν‚€λŠ” 것이 κ°€λŠ₯ν•œ 것을 이 λ…Όλ¬Έμ—μ„œ 확인할 수 μžˆμ—ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ Continuous Domain을 Featureλ‘œλΆ€ν„° 거리둜 ν•΄μ„ν•œ 것도 쒋은 μ ‘κ·Όλ²•μž…λ‹ˆλ‹€.

πŸ“‘ Author / Reviewer information

Author

  1. 박범진 (Bumjin Park): KAIST / bumjin@kaist.ac.kr

Reviewer

  • None

πŸ“° References & Additional materials

Last updated

Was this helpful?