MultitaskNeuralProcess [Kor]
(Description) Kim et al. / MULTI-TASK NEURAL PROCESSES / ICRL2022
Last updated
(Description) Kim et al. / MULTI-TASK NEURAL PROCESSES / ICRL2022
Last updated
Neural Processes (NPs)๋ ํจ์์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋ง (์: ํ๋ฅ ํ๋ก์ธ์ค)ํ๋ ๋ฉํ ๋ฌ๋ ๊ณ์ด์ ๋ฐฉ๋ฒ๋ก ์ค ํ๋์ด๋ค. NPs์ ๋ด์ฌ๋์ด ์๋ ํ๋ฅ ํ๋ก์ธ์ค๋ก๋ถํฐ ๊ตฌํ๋ ํจ์๋ฅผ ํ๋์ task๋ก ๊ณ ๋ คํ์ฌ ๋ณด์ง์์ task์ ํจ์์ ์ถ๋ก ๊ณผ์ ์ ํตํด์ adaptํ ์ ์๋ค. ์ด๋ฌํ ํน์ฑ ๋๋ฌธ์ image regression, image classification, time series regression ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์ ํ์ฉ๋์ด ์๋ค. ํด๋น ๋ ผ๋ฌธ์์ ์ ์๋ค์ ๊ธฐ์กด์ neural processes๋ฅผ ๋ค์ค ํ์คํฌ ํ๊ฒฝ์ผ๋ก ํ์ฅํ์ฌ ๋ฐฉ๋ฒ๋ก ์ ์๊ฐํ์๋ค. ์ด ๋ ๋ค์ค ํ์คํฌ ํ๊ฒฝ์ ๋ค์ค์ ํ๋ฅ ํ๋ก์ธ์ค๋ก๋ถํฐ ๊ตฌํ๋ ์๊ด ๊ด๊ณ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋์ด์๋ค. ๋ค์ค ํ์คํฌ ํ๊ฒฝ์ ์๋ฃ ๋ฐ์ดํฐ๋ ๊ธฐ์ ๋ฐ์ดํฐ์ ๊ฐ์ด ํ์๋ ์ง์ญ์ ๊ดํ ์ ๋ณด๊ฐ ๋ค์ํ ์๊ด ๊ด๊ณ๊ฐ ์๋ ํน์ฑ์ ๊ฐ์ง ์ ๋ณด๋ก ๊ตฌ์ฑ๋์ด ์๋ ๊ฒ๊ณผ ๊ฐ์ด ๋ง์ ์ค์ธ๊ณ์ ๋ฐ์ดํฐ๊ฐ ๋ค์ค์ ์๊ด๊ด๊ณ์ ํจ์๋ค์ ํํํ๋ค๋ ์ ์์ ์ค์ํ ํ์ต ํ๊ฒฝ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด์ neural processes ๊ณ์ด์ ๋ฐฉ๋ฒ๋ก ์ ๋ค์ค ํจ์์ ์ ์ ๊ณต๋์ผ๋ก ๋ค๋ฃจ๊ณ ์์ง ์๊ณ ์ด๋ค ๊ฐ์ ์๊ด ๊ด๊ณ์ ์ ๋ณด๋ ์ป์ ์ ์๋ ๊ตฌ์กฐ๋ก ๋์ด ์๋ค๋ ์ ์์ ๋ค์ค ํ์ต ํ๊ฒฝ์ผ๋ก์ neural processes์ ํ์ฅ์ ๊น์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค๊ณ ์๊ฐ๋๋ค.
๋ค์ค ํ์คํฌ ํ์ต์ ์ํ ํ์จ ํ๋ก์ธ์ค ๋ค์ค ํ์คํฌ ํ์ต์ ํ์ผ์ผ๋ก ํ๋ ๊ธฐ์กด์ ํ๋ฅ ํ๋ก์ธ์ค ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ก๋ ๋ํ์ ์ผ๋ก Multi-Output Gaussian processes (MOGPs)๊ฐ ์๋๋ฐ ์ด๋ ๊ธฐ์กด์ Gaussian ํ๋ก์ธ์ค๋ฅผ ํ์ฅํ์ฌ ๋ค์ค ํ์คํฌ๋ฅผ ์ถ๋ก ํ๊ณ ๋ถ์์ ํ ๋ฐ์ดํฐ๋ ํ์ฉํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค. ํ์ง๋ง ์ ํํ ์์ธก ์ฑ๋ฅ์ ์ํด์๋ ๋ง์ ๊ด์ฐฐ ๊ฐ์ด ํ์ํ ํ๊ณ๊ฐ ์๋ค. ์ต๊ทผ์ ๋ฐฉ๋ฒ๋ก ์ค์๋ Gaussian ํ๋ก์ธ์ค์ ๋ฉํํ์ต ๊ธฐ๋ฒ์ ๊ฒฐํฉํ ๋ฐฉ๋ฒ๋ก ์ด ์์ง๋ง ์ด๋ ๋ค์ค ํ์ต ํ๊ฒฝ์ ๊ณ ๋ คํ์ง๋ ์์๋ค. Conditional Neural Adaptive Processes (CNAPs)๋ ๋ค์ํ ์ ์ ํด๋์ค๋ฅผ ๊ณ ๋ คํ๋ general ํ ๋ถ๋ฅ ๋ชจ๋ธ์ ์ ์ํ์ง๋ง NP์ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฐ ํ์คํฌ์ ๋ํด ๋ ๋ฆฝ์ ์ธ ์ถ๋ก ๋ง ๊ฐ๋ฅํ๊ณ ์ถ๋ก ์์ ํ์คํฌ ๊ฐ์ ์๊ด ์ ๋ณด๋ฅผ explicitํ๊ฒ ๊ณ ๋ คํ์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์กด์ฌํ๋ค.
Neural process ๊ณ์ด์ ๊ณ์ธต์ ๋ชจ๋ธ Attentive Neural Processes (ANPs)๋ ์ดํ ์ ๋ฉ์นด๋์ฆ์ deterministic์ ํตํฉํ์ฌ ๊ฐ๊ฐ์ target example์ ๋ํด ์ถ๊ฐ์ ์ธ context ์ ๋ณด๋ฅผ ํ๋ณดํ ์ ์๊ฒ ํ์๊ณ ์ด๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์๊ณผ underfitting ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๊ฒ ํด์ฃผ์๋ค. ์ ์ฌํ ๋ฐฉ๋ฒ์ผ๋ก๋ local ์ ์ฌ ๋ณ์๋ฅผ ํ์ฉํ์ฌ example์ ํนํ๋ stochasticity๋ฅผ ํตํฉํ์ฌ NP์ ๊ทธ๋ํฝ ๋ชจ๋ธ์ ๊ณ์ธต์ ์ธ ๊ตฌ์กฐ๋ก ํ์ฅํ๊ฒ ํ๋ ๋ฐฉ๋ฒ๋ ์กด์ฌํ๋ค.
๋ค์ค ํ๊ฒฝ์์์ ๋ค์ค ํจ์์ ์ ์ ๊ณต๋์ผ๋ก ํ์ตํ๊ณ ํ์คํฌ ๊ฐ์ ์๊ด ๊ด๊ณ์ ์ ๋ณด๋ ํ์ตํ๋ ์๋๋ฆฌ์ค์์ ๋์ ๊ณผ์ ์ค ํ๋๋ ๊ด์ฐฐ ๊ฐ๋ค์ด ๋ถ์ถฉ๋ถ ํ ์ ์๋ค๋ ๋ถ๋ถ์ด๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋ฌ ์ผ์์์ multi-modal ํํ์ ์๊ทธ๋์ ์์งํ ๋, ์ผ์๋ ๋์์ ์กด์ฌํ์ง ์๋ (asynchronous) ์ํ๋ง ๋น์จ์ ๊ฐ์ง ์ ์๋ค. ๋ค์ ๋งํ๋ฉด, ๋ชจ๋ ํจ์๋ค์ด ๊ณตํต์ ์ธ ์ํ location์ ๊ฐ์ง์ง ์์ ์ ์๋๋ฐ ์ ์๋ค์ ์ด๋ฌํ ๋ถ์ถฉ๋ถํ ๋ฐ์ดํฐ์ ํ์ฉ๋๋ฅผ ์ต๋ํํ๊ธฐ ์ํด์ ์ด์์ ์ธ ํ์ต ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ ์ธํ์์ ๊ด์ฐฐ๋ ์ ์๋ ์ฌ๋ฌ ํจ์๋ค์ ์ฐ๊ด์ง์ด ํ์ตํ ์ ์์ด์ผํ๋ค๊ณ ์ ์ํ์๋ค. ๊ธฐ์กด์ ๋ค๋ณ๋ ๊ฐ์ฐ์์ ํ๋ก์ธ์ค ๋ฐฉ๋ฒ๋ก ์ด ์ด๋ฌํ ๋ฐฉ๋ฒ์ผ๋ก ๋ถ์ถฉ๋ถํ ๊ด์ฐฐ๊ฐ์ ๊ฐ์ง๊ณ ๋ค์ค ํจ์๋ฅผ ์ถ๋ก ํ๋ ๊ฒ์ด ๊ฐ๋ฅํ์ง๋ง ์ผ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ ์ฌ์ด์ฆ์ ๋ฐ๋ฅธ ๋ณต์ก๋๊ฐ ๋์์ ธ ์ด๋ฅผ ์ค์ด๊ธฐ ์ํด ์ถ์ ๋ฐฉ๋ฒ์ ์ถ๊ฐ๋ก ํ์๋ก ํ๊ฒ ๋๋ค. (๊ทธ๋ฆฌ๊ณ ์ ํฉํ kernerl์ ์ ํํ ์ ์๋ ์ฌ๋ถ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์์กด์ ์ธ ํธ์ด๋ค.)
์ด์ ๋ํด ์ ์๋ค์ ๋ถ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ๋ค์ค ํ์คํฌ๋ฅผ ๊ณต๋ ๋ชจ๋ธ๋งํ ์ ์๋ Multi-task neural processes (MTNPs)๋ฅผ ์ ์ํ์๋ค. ์ฒซ ๋ฒ์งธ๋ก, ๋ถ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๊ณ ํจ์๋ค์ ํตํด ๊ณต๋ ์ถ๋ก ์ ํ๊ธฐ ์ํ ๋ค์ค ํจ์ ๊ณต๊ฐ์ ๋์์ธํ์๊ณ ํตํฉ๋ ํจ์ ๊ณต๊ฐ์์ ํ๋ฅ ํ๋ก์ธ์ค๋ฅผ ์ด๋ก ์ ์ผ๋ก ์ ๋ํ๊ธฐ ์ํ ์ ์ฌ ๋ณ์ ๋ชจ๋ธ (Latent variable model)์ ์ ์ํ์๋ค. ์ด ๋, ํ์คํฌ ๊ฐ์ ์๊ด ๊ด๊ณ ํ์ฉ์ ์ํด์ ์ ์ฌ๋ณ์ ๋ชจ๋ธ์ ๊ณ์ธต์ ์ผ๋ก ๊ตฌ์ฑํ์๋๋ฐ ์ด๋ ๋ชจ๋ ํ์คํฌ์ ์ ๋ณด๋ฅผ ํ๋ณดํ๊ธฐ ์ํ 1) global latent variable๊ณผ ๊ฐ๊ฐ์ ํ ์คํฌ์ ์ง์ค๋ ์ ๋ณด๋ฅผ ํ๋ณดํ๊ธฐ ์ํ 2) task-specific latent variable๋ก ๋์ด์๋ค. ์ ์๋ ๋ชจ๋ธ์ ๋ํ ๊ธฐ์กด์ neural processes๊ฐ ๋ณด์ฌ์ฃผ๋ ์ฅ์ ๋ค(flexible adaptation, scalable inferece, uncertainty-aware prediction)์ ์ฌ์ ํ ๊ฐ์ง๊ณ ์๋ค.
Neural processes ๋ฅผ ๋ค์ค ํ์คํฌ์ ์ ์ฉํ๋ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ์ ํ์คํฌ ๊ฐ์ ๋ ๋ฆฝ์ฑ์ ๊ฐ์ ํ๊ณ ํจ์ ๊ณต๊ฐ $(y^1)^\mathcal{x}, ..., (y^T)^\mathcal{x}$ ์ ๋ํ ๋ ๋ฆฝ์ ์ธ NPs๋ฅผ ์ ์ํ๋ ๊ฒ์ด๋ค. Single-task neural processes (STNPs, Figure (a))๋ก ๋ช ๋ช ํ์๋ค. ๋ ๋ฆฝ์ ์ธ ์ ์ฌ ๋ณ์ $v^1, v^2,...,v^T$์์ ๊ฐ๊ฐ์ $v^t$๋ ํ์คํฌ $f^t$๋ฅผ ๋ํ๋ธ๋ค.
์ด ๋, STNP๋ ๊ฐ ํ์คํฌ์ ํนํ๋ ๋ฐ์ดํฐ $C^t$ ์ ๋ํด ์กฐ๊ฑดํ๋ฅผ ํตํด ๋ถ์ถฉ๋ถํ ๊ด์ฐฐ ๊ฐ (contexts)์ ๋ค๋ฃฐ์ ์๊ฒ๋๋ค. ํ์ง๋ง ๋ค์ค ํ์คํฌ์ ๊ฒฐํฉ ๋ถํฌ์์ ์กด์ฌํ๋ ํ์คํฌ ์ฌ์ด์ ๋ณต์กํ ์๊ด ๊ด๊ณ๋ฅผ ๋ฌด์ํ๊ณ ์ฃผ๋ณ ๋ถํฌ์ ๋ํ ๋ชจ๋ธ๋ง๋ง ๊ฐ๋ฅํ๋ค๋ ์ ์์ ๋จ์ ์ด ์กด์ฌํ๋ค.
๋ค๋ฅธ ๋์์ผ๋ก๋ ์ถ๋ ฅ ๊ณต๊ฐ์ product space $\mathcal{Y}^{1:T} = \prod_{t\in\tau}\mathcal{Y}^t$ ๊ฒฐํฉํ์ฌ ํจ์ ๊ณต๊ฐ $(\mathcal{Y}^{1:T})^\mathcal{X}$ ์ ๋ํ ํ๋์ NP๋ฅผ ์ ์ํ๋ ๊ฒ์ด๋ค. ์ด ๊ฒฝ์ฐ์๋ ํ ๊ฐ์ ์ ์ฌ ๋ณ์ $z$๊ฐ ์ ์ฒด ํ์คํฌ $T$๋ฅผ ๊ณต๋์ผ๋ก ํฌํจํ๊ณ Joint-Task Neural Processes (JTNPs)๋ผ ๋ช ๋ช ํ๋ค.
์ด ๋, JTNP๋ ์ ์ฌ ๋ณ์ $z$๋ฅผ ํตํด ์ ์ฒด ํ์คํฌ ๊ฐ์ ์๊ด ์ ๋ณด๋ฅผ ํฌํจํ ์ ์๋ค. ํ์ง๋ง ๋ฌธ์ ๋ ํ์ต๊ณผ ์ถ๋ก ์์ ์์ ํ ๊ด์ฐฐ๊ฐ context์ target ๊ฐ์ ํ์์ ์ผ๋ก ํ์๋ก ํ๋ค.
์์์ ์ธ๊ธ๋ ๋ฌธ์ (์์ ํ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋)๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด์ ์ ์๋ค์ ๊ธฐ์กด์ JTNP์ ํํ๋ฅผ ์ฌ๊ณต์ํ ํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ํํํ๋ค: $h: \mathcal{X} \times \mathcal{\tau} \rightarrow \bigcup_{t\in\tau}\mathcal{Y}^t$. ์ด๋ฌํ union form์ ์ฌ์ฉํจ์ผ๋ก์จ ์ด๋ค ๋ถ๋ถ์ ์ธ ์ถ๋ ฅ ๊ฐ์ set๋ ${y_i^t}_{t\in\tau}$ ๋ค๋ฅธ ์ ๋ ฅ ํฌ์ธํธ $(x_i, t),t\in\tau_i$์์ ํ๋นํ ๊ฐ์ด ๋๊ธฐ ๋๋ฌธ์ ๋ถ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋๋ค.
Figure 1์ (c)์์ ์ฒ๋ผ ๊ณ์ธต์ ์ธ ์ ์ฌ ๋ณ์ ๋ชจ๋ธ์ ์ ์ํ๋๋ฐ ์์ด์ globalํ ์ ์ฌ๋ณ์ $z$ ์ ์ฒด context์ธ $C$๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ค ํ์คํฌ์ ๊ฑธ์น ๊ณต์ ๋ ํ๋ฅ ์ ์ธ ์์๋ฅผ ํ๋ณดํ ์ ์๊ฒ ํ์๊ณ , ๊ฐ ํ์คํฌ์ ์ง์ค๋ ํ๋ฅ ์ ์์๋ $C^t, z$๋ฅผ ์ฌ์ฉํ์ฌ ํ์คํฌ์ ์ง์ค๋ (task-specific) ์ ์ฌ ๋ณ์ $v^t$์ ์ํด ๋ค์๊ณผ ๊ฐ์ด ํ๋ณด๋๊ฒ ํ์๋ค.
์ด ๋, $v^{1:T}:= (v^1,..,v^T)$์ด๊ณ $p(Y_D^t|x_D^t, v^t)$์ ๋ํ ์กฐ๊ฑด์ ์ธ ๋ ๋ฆฝ์ฑ์ ๊ฐ์ ํ๋ค.
์ ๋ฆฌ๋ฅผ ํด๋ณด๋ฉด ์ฐ์ ์ ์ฒด $v^{1:T}$์ ๋ฐ๋ฅธ $z$๋ฅผ ๊ณต์ ํจ์ผ๋ก์จ ํด๋น ๋ชจ๋ธ์ ํ์คํฌ๊ฐ์ ์๊ด ์ ๋ณด๋ฅผ ํ๋ณดํ๊ธฐ ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ ์ ์๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ global ์ ์ฌ ๋ณ์ $z$๋ฅผ ํตํด ๋ถ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ์ถฉ๋ถํ ํ์ฉํ ์ ์๊ฒ ๋๋๋ฐ ์ด๋ ์ด ์ ์ฌ๋ณ์๊ฐ 1) ์ ์ฒด context ๋ฐ์ดํฐ $\bigcup_{t\in\tau}C^t$์์ ์ถ๋ก ๋๋ฉฐ 2) ๊ฐ ํ ์คํฌ์ ํนํ๋ ์ ์ฌ๋ณ์ $v^t$๋ฅผ ์ถ๋ก ํ ๋๋ global ์ ์ฌ ๋ณ์ $z$๊ฐ ์กฐ๊ฑดํ๋๊ธฐ ๋๋ฌธ์ ์ด๋ $v^t$์ ์ ๋๋ ๊ฐ๊ฐ์ ํจ์ $f^t$๊ฐ ํ์ฌ ํ์คํฌ์ $C^t$ ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ํ์คํฌ $C^{t\prime}$์์์ ๊ด์ฐฐ ๊ฐ๋ค๋ ๋ฒ์ฉ์ ์ผ๋ก ํ์ฉํ ์ ์๊ฒ๋๊ธฐ ๋๋ฌธ์ด๋ค.
ํ์ต๊ณผ ์ถ๋ก ์์ ์ ์๋ค์ encoder $q_\phi$์ decoder $p_\theta$๋ฅผ ์ฌ์ฉํ์ฌ conditional prior์ generative ๋ชจ๋ธ์ ์ถ์ ํ์๋ค. ์ธ๊ธ๋ ๋ค์์ ์์ $p(Y_D^{1:T}|X_D, C)= \int \int [\prod_{t=1}^T p(Y^{T}_D|X_D^T, v^t)p(v^t|z, C^t)]p(z|C)dv^{1:T}dz$์ intractableํ๊ธฐ์ variational lower bound์ ํตํด ํ๋ จ์ ์งํํ๋ค.
๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ Attention Neural Process (ANP) ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ implementation์ ์งํํ์๊ณ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ์์ Figure 2์ ๊ฐ๋ค.
๋ฐ์ดํฐ์ ์ ์๋ค์ ์ด ์ธ๊ฐ์ ๋ฐ์ดํฐ ์ (synthetic & real-world ๋ฐ์ดํฐ์ )์ผ๋ก MTNP๋ฅผ ๊ฒ์ฆํ์๊ณ ๋ชจ๋ ์คํ์์ context ๋ฐ์ดํฐ๋ ๋ถ์ถฉ๋ถํ๊ฒ ๊ตฌ์ฑํ ํ ์คํ์ ์งํํ์๋ค.
๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๊ณผ ํ์ต ํ๊ฒฝ MTNP ๋ชจ๋ธ์ ๋น๊ต๊ตฐ์ผ๋ก ์ ์๋ค์ด ๋ฐฉ๋ฒ๋ก ์์ ์ธ๊ธํ STNP์ JTNP ๋ชจ๋ธ์ ANP๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณํ์ฌ ๊ตฌ์ฑํ์๋ค. JTNP ๋ชจ๋ธ์ ๋ถ์์ ํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ธฐ์ missing label์ STNP๋ฅผ ํตํด imputation์ ์งํํ์๋ค. 1D regreesion task์์๋ ์ถ๊ฐ์ ์ผ๋ก ๋ ๊ฐ์ Multi-output Gaussian processes ๋ฒ ์ด์ค ๋ผ์ธ ๋ชจ๋ธ (CSM, MOSM)๊ณผ ๋ ๊ฐ์ ๋ฉํ ํ์ต ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ (MAML, Reptile)๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค.
๊ฒ์ฆ ๋ฉํธ๋ฆญ Regression ํ์คํฌ์์๋ mean squared error (MSE)๋ก ์ฑ๋ฅ ์ธก์ ์ ํ์๊ณ image completion ํ ์คํฌ์์๋ pseudo-lbael๊ณผ prediction ๊ฐ์ error๋ฅผ MSE์ mIoU๋ก ์ธก์ ํ์๋ค.
์ด ์ธ ๊ฐ์ ๋ฐ์ดํฐ ์ ์ผ๋ก ์ฃผ์ ์คํ๊ณผ ablation ์คํ์ ์งํํ์๊ณ ๋ํ์ ์ผ๋ก ๋ ์จ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ 1D ์๊ณ์ด regression ํ์คํฌ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๋ช ์ ์งํํ๊ฒ ๋ค.
ํด๋น ์คํ์ ๋ฐ์ดํฐ ์ ์ 266 ๊ฐ ๋์์ 258์ผ ๊ฐ์ ์์ง๋ ๋ ์จ ๊ธฐ๋ก์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ ์ด 12๊ฐ์ ๋ ์จ ๊ด๋ จ attribute ์ ๋ณด (๊ณ ์จ, ์ ์จ, ์ต๋, ๊ตฌ๋ฆ ์ ๋ฑ)๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์์ figure์์ table 2๋ ์ ๋์ ์คํ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋๋ฐ ๋ ผ๋ฌธ์์ ์ ์๋ MTNP ๋ชจ๋ธ์ด ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ๋นํด ์ ํ๋์ ๋ถํ์ค์ฑ ์ถ์ ์ธก๋ฉด์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์์ ์๋ค. ์ด๋ ์ค์ ๋ฐ์ดํฐ์์ ์ ์๋ ๋ชจ๋ธ์ด ํจ๊ณผ์ ์ผ๋ก ์ผ๋ฐํ ๋จ์ ๋ณด์ฌ์ค๋ค. ๋ํ, figure 4์์๋ ๋ถ์ถฉ๋ถํ ๋ฐ์ดํฐ ํ๊ฒฝ์์ MTNP ๋ชจ๋ธ์ด ํ ์คํฌ ๊ฐ ์ง์ ์ ์ด (knowledge transfer)๋ฅผ ํจ๊ณผ์ ์ด๊ฒ ์ํํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. figure (a)์์ ๊ด์ฐฐ๊ฐ์ด ์ ์ ์์ ๋ถํ์ค์ฑ์ด ๋์์ง๋ฉด์ ๋์ NLL ์์น๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง ์ ์ฐจ์ ์ผ๋ก ์ถ๊ฐ์ ์ธ ๊ด์ฐฐ ๊ฐ (Cloud) ์ ํตํด ์ง์ ์ ์ด๊ฐ ํจ๊ณผ์ ์ผ๋ก ์งํ๋์ด ์์ธก ์ฑ๋ฅ์ด ๋์ฌ์ฃผ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ ์๋ ํ๋ฅ ํ๋ก์ธ์ค ๊ธฐ๋ฐ์ MTNP์ ๋ถ์ถฉ๋ถํ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ๋ค์ค ํจ์๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ถ๋ก ํ ์ ์๊ฒ ๊ณ ์๋์๊ณ ๋ค์ํ๊ฒ ๋์์ธ๋ ์คํ์ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ์ฆํ์๋ค. Large scale ๋ฐ์ดํฐ ์ ํ๊ฒฝ์์ ์ฑ๋ฅ์ ๊ฒ์ฆ์ด ์ข์ ์ฐ๊ตฌ ๋ฐฉํฅ์ด ๋ ๊ฒ์ด๋ผ ์๊ฐ๋๊ณ ๊ด์ฐฐ๋์ง ์์ ๊ณต๊ฐ์ ๋ํด ์ผ๋ฐํ๋ฅผ ์งํํ๋ ๋ฐฉํฅ๋ ๋ชจ๋ธ์ ๋ฒ์ฉ์ฑ์ ํฅ์ ์ํค๋๋ฐ ๋์์ด ๋ ๊ฒ์ด๋ผ ์๊ฐ๋๋ค.
Neural Processes (NPs)๋ ์๋ํ๋ค.
์ฐ๊ตฌ์๋๋ค ์๊ณ ํ์ จ์ต๋๋ค.
ํ์์ฑ
School of Computing
jayheo@kaist.ac.kr
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Kim, Donggyun, et al. "Multi-Task Processes." arXiv preprint arXiv:2110.14953 (2021).
Caruana, Rich. "Multitask learning." Machine learning 28.1 (1997): 41-75.
Fortuin, Vincent, Heiko Strathmann, and Gunnar Rรคtsch. "Meta-learning mean functions for gaussian processes." arXiv preprint arXiv:1901.08098 (2019).
Peyman Bateni, Raghav Goyal, Vaden Masrani, Frank Wood, and Leonid Sigal. Improved few-shot visual classification. In CVPR, 2020.
Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. In ICML, 2017.
Marta Garnelo, Dan Rosenbaum, Christopher Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo Rezende, and SM Ali Eslami. Conditional neural processes. In ICML, 2018a.
Kiyosi Itรด et al. An Introduction to Probability Theory. Cambridge University Press, 1984.