MultitaskNeuralProcess [Kor]
(Description) Kim et al. / MULTI-TASK NEURAL PROCESSES / ICRL2022
Last updated
Was this helpful?
(Description) Kim et al. / MULTI-TASK NEURAL PROCESSES / ICRL2022
Last updated
Was this helpful?
Neural Processes (NPs)λ ν¨μμ λΆν¬λ₯Ό λͺ¨λΈλ§ (μ: νλ₯ νλ‘μΈμ€)νλ λ©ν λ¬λ κ³μ΄μ λ°©λ²λ‘ μ€ νλμ΄λ€. NPsμ λ΄μ¬λμ΄ μλ νλ₯ νλ‘μΈμ€λ‘λΆν° ꡬνλ ν¨μλ₯Ό νλμ taskλ‘ κ³ λ €νμ¬ λ³΄μ§μμ taskμ ν¨μμ μΆλ‘ κ³Όμ μ ν΅ν΄μ adaptν μ μλ€. μ΄λ¬ν νΉμ± λλ¬Έμ image regression, image classification, time series regression λ± λ€μν λλ©μΈμ νμ©λμ΄ μλ€. ν΄λΉ λ Όλ¬Έμμ μ μλ€μ κΈ°μ‘΄μ neural processesλ₯Ό λ€μ€ νμ€ν¬ νκ²½μΌλ‘ νμ₯νμ¬ λ°©λ²λ‘ μ μκ°νμλ€. μ΄ λ λ€μ€ νμ€ν¬ νκ²½μ λ€μ€μ νλ₯ νλ‘μΈμ€λ‘λΆν° ꡬνλ μκ΄ κ΄κ³μ νμ€ν¬λ‘ ꡬμ±λμ΄μλ€. λ€μ€ νμ€ν¬ νκ²½μ μλ£ λ°μ΄ν°λ κΈ°μ λ°μ΄ν°μ κ°μ΄ νμλ μ§μμ κ΄ν μ λ³΄κ° λ€μν μκ΄ κ΄κ³κ° μλ νΉμ±μ κ°μ§ μ λ³΄λ‘ κ΅¬μ±λμ΄ μλ κ²κ³Ό κ°μ΄ λ§μ μ€μΈκ³μ λ°μ΄ν°κ° λ€μ€μ μκ΄κ΄κ³μ ν¨μλ€μ νννλ€λ μ μμ μ€μν νμ΅ νκ²½μ΄λ€. κ·Έλ¦¬κ³ κΈ°μ‘΄μ neural processes κ³μ΄μ λ°©λ²λ‘ μ λ€μ€ ν¨μμ μ μ 곡λμΌλ‘ λ€λ£¨κ³ μμ§ μκ³ μ΄λ€ κ°μ μκ΄ κ΄κ³μ μ 보λ μ»μ μ μλ κ΅¬μ‘°λ‘ λμ΄ μλ€λ μ μμ λ€μ€ νμ΅ νκ²½μΌλ‘μ neural processesμ νμ₯μ κΉμ μλ―Έλ₯Ό κ°μ§λ€κ³ μκ°λλ€.
λ€μ€ νμ€ν¬ νμ΅μ μν νμ¨ νλ‘μΈμ€ λ€μ€ νμ€ν¬ νμ΅μ νμΌμΌλ‘ νλ κΈ°μ‘΄μ νλ₯ νλ‘μΈμ€ κΈ°λ°μ λͺ¨λΈλ‘λ λνμ μΌλ‘ Multi-Output Gaussian processes (MOGPs)κ° μλλ° μ΄λ κΈ°μ‘΄μ Gaussian νλ‘μΈμ€λ₯Ό νμ₯νμ¬ λ€μ€ νμ€ν¬λ₯Ό μΆλ‘ νκ³ λΆμμ ν λ°μ΄ν°λ νμ©ν μ μλ€λ μ₯μ μ΄ μλ€. νμ§λ§ μ νν μμΈ‘ μ±λ₯μ μν΄μλ λ§μ κ΄μ°° κ°μ΄ νμν νκ³κ° μλ€. μ΅κ·Όμ λ°©λ²λ‘ μ€μλ Gaussian νλ‘μΈμ€μ λ©ννμ΅ κΈ°λ²μ κ²°ν©ν λ°©λ²λ‘ μ΄ μμ§λ§ μ΄λ λ€μ€ νμ΅ νκ²½μ κ³ λ €νμ§λ μμλ€. Conditional Neural Adaptive Processes (CNAPs)λ λ€μν μ μ ν΄λμ€λ₯Ό κ³ λ €νλ general ν λΆλ₯ λͺ¨λΈμ μ μνμ§λ§ NPμ λ§μ°¬κ°μ§λ‘ κ° νμ€ν¬μ λν΄ λ 립μ μΈ μΆλ‘ λ§ κ°λ₯νκ³ μΆλ‘ μμ νμ€ν¬ κ°μ μκ΄ μ 보λ₯Ό explicitνκ² κ³ λ €νμ§ λͺ»νλ€λ νκ³κ° μ‘΄μ¬νλ€.
Neural process κ³μ΄μ κ³μΈ΅μ λͺ¨λΈ Attentive Neural Processes (ANPs)λ μ΄ν μ λ©μΉ΄λμ¦μ deterministicμ ν΅ν©νμ¬ κ°κ°μ target exampleμ λν΄ μΆκ°μ μΈ context μ 보λ₯Ό ν보ν μ μκ² νμκ³ μ΄λ λͺ¨λΈμ μ±λ₯ ν₯μκ³Ό underfitting λ¬Έμ λ₯Ό λ°©μ§νκ² ν΄μ£Όμλ€. μ μ¬ν λ°©λ²μΌλ‘λ local μ μ¬ λ³μλ₯Ό νμ©νμ¬ exampleμ νΉνλ stochasticityλ₯Ό ν΅ν©νμ¬ NPμ κ·Έλν½ λͺ¨λΈμ κ³μΈ΅μ μΈ κ΅¬μ‘°λ‘ νμ₯νκ² νλ λ°©λ²λ μ‘΄μ¬νλ€.
λ€μ€ νκ²½μμμ λ€μ€ ν¨μμ μ μ 곡λμΌλ‘ νμ΅νκ³ νμ€ν¬ κ°μ μκ΄ κ΄κ³μ μ 보λ νμ΅νλ μλ리μ€μμ λμ κ³Όμ μ€ νλλ κ΄μ°° κ°λ€μ΄ λΆμΆ©λΆ ν μ μλ€λ λΆλΆμ΄λ€. μλ₯Ό λ€μ΄ μ¬λ¬ μΌμμμ multi-modal ννμ μκ·Έλμ μμ§ν λ, μΌμλ λμμ μ‘΄μ¬νμ§ μλ (asynchronous) μνλ§ λΉμ¨μ κ°μ§ μ μλ€. λ€μ λ§νλ©΄, λͺ¨λ ν¨μλ€μ΄ 곡ν΅μ μΈ μν locationμ κ°μ§μ§ μμ μ μλλ° μ μλ€μ μ΄λ¬ν λΆμΆ©λΆν λ°μ΄ν°μ νμ©λλ₯Ό μ΅λννκΈ° μν΄μ μ΄μμ μΈ νμ΅ λͺ¨λΈμ μλ‘ λ€λ₯Έ μΈνμμ κ΄μ°°λ μ μλ μ¬λ¬ ν¨μλ€μ μ°κ΄μ§μ΄ νμ΅ν μ μμ΄μΌνλ€κ³ μ μνμλ€. κΈ°μ‘΄μ λ€λ³λ κ°μ°μμ νλ‘μΈμ€ λ°©λ²λ‘ μ΄ μ΄λ¬ν λ°©λ²μΌλ‘ λΆμΆ©λΆν κ΄μ°°κ°μ κ°μ§κ³ λ€μ€ ν¨μλ₯Ό μΆλ‘ νλ κ²μ΄ κ°λ₯νμ§λ§ μΌλ°μ μΌλ‘ λ°μ΄ν° μ¬μ΄μ¦μ λ°λ₯Έ 볡μ‘λκ° λμμ Έ μ΄λ₯Ό μ€μ΄κΈ° μν΄ μΆμ λ°©λ²μ μΆκ°λ‘ νμλ‘ νκ² λλ€. (κ·Έλ¦¬κ³ μ ν©ν kernerlμ μ νν μ μλ μ¬λΆμ μ±λ₯μ΄ ν¬κ² μμ‘΄μ μΈ νΈμ΄λ€.)
μ΄μ λν΄ μ μλ€μ λΆμΆ©λΆν λ°μ΄ν°λ₯Ό κ°μ§κ³ λ€μ€ νμ€ν¬λ₯Ό 곡λ λͺ¨λΈλ§ν μ μλ Multi-task neural processes (MTNPs)λ₯Ό μ μνμλ€. 첫 λ²μ§Έλ‘, λΆμΆ©λΆν λ°μ΄ν°λ₯Ό λ€λ£¨κ³ ν¨μλ€μ ν΅ν΄ 곡λ μΆλ‘ μ νκΈ° μν λ€μ€ ν¨μ 곡κ°μ λμμΈνμκ³ ν΅ν©λ ν¨μ 곡κ°μμ νλ₯ νλ‘μΈμ€λ₯Ό μ΄λ‘ μ μΌλ‘ μ λνκΈ° μν μ μ¬ λ³μ λͺ¨λΈ (Latent variable model)μ μ μνμλ€. μ΄ λ, νμ€ν¬ κ°μ μκ΄ κ΄κ³ νμ©μ μν΄μ μ μ¬λ³μ λͺ¨λΈμ κ³μΈ΅μ μΌλ‘ ꡬμ±νμλλ° μ΄λ λͺ¨λ νμ€ν¬μ μ 보λ₯Ό ν보νκΈ° μν 1) global latent variableκ³Ό κ°κ°μ ν μ€ν¬μ μ§μ€λ μ 보λ₯Ό ν보νκΈ° μν 2) task-specific latent variableλ‘ λμ΄μλ€. μ μλ λͺ¨λΈμ λν κΈ°μ‘΄μ neural processesκ° λ³΄μ¬μ£Όλ μ₯μ λ€(flexible adaptation, scalable inferece, uncertainty-aware prediction)μ μ¬μ ν κ°μ§κ³ μλ€.
Neural processes λ₯Ό λ€μ€ νμ€ν¬μ μ μ©νλ μ§κ΄μ μΈ λ°©λ²μ νμ€ν¬ κ°μ λ 립μ±μ κ°μ νκ³ ν¨μ κ³΅κ° $(y^1)^\mathcal{x}, ..., (y^T)^\mathcal{x}$ μ λν λ 립μ μΈ NPsλ₯Ό μ μνλ κ²μ΄λ€. Single-task neural processes (STNPs, Figure (a))λ‘ λͺ λͺ νμλ€. λ 립μ μΈ μ μ¬ λ³μ $v^1, v^2,...,v^T$μμ κ°κ°μ $v^t$λ νμ€ν¬ $f^t$λ₯Ό λνλΈλ€.
μ΄ λ, STNPλ κ° νμ€ν¬μ νΉνλ λ°μ΄ν° $C^t$ μ λν΄ μ‘°κ±΄νλ₯Ό ν΅ν΄ λΆμΆ©λΆν κ΄μ°° κ° (contexts)μ λ€λ£°μ μκ²λλ€. νμ§λ§ λ€μ€ νμ€ν¬μ κ²°ν© λΆν¬μμ μ‘΄μ¬νλ νμ€ν¬ μ¬μ΄μ 볡μ‘ν μκ΄ κ΄κ³λ₯Ό 무μνκ³ μ£Όλ³ λΆν¬μ λν λͺ¨λΈλ§λ§ κ°λ₯νλ€λ μ μμ λ¨μ μ΄ μ‘΄μ¬νλ€.
λ€λ₯Έ λμμΌλ‘λ μΆλ ₯ 곡κ°μ product space $\mathcal{Y}^{1:T} = \prod_{t\in\tau}\mathcal{Y}^t$ κ²°ν©νμ¬ ν¨μ κ³΅κ° $(\mathcal{Y}^{1:T})^\mathcal{X}$ μ λν νλμ NPλ₯Ό μ μνλ κ²μ΄λ€. μ΄ κ²½μ°μλ ν κ°μ μ μ¬ λ³μ $z$κ° μ 체 νμ€ν¬ $T$λ₯Ό 곡λμΌλ‘ ν¬ν¨νκ³ Joint-Task Neural Processes (JTNPs)λΌ λͺ λͺ νλ€.
μ΄ λ, JTNPλ μ μ¬ λ³μ $z$λ₯Ό ν΅ν΄ μ 체 νμ€ν¬ κ°μ μκ΄ μ 보λ₯Ό ν¬ν¨ν μ μλ€. νμ§λ§ λ¬Έμ λ νμ΅κ³Ό μΆλ‘ μμ μμ ν κ΄μ°°κ° contextμ target κ°μ νμμ μΌλ‘ νμλ‘ νλ€.
μμμ μΈκΈλ λ¬Έμ (μμ ν λ°μ΄ν°λ₯Ό νμλ‘ νλ)λ₯Ό 극볡νκΈ° μν΄μ μ μλ€μ κΈ°μ‘΄μ JTNPμ ννλ₯Ό μ¬κ³΅μν νμ¬ λ€μκ³Ό κ°μ΄ νννλ€: $h: \mathcal{X} \times \mathcal{\tau} \rightarrow \bigcup_{t\in\tau}\mathcal{Y}^t$. μ΄λ¬ν union formμ μ¬μ©ν¨μΌλ‘μ¨ μ΄λ€ λΆλΆμ μΈ μΆλ ₯ κ°μ setλ ${y_i^t}_{t\in\tau}$ λ€λ₯Έ μ λ ₯ ν¬μΈνΈ $(x_i, t),t\in\tau_i$μμ νλΉν κ°μ΄ λκΈ° λλ¬Έμ λΆμΆ©λΆν λ°μ΄ν°λ₯Ό ν¨κ³Όμ μΌλ‘ μ¬μ©ν μ μκ² λλ€.
Figure 1μ (c)μμ μ²λΌ κ³μΈ΅μ μΈ μ μ¬ λ³μ λͺ¨λΈμ μ μνλλ° μμ΄μ globalν μ μ¬λ³μ $z$ μ 체 contextμΈ $C$λ₯Ό μ¬μ©νμ¬ λ€μ€ νμ€ν¬μ κ±ΈμΉ κ³΅μ λ νλ₯ μ μΈ μμλ₯Ό ν보ν μ μκ² νμκ³ , κ° νμ€ν¬μ μ§μ€λ νλ₯ μ μμλ $C^t, z$λ₯Ό μ¬μ©νμ¬ νμ€ν¬μ μ§μ€λ (task-specific) μ μ¬ λ³μ $v^t$μ μν΄ λ€μκ³Ό κ°μ΄ ν보λκ² νμλ€.
μ΄ λ, $v^{1:T}:= (v^1,..,v^T)$μ΄κ³ $p(Y_D^t|x_D^t, v^t)$μ λν 쑰건μ μΈ λ 립μ±μ κ°μ νλ€.
μ 리λ₯Ό ν΄λ³΄λ©΄ μ°μ μ 체 $v^{1:T}$μ λ°λ₯Έ $z$λ₯Ό 곡μ ν¨μΌλ‘μ¨ ν΄λΉ λͺ¨λΈμ νμ€ν¬κ°μ μκ΄ μ 보λ₯Ό ν보νκΈ° μ΄λ₯Ό ν¨μ¨μ μΌλ‘ νμ©ν μ μκ² λλ€. κ·Έλ¦¬κ³ global μ μ¬ λ³μ $z$λ₯Ό ν΅ν΄ λΆμΆ©λΆν λ°μ΄ν°λ₯Ό μΆ©λΆν νμ©ν μ μκ² λλλ° μ΄λ μ΄ μ μ¬λ³μκ° 1) μ 체 context λ°μ΄ν° $\bigcup_{t\in\tau}C^t$μμ μΆλ‘ λλ©° 2) κ° ν μ€ν¬μ νΉνλ μ μ¬λ³μ $v^t$λ₯Ό μΆλ‘ ν λλ global μ μ¬ λ³μ $z$κ° μ‘°κ±΄νλκΈ° λλ¬Έμ μ΄λ $v^t$μ μ λλ κ°κ°μ ν¨μ $f^t$κ° νμ¬ νμ€ν¬μ $C^t$ λΏλ§ μλλΌ λ€λ₯Έ νμ€ν¬ $C^{t\prime}$μμμ κ΄μ°° κ°λ€λ λ²μ©μ μΌλ‘ νμ©ν μ μκ²λκΈ° λλ¬Έμ΄λ€.
νμ΅κ³Ό μΆλ‘ μμ μ μλ€μ encoder $q_\phi$μ decoder $p_\theta$λ₯Ό μ¬μ©νμ¬ conditional priorμ generative λͺ¨λΈμ μΆμ νμλ€. μΈκΈλ λ€μμ μμ $p(Y_D^{1:T}|X_D, C)= \int \int [\prod_{t=1}^T p(Y^{T}_D|X_D^T, v^t)p(v^t|z, C^t)]p(z|C)dv^{1:T}dz$μ intractableνκΈ°μ variational lower boundμ ν΅ν΄ νλ ¨μ μ§ννλ€.
λ Όλ¬Έμμλ κΈ°μ‘΄μ Attention Neural Process (ANP) λͺ¨λΈ ꡬ쑰λ₯Ό νμ©νμ¬ implementationμ μ§ννμκ³ λͺ¨λΈμ ꡬ쑰λ μμ Figure 2μ κ°λ€.
λ°μ΄ν°μ μ μλ€μ μ΄ μΈκ°μ λ°μ΄ν° μ (synthetic & real-world λ°μ΄ν°μ )μΌλ‘ MTNPλ₯Ό κ²μ¦νμκ³ λͺ¨λ μ€νμμ context λ°μ΄ν°λ λΆμΆ©λΆνκ² κ΅¬μ±ν ν μ€νμ μ§ννμλ€.
λ² μ΄μ€λΌμΈ λͺ¨λΈκ³Ό νμ΅ νκ²½ MTNP λͺ¨λΈμ λΉκ΅κ΅°μΌλ‘ μ μλ€μ΄ λ°©λ²λ‘ μμ μΈκΈν STNPμ JTNP λͺ¨λΈμ ANPλ₯Ό κΈ°λ°μΌλ‘ μ€κ³νμ¬ κ΅¬μ±νμλ€. JTNP λͺ¨λΈμ λΆμμ ν λ°μ΄ν°λ₯Ό μ²λ¦¬ν μ μκΈ°μ missing labelμ STNPλ₯Ό ν΅ν΄ imputationμ μ§ννμλ€. 1D regreesion taskμμλ μΆκ°μ μΌλ‘ λ κ°μ Multi-output Gaussian processes λ² μ΄μ€ λΌμΈ λͺ¨λΈ (CSM, MOSM)κ³Ό λ κ°μ λ©ν νμ΅ λ² μ΄μ€λΌμΈ λͺ¨λΈ (MAML, Reptile)κ³Ό μ±λ₯μ λΉκ΅νμλ€.
κ²μ¦ λ©νΈλ¦ Regression νμ€ν¬μμλ mean squared error (MSE)λ‘ μ±λ₯ μΈ‘μ μ νμκ³ image completion ν μ€ν¬μμλ pseudo-lbaelκ³Ό prediction κ°μ errorλ₯Ό MSEμ mIoUλ‘ μΈ‘μ νμλ€.
μ΄ μΈ κ°μ λ°μ΄ν° μ μΌλ‘ μ£Όμ μ€νκ³Ό ablation μ€νμ μ§ννμκ³ λνμ μΌλ‘ λ μ¨ λ°μ΄ν°λ₯Ό νμ©ν 1D μκ³μ΄ regression νμ€ν¬ κ²°κ³Όλ₯Ό κΈ°λ°μΌλ‘ μ€λͺ μ μ§ννκ² λ€.
ν΄λΉ μ€νμ λ°μ΄ν° μ μ 266 κ° λμμ 258μΌ κ°μ μμ§λ λ μ¨ κΈ°λ‘μΌλ‘ ꡬμ±λμ΄ μκ³ μ΄ 12κ°μ λ μ¨ κ΄λ ¨ attribute μ 보 (κ³ μ¨, μ μ¨, μ΅λ, κ΅¬λ¦ μ λ±)λ₯Ό κ°μ§κ³ μλ€. μμ figureμμ table 2λ μ λμ μ€νκ²°κ³Όλ₯Ό 보μ¬μ£Όκ³ μλλ° λ Όλ¬Έμμ μ μλ MTNP λͺ¨λΈμ΄ λ² μ΄μ€λΌμΈ λͺ¨λΈμ λΉν΄ μ νλμ λΆνμ€μ± μΆμ μΈ‘λ©΄μμ λμ μ±λ₯μ 보μ¬μ£Όλ κ²μ μμ μλ€. μ΄λ μ€μ λ°μ΄ν°μμ μ μλ λͺ¨λΈμ΄ ν¨κ³Όμ μΌλ‘ μΌλ°ν λ¨μ 보μ¬μ€λ€. λν, figure 4μμλ λΆμΆ©λΆν λ°μ΄ν° νκ²½μμ MTNP λͺ¨λΈμ΄ ν μ€ν¬ κ° μ§μ μ μ΄ (knowledge transfer)λ₯Ό ν¨κ³Όμ μ΄κ² μννλ κ²μ 보μ¬μ€λ€. figure (a)μμ κ΄μ°°κ°μ΄ μ μ μμ λΆνμ€μ±μ΄ λμμ§λ©΄μ λμ NLL μμΉλ₯Ό 보μ¬μ£Όμ§λ§ μ μ°¨μ μΌλ‘ μΆκ°μ μΈ κ΄μ°° κ° (Cloud) μ ν΅ν΄ μ§μ μ μ΄κ° ν¨κ³Όμ μΌλ‘ μ§νλμ΄ μμΈ‘ μ±λ₯μ΄ λμ¬μ£Όλ κ²μ λ³Ό μ μλ€.
μ μλ νλ₯ νλ‘μΈμ€ κΈ°λ°μ MTNPμ λΆμΆ©λΆν λ°μ΄ν° νκ²½μμ λ€μ€ ν¨μλ₯Ό ν¨κ³Όμ μΌλ‘ μΆλ‘ ν μ μκ² κ³ μλμκ³ λ€μνκ² λμμΈλ μ€νμ ν΅ν΄ λͺ¨λΈμ μ±λ₯μ μ μ¦νμλ€. Large scale λ°μ΄ν° μ νκ²½μμ μ±λ₯μ κ²μ¦μ΄ μ’μ μ°κ΅¬ λ°©ν₯μ΄ λ κ²μ΄λΌ μκ°λκ³ κ΄μ°°λμ§ μμ 곡κ°μ λν΄ μΌλ°νλ₯Ό μ§ννλ λ°©ν₯λ λͺ¨λΈμ λ²μ©μ±μ ν₯μ μν€λλ° λμμ΄ λ κ²μ΄λΌ μκ°λλ€.
Neural Processes (NPs)λ μλνλ€.
μ°κ΅¬μλλ€ μκ³ νμ ¨μ΅λλ€.
νμμ±
School of Computing
jayheo@kaist.ac.kr
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Kim, Donggyun, et al. "Multi-Task Processes." arXiv preprint arXiv:2110.14953 (2021).
Caruana, Rich. "Multitask learning." Machine learning 28.1 (1997): 41-75.
Fortuin, Vincent, Heiko Strathmann, and Gunnar RΓ€tsch. "Meta-learning mean functions for gaussian processes." arXiv preprint arXiv:1901.08098 (2019).
Peyman Bateni, Raghav Goyal, Vaden Masrani, Frank Wood, and Leonid Sigal. Improved few-shot visual classification. In CVPR, 2020.
Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. In ICML, 2017.
Marta Garnelo, Dan Rosenbaum, Christopher Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo Rezende, and SM Ali Eslami. Conditional neural processes. In ICML, 2018a.
Kiyosi ItΓ΄ et al. An Introduction to Probability Theory. Cambridge University Press, 1984.