AMP [Kor]
Xue Bin Peng et al. / AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control / Transactions on Graphics (Proc. ACM SIGGRAPH 2021)
English version of this article is NOT YET available.
1. Problem definition
์ค์ ์๋ช ์ฒด์ฒ๋ผ ์์ฐ์ค๋ฝ๊ฒ ์์ง์ด๋ ๋ฌผ๋ฆฌ์ ๋ชจ๋ธ์ ์ํ ๋ฐ ๊ฒ์ ๋ฑ์์ ํ์์ ์ธ ์์์ด๋ค. ์ด๋ฌํ ์ค๊ฐ๋๋ ์์ง์์ ๋ํ ์๊ตฌ๋ VR์ ๋ฑ์ฅ์ผ๋ก ๋์ฑ ์ปค์ก๋ค. ๋ํ, ์ด๋ฌํ ์์ฐ์ค๋ฌ์ด ์์ง์์ ์์ ๊ณผ ์๋์ง ํจ์จ์ฑ์ ๋ด์ฌํ๊ณ ์๊ธฐ์ ๋ก๋ด๊ณผ ์ฐ๊ด๋ ์ฃผ์ ๊ด์ฌ์ฌ์ด๋ค. ์ด๋ฌํ ์์ฐ์ค๋ฌ์ด ์์ง์์ ์์๋ ํ๋ถํ ๋ฐ๋ฉด, ๊ทธ ํน์ฑ์ ์ดํดํ๊ณ ๋ฐํ๋ด๋ ๊ฒ์ ๋ํดํ๋ฉฐ ์ด๋ฅผ ์ปจํธ๋กค๋ฌ์ ๋ณต์ ํ๋ ๊ฒ์ ๋์ฑ ์ด๋ ต๋ค.
์ค์ ๋ก PPO ๋ฑ ๋ชจ๋ฐฉํ์ต์ด ์์ด ์์ฑ๋ ๊ฑธ์์ ๋ณด๋ฉด, ๋ฌด๋ฆ์ ๊ตฝํ๊ณ ๊ฑท๊ฑฐ๋ ํ์ ๋ถ์์ฐ์ค๋ฌ์ด ํํ๋ก ํ๋ ๋ฑ "์ฃผ์ด์ง ๋ชฉํ"๋ง ์ ์ํํ๋, ์์ ์ฑ๊ณผ ๊ธฐ๋ฅ์ฑ ๋ฑ์ ๊ณ ๋ คํ๋ฉด ๋งค์ฐ ๋ถ์ ํฉํ ํ๋์ ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ์ฌ์๋ ์๋ง ๋งค์ฐ ๋ณต์กํ ๋ฆฌ์๋์ ์ค๊ณ๊ฐ ํ์ํ ๊ฒ์ด๋, ์ด๋ฏธ ์ด๋ฌํ ์ฌํญ๋ค์ด ๊ณ ๋ ค๋์ด์๋ ์ค์ ์๋ช ์ฒด์ ํ๋๊ณผ ๋น์ทํ ํ๋์ ์ฅ๋ คํจ์ผ๋ก์จ ํด๊ฒฐ ๊ฐ๋ฅํ๋ค. ์ด๊ฒ์ด ๋ก๋ณดํฑ์ค์์ ๋ชจ๋ฐฉํ์ต์ด ๊ฐ๊ด๋ฐ๊ธฐ ์์ํ ์ด์ ์ด๋ค.
๊ทธ๋ฌ๋, ๋จ์ํ ๋์์ ๋ฐ๋ผํ๋๋ก ํ๋ ๊ฒ์ ๊ฒฐ๊ตญ ์์ด์ ํธ๊ฐ ํ์ต๋ ํ ๊ฐ์ง ๋์ ์ด์ธ์๋ ๋ฐฐ์ธ ์ ์๋๋ก ๋ง๋ ๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ฌ์ฉ์๊ฐ high-level task objective๋ฅผ ์ค์ ํ ์ ์์ผ๋ฉฐ, ๊ทธ์ ๋ฐ๋ฅธ ์์ง์์ low-level style์ ์ ๋๋์ง ์์ ํํ๋ก ์ ๊ณต๋๋ ๋ชจ์ ์บก์ณ ์์๋ค๋ก๋ถํฐ ์์ฑ๋๋ ์์คํ ์ ๊ฐ๋ฐ์ ๋ชฉํ๋ก ํ๋ค.
2. Motivation
Related work
๋๋ฌผ์ ์์ฐ์ค๋ฌ์ด ์์ง์์ ์์ ์ ์ด๊ณ ํจ์จ์ ์ด๋ฉฐ, ๋ณด๊ธฐ์ ์์ฐ์ค๋ฝ๋ค. ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์์ ๊ตฌํํ๋ ๊ฒ์ ๋ก๋ณดํฑ์ค ๋ฐ ๊ฒ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ฐ๊ตฌ๋์ด์๋ค. ๋ณธ ์ฑํฐ์์๋ ๋ํ์ ์ธ ๋ฐฉ๋ฒ๋ก ๋ค ๊ฐ์ง๋ฅผ ์๊ฐํ๊ณ ์ ํ๋ค.
Kinematic Methods: Kinematic method์ ๊ธฐ๋ฐํ ์ฐ๊ตฌ๋ค์ ๋ชจ์ ์บก์ณ ๋ฑ์ motion clip์ ์ฌ์ฉํ์ฌ ์บ๋ฆญํฐ์ ์์ง์์ ์์ฑํ๋ค. ๋ชจ์ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ํฉ์ ๋ฐ๋ฅธ ์ ์ ํ ๋ชจ์ ํด๋ฆฝ์ ์คํํ๋ ์ปจํธ๋กค๋ฌ๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๋ํ์ ์ด๋ฉฐ, ์ ํ ์ฐ๊ตฌ๋ค์์ ์ด๋ฅผ ์ํ์ฌ Gaussian process๋ neural network ๋ฑ์ generator๋ค์ด ์ฌ์ฉ๋๋ค. ์ถฉ๋ถํ ์์ ์ง ์ข์ ๋ฐ์ดํฐ๊ฐ ์ ๊ณต๋ ๋, kinematic method๋ ๋ค์ํ ๋ณต์กํ ์์ง์์ ์ค์ ์ฒ๋ผ ๊ตฌํํ ์ ์์์ด ๋ง์ ์ฐ๊ตฌ์์ ๋ณด์ฌ์ก๋ค. ๊ทธ๋ฌ๋, ์ค๋ก์ง ์ค์ dataset์๋ง ์์กดํ๋ ๊ฒ์ด ์ด ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ์ด๋ค. ์๋ก์ด ์ํฉ์ด ์ฃผ์ด์ก์ ๋ kinematic method๋ ์ฌ์ฉ์ด ์ด๋ ค์ฐ๋ฉฐ, ๋ณต์กํ task์ ํ๊ฒฝ์ ๋ํด ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฒ์ ์ฝ์ง ์๋ค.
Physics-Based Methods: Physics-based mothod๋ ์ผ๋ฐ์ ์ผ๋ก ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ํ์ฉํ๊ฑฐ๋ ์ด๋๋ฐฉ์ ์ค์ ํ์ฉํ์ฌ ์บ๋ฆญํฐ์ ์์ง์์ ์์ฑํ๋ค. ์ด ๋ฐฉ๋ฒ๋ก ์์ ๊ฒฝ๋ก ์ต์ ํ ๋ฐ ๊ฐํํ์ต๊ณผ ๊ฐ์ ์ต์ ํ ์ด๋ก ๋ค์ด ์ฃผ๋ก objective function ์ต์ ํ๋ฅผ ํตํด ์บ๋ฆญํฐ์ ์์ง์์ ์์ฑํ๋ ๋ฐ์ ์ฌ์ฉ๋๋ค. ๊ทธ๋ฌ๋, ์์ฐ์ค๋ฌ์ด ์์ง์์ ์ ๋ํ๋ objective function์ ๋์์ธํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ด ์ผ์ด๋ค. ๋์นญ์ฑ, ์์ ์ฑ ํน์ ์๋์ง ์๋ชจ ์ต์ ํ์ ๊ฐ์ ์์๋ฅผ ์ต์ ํํ๊ณ ์๋ช ์ฒด์ ๊ตฌ์กฐ์ ๋น์ทํ actuator ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ฑ์ ์ฐ๊ตฌ๋ค์ด ์์ด์์ผ๋, ์์ฐ์ค๋ฌ์ด ์์ง์์ ์๋ฒฝํ ์์ฑํ๋ ๊ฒ์ ์ฑ๊ณตํ์ง ๋ชปํ๋ค.
Imitation Learning: ์์ ์ธ๊ธ๋ objective function ์ค๊ณ์ ์ด๋ ค์์ผ๋ก ์ธํ์ฌ ์์ฐ์ค๋ฌ์ด ์์ง์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ imitation learning์ด ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๊ณ ์๋ค. ๋์ ์์ฑ์์ imitation objective๋ ์ฃผ๋ก ์์ฑ๋ ๋์๊ณผ ์ค์ ๋์ ๋ฐ์ดํฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ด ๊ณผ์ ์์ ์์ฑ๋ ๋ชจ์ ๊ณผ ์ค์ ๋ชจ์ ๋ฐ์ดํฐ์ ๋๊ธฐํ๋ฅผ ์ํ์ฌ ํ์ด์ฆ ์ ๋ณด๋ฅผ ์ถ๊ฐ input data๋ก ์ฌ์ฉํ๊ธฐ๋ ํ๋ค. ๊ทธ๋ฌ๋ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ์ฌ๋ฌ๊ฐ์ง ๋์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋๋ฐ ์ด๋ ค์์ด ์์ผ๋ฉฐ, ํนํ ํ์ด์ฆ ์ ๋ณด๊ฐ ์์ ๋์๋ ์ฌ๋ฌ ๋์๊ฐ์ ๋๊ธฐํ๊ฐ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ ์ ์๋ค. ๋ํ, ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๋์ ์ถ์ ์ต์ ํ์์ pose error metric๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ ์ฃผ๋ก ์ฌ๋์ด ์ง์ ๋์์ธํ๋ฉฐ, ์บ๋ฆญํฐ์๊ฒ ์ฌ๋ฌ ๋์์ ํ์ต์ํฌ ๋ ๋ชจ๋ ๋์์ ์ ์ฉ ๊ฐ๋ฅํ metric์ ์ค๊ณ๋ ์ฝ์ง ์๋ค. Adversarial imitation learning์ ๋ค์ํ ๋์์ ์ ์ํ๋๋ฐ, ์ฌ๋์ด ์ง์ ์ค๊ณํ์ง ์๊ณ ๋ adversarial learning ๊ณผ์ ์ ํตํ์ฌ ์ฃผ์ด์ง ๋์์ ํน์ฑ์ ํ์ต์ํฌ ์ ์๋ค. ๊ทธ๋ฌ๋, adversarial learning ์๊ณ ๋ฆฌ์ฆ์ ๊ต์ฅํ unstableํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์๋ค. ์ ์์ ์ง๋ ์ฐ๊ตฌ๋ information bottleneck์ ํตํ์ฌ discriminator์ ๋น ๋ฅธ ํ์ต์ ์ ํํจ์ผ๋ก์จ ์์ฐ์ค๋ฌ์ด ๋ฐ์ดํฐ ์์ฑ์ ์ฑ๊ณตํ์๋ค. ๊ทธ๋ฌ๋, ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ฌ์ ํ ๋๊ธฐํ๋ฅผ ์ํด ํ์ด์ฆ ์ ๋ณด๋ฅผ ์๊ตฌํ์์ผ๋ฉฐ, ๋ฐ๋ผ์ ์ ์ฑ ์ ์ฌ๋ฌ ์ค์ ๋ชจ์ ์ ๋ณด๋ฅผ ํ์ต์ํฌ ์ ์์๋ค.
Latent Space Models: Latent space model ๋ํ motion prior์ ํํ๋ก ์๋ํ ์ ์์ผ๋ฉฐ, ์ด๋ฌํ ๋ชจ๋ธ๋ค์ latent representation ์ ๋ณด์์ ํน์ ํ control์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ค. latent representation์ด ์ฐธ์กฐ๋๋ ๋ชจ์ ๋ฐ์ดํฐ์ ํ๋์ encodeํ๋๋ก ํ์ต์ํด์ผ๋ก์จ ์์ฐ์ค๋ฌ์ด ๋์์ ์์ฑ์ด ๊ฐ๋ฅํ๋ค. ๋ํ, latent representation์์๋ latent space model์ low-level controller๋ก ์ฌ์ฉํ๊ณ high-level controller๋ latent space๋ฅผ ํตํ์ฌ ๋ฐ๋ก ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ํตํ์ฌ ์ปจํธ๋กค์ ์ฐ์ ์์ ์ค์ ์ด ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฌ๋ ์์ฑ๋๋ ๋ชจ์ ์ latent representation์ ํตํด ํจ์ถ์ ์ผ๋ก ์ค์ ์์ง์์ ์ฐธ๊ณ ํ๊ธฐ์, high-level control์ ์ํฅ์ผ๋ก ์์ฐ์ค๋ฝ์ง ์์ ์์ง์์ด ์์ฑ๋ ์ ์๋ค.
Idea
์ ํ๋ ์ฐ๊ตฌ๋ค์์ ์ค๋ช ๋ ๊ฒ๊ณผ ๊ฐ์ด, ์ด์ ์ ์ฐ๊ตฌ๋ค์ ์์ฐ์ค๋ฌ์ด ์์ง์์ ์์ฑ์ ์ด๋ ค์์ด ์๊ฑฐ๋ ํ ๊ฐ์ง ๋์๋ง ํ์ต์ ์ฐธ๊ณ ๊ฐ ๊ฐ๋ฅํ๋ค๋ ๋ฌธ์ ์ ์ด ์์๋ค. ๋ณธ ์ฐ๊ตฌ์ ์๋ฆฌ๋ ํ์ต๋ ์์ด์ ํธ๊ฐ ํ๋ ํ๋์ด "์ค์ ์๋ช ์ฒด์ ํ๋"์ ๋ฒ์ฃผ์ ํฌํจ๋๋๋ก ํ๋ ๊ฒ์ด๋ค. ์ฆ, ์ ์ฑ ์์ ์์ฑ๋ ํ๋์ ํ๋ฅ ๋ถํฌ๊ฐ ์ค์ ์๋ช ์ฒด์ ํ๋ฅ ๋ถํฌ์ ์ ์ฌํ๋๋ก ๋ง๋๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ํต์ฌ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ด๋ GAN์ ๋ชฉํ์ ๋งค์ฐ ์ ์ฌํ๋ฉฐ, ์ค์ ๋ก ์๊ณ ๋ฆฌ์ฆ์ ์ดํดํ ๋์๋ "action" domain์์์ GAN์ผ๋ก ์ดํดํ๋ฉด ํธํ ๊ฒ์ด๋ค. ์ด๋ฌํ ๋ชฉํ๋ style reward ์ค๊ณ๋ฅผ ํตํ์ฌ ์ฑ์ทจํ๊ฒ ๋๋ฉฐ, style reward์ ํ๋จ ๊ทผ๊ฑฐ๋ distribution์ ์ ์ฌ์ฑ ํ๋จ, ์ฆ discriminator๋ฅผ ํตํ์ฌ ์ด๋ฃจ์ด์ง๋ค. ์ด ์ฐ๊ตฌ์์ ์ ์๋ Generative Adversarial Learning์ ๊ธฐ๋ฐ์ผ๋ก ์ฃผ์ด์ง task์ ๋ฐ๋ผ ์ค์ ๋์์ ์ฐธ๊ณ ํ ์ ์๋ ์์ด์ ํธ์ ์์ฑ์ ๋ชฉํ๋ก ํ๋ค. ์ด๋ฌํ ๋ชฉํ๋ฅผ ์ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ task reward์ ํจ๊ป ์๋ฎฌ๋ ์ด์ ๋ชจ์ ๊ณผ ์ค์ ๋ชจ์ ์ ์ ์ฌ์ฑ์ ๋ํ style reward๋ฅผ ํฌํจํ๊ฒ ๋๋ค.
๋ค์ ์ฅ์์ style reward์ ๋ํ ์์ธํ ์ค๋ช ๋ฐ ์ ์ฒด ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์ค๋ช ํ ๊ฒ์ด๋ค.
3. Method
Backgroud
๋ก๋ณดํฑ์ค ์๋ฎฌ๋ ์ด์ ์ ๊ดํ์ฌ
๋ก๋ด ๋ถ์ผ์ ์๋ฎฌ๋ ์ด์ ์ ๊ธฐ๋ณธ์ ์ผ๋ก Agent๊ฐ ์ฃผ์ด์ง ํ๊ฒฝ์์ Goal(ex. ๊ฑท๊ธฐ)์ ์ ์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ํ๊ฒฝ์ ๋ฌผ๋ฆฌ ์์ง ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ฌ๊ธฐ์์ Agent๊ฐ ์ํํ๊ฒ ๋๋ action์ "๋ชจํฐ์ ๋ค์ด๊ฐ๋ ์ ๋ ฅ(์ ๋ฅ, ๊ฐํน ํ ํฌ๋ก ํํ)"์ด๋ค.
์ฆ, ๋ก๋ด์ ์๋ฎฌ๋ ์ด์ ์ด๋ ๋ก๋ด(์ฃผ์ด์ง ๋ชจํฐ ์ ๋ฅ์ ๋ํ ๊ด์ ์์ง์ ์ํ)๊ณผ ํ๊ฒฝ(๋ฌผ๋ฆฌ์ ์ถฉ๋๊ณผ ์ค๋ ฅ ๋ฑ)์ ์ด๋ฏธ ์ ํด์ ธ ์๋ ์ํ์์, "๊ด์ธก๋ ํ์ฌ ์ํ(observed state)"๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ด์ ์ปจํธ๋กค๋ฌ๊ฐ ๊ฐ ๋ชจํฐ์ "์ด๋ค ์ถ๋ ฅ(action)"์ ๋ด๋ณด๋ด์ผ ๋ก๋ด์ด ํ๊ฒฝ์์ ๋ชฉํ๋ฅผ ์ํํ ์ ์์์ง๋ฅผ ์ค๊ณํ๋ ๊ณผ์ ์ด๋ค.
๋ชฉํ ๊ธฐ๋ฐ ๊ฐํํ์ต
๋ชฉํ ๊ธฐ๋ฐ ๊ฐํํ์ต์ ์ค๊ณ๋ reward function์ ๊ธฐ๋ฐ์ผ๋ก, reward๋ฅผ ์ต๋๋ก ๋ง๋๋ agent๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๊ทธ ๋ชฉํ์ด๋ค. (๊ธฐ๋ณธ์ ์ธ ๊ฐํํ์ต์ ์ฉ์ด๋ค์ ์ค๋ช ์ ์๋ตํ๋ค.)

๊ฒฐ๊ณผ์ ์ผ๋ก, agent๋ ์ ์์์ผ๋ก ์ ์๋ optimization objective๋ฅผ ์ต๋์น๋ก ํ๋ policy๋ฅผ ํ์ตํ๊ฒ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ PPO ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก agent๋ฅผ ํ์ต์ํจ๋ค.
Generative Adversarial Imitation Learining
์ด ์ฐ๊ตฌ์ ํต์ฌ์ GAIL ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ motion prior์ ์์ฑ์ด๋ค.
GAIL ์๊ณ ๋ฆฌ์ฆ์ objective๋ ๋ค์๊ณผ ๊ฐ๋ค.

๋ํ, reward๋ ์๋ ์์์ผ๋ก ์ ์๋๋ค.

(๋ฐํ์ด ๋๋ ์๊ณ ๋ฆฌ์ฆ์ GAN๊ณผ ๊ฐ์ผ๋ฉฐ, data๊ฐ ์๋ state-action์ ๋์์ผ๋ก ํ๋ค) ์์ ๊ฐ์ optimization์ ํตํ์ฌ agent๋ ์ค์ ๋ชจ์ ์บก์ณ ๋ฐ์ดํฐ์ distribution๊ณผ ์ต๋ํ ๊ตฌ๋ถ์ด ๋ถ๊ฐ๋ฅํ action์ ์์ฑํ๊ฒ ๋๋ค.
Notations
๊ธฐ๋ณธ Notations : ๋ชฉํ : ์ํ(state) : ํ๋(action) : ์ ์ฑ (policy)
๋ ผ๋ฌธ์ Notatations : ์ค์ ์ฌ๋์ ๋ชจ์ ํด๋ฆฝ ๋ฐ์ดํฐ ๋๋ฉ์ธ : ์ค์ ์ฌ๋ ํ๋์ probability distribution : ์ ์ฑ ์ ํตํด ์์ฑ๋ probability distribution
System

์์ ๊ทธ๋ฆผ์ ๋ณธ ๋ ผ๋ฌธ์ ์ ์ฒด ์์คํ ๊ตฌ์กฐ๋์ด๋ค. ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ ์ค๋ช ํ ๊ฒ์ด๋ค. ์์ ๋งํ ๊ฒ๊ณผ ๊ฐ์ด, ๋ณธ ๋ ผ๋ฌธ์ ์ ์ฒด ๊ตฌ์กฐ๋ PPO agent๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด ์ฃผ์ ๋ด์ฉ์ด๋ค. ์ agent๋ ๋ค์๊ณผ ๊ฐ์ reward function๋ฅผ ์ต๋ํ ํ ์ ์๋๋ก ํ์ต๋๋ค.

์ ์์์์ ๋ high-level์ ๋ชฉํ(ex. ํน์ ์ง์ ํฅํ๊ธฐ, ๊ณต ๋๋ฆฌ๋ธ ๋ฑ)์ ๋ํ reward์ด๋ฉฐ, ์ด๋ ์ง์ ๋์์ธ๋ ๊ฐ๋จํ ์์์ด ๋ ๊ฒ์ด๋ค. ๋ฐ๋ฉด์, ๋ agent๊ฐ ์์ฑํ๋ ์์ง์์ ๋ํ style-reward์ด๋ค. Style reward๋ฅผ ํตํ์ฌ agent๋ ์ต๋ํ ์ฃผ์ด์ง motion data์ ์ ์ฌํ ๋์์ ์์ฑํ๋๋ก ํ์ต๋๋ค. ์ด style reward์ ๊ฒฐ์ ์ด ๋ณธ ์ฐ๊ตฌ์ ํต์ฌ ๋ด์ฉ์ด ๋ ๊ฒ์ด๋ค. ์ ๋ ๊ฐ reward์ ๋ํ ๊ฐ์ค์น์ด๋ค. ๋ณธ ์ฐ๊ตฌ์์ ๋ชจ๋ ๋ด์ฉ์ ๋ ๊ฐ์ค์น ๋ชจ๋ 0.5๋ก ์ค์ ํ์ฌ ์งํ๋์๋ค.
Style reward
์์ ๋ฐํ๋ฏ, style reward๋ GAIL ์๊ณ ๋ฆฌ์ฆ์์ ํ๋จ๋๋ค. ๊ทธ๋ฌ๋ ๋ชจ์ ํด๋ฆฝ๋ค์ action์ด ์๋ state์ ํํ๋ก ์ ๊ณต๋๋ค. ๋ฐ๋ผ์ action์ด ์๋ state transitions์ ๊ธฐ๋ฐํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ด ์ต์ ํ๋๋ฉฐ, ์ด๋ GAIL objective๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ณ๊ฒฝํ๊ฒ ๋๋ค.

์ด์ ๋ํด์, ๋ณธ ๋ ผ๋ฌธ์์๋ ์ ํ ์ฐ๊ตฌ์ ๊ธฐ๋ฐํ์ฌ vanishing gradient์ ๋ฐฉ์ง๋ฅผ ์ํ์ฌ cross-entropy ๊ฐ ์๋ least-squares loss์ ๊ธฐ๋ฐํ์ฌ discriminator๋ฅผ ์ต์ ํํ๋ค.

GAN์ผ๋ก ์์ฑ๋ dyanmics์ instability์ ์ฃผ์ ์์ธ ์ค ํ๋๋ discriminator์์์ function approximation error์ ๊ธฐ์ธํ๋ค. ์ด๋ฌํ ํ์์ ์ํ๋ฅผ ์ํ์ฌ nonzero gradient์ ํ๋ํฐ๋ฅผ ์ฃผ๋ ๋ฐฉ์์ ํ์ฉํ ์ ์์ผ๋ฉฐ, gradient penalty๋ฅผ ์ ์ฉํ ์ต์ข ์ ์ธ objective๋ ๋ค์๊ณผ ๊ฐ๋ค.

๊ทธ๋ฆฌ๊ณ , style reward๋ ์์ ํ์ฑ๋ objective๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ์ ํด์ง๋ค.

์ reward๊ฐ ์์ ์ ์๋ style-reward๋ก ์ฌ์ฉ๋๋ค.
Discriminator observations
์์ discriminator๊ฐ state transtion์ ๊ธฐ๋ฐํจ์ ์ค๋ช ํ์๋ค. ๊ทธ๋ ๋ค๋ฉด, discriminator์ ๊ด์ฐฐ ๋์์ด ๋ feature๋ค์ด ํ์ํ๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ์ feature๋ค์ ์งํฉ์ input(observed states)์ผ๋ก ์ฌ์ฉํ์๋ค.
Global coordinate์์ ์บ๋ฆญํฐ์ ์์ (pelvis)์ ์ ์๋ ๋ฐ ํ์ ์๋
๊ฐ joint์ local rotation / velocity
๊ฐ end-effector์ local coordinate
Training
๋ณธ ์ฐ๊ตฌ์ actor(generator), critic, ๊ทธ๋ฆฌ๊ณ discriminator๋ ๋ชจ๋ 2-layer 1024 and 512 ReLU ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๊ธฐ๋ฐํ๋ค.
์ ์ฒด ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.

4. Experiment & Result
Experimental setup
Dataset
Descriminator๊ฐ ๋น๊ตํ๊ฒ ๋ ์ค์ motion data๋ฅผ ์ํ์ฌ ์ฌ๋ฌ ์ฌ๋์ motion capture data๊ฐ ์ฌ์ฉ๋์๋ค. ๋ณต์กํ task์ ๊ฒฝ์ฐ, ํ๋์ task์ ์ฌ๋ฌ motion data๊ฐ ํจ๊ป ์ฌ์ฉ๋๊ธฐ๋ ํ์๋ค.
Baselines
๋น๊ต์๋ ์ ์์ ์ด์ ์ฐ๊ตฌ์ธ Deepmimic ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์์ฑ๋ ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ๋์๋ค. (ํด๋น ์ฐ๊ตฌ๊ฐ state-of-the-art ์ด์๊ธฐ ๋๋ฌธ)
Training setup
์คํ๋ high-level task๋ค์ ๋ค์๊ณผ ๊ฐ๋ค.
Target heading: ์บ๋ฆญํฐ๊ฐ ์ ํด์ง heading direction์ ํฅํ์ฌ target speed์ ๋ง์ถฐ ์์ง์ธ๋ค.
Target location: ์บ๋ฆญํฐ๊ฐ ํน์ target location์ ํฅํด ์์ง์ธ๋ค.
Dribbling: ๋ณต์กํ task์ ๋ํ ํ๊ฐ๋ฅผ ์ํ์ฌ, ์บ๋ฆญํฐ๋ ์ถ๊ตฌ๊ณต์ target location์ผ๋ก ์ฎ๊ธฐ๋ task๋ฅผ ์ํํ๋ค.
Strike: ๋ค์ํ ๋ชจ์ ์ ๋ณด๋ฅผ ํผํฉํ ์ ์๋์ง ํ๊ฐํ๊ธฐ ์ํ์ฌ, ์บ๋ฆญํฐ๊ฐ target object๋ฅผ ์ ํด์ง end-effector๋ก ํ๊ฒฉํ๋ task๋ฅผ ์ํํ๋ค.
Obstacles: ๋ณต์กํ ํ๊ฒฝ์์ ์๊ฐ์ ์ธ์ ์ ๋ณด์ interaction์ด ๊ฐ๋ฅํ์ง ํ๊ฐํ๊ธฐ ์ํ์ฌ, ์บ๋ฆญํฐ๊ฐ ์ฅ์ ๋ฌผ๋ก ์ฑ์์ง ์งํ์ ๊ฐ๋ก์ง๋ฅด๋ task๋ฅผ ์ํํ๋ค.
Evaluation metric
Task์ ๋ํ ํ๊ฐ๋ก๋ task return ๊ฐ์ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ฃผ์ด์ง ๋์๊ณผ์ ์ ์ฌ์ฑ ๋น๊ต์๋ average pose error๊ฐ ๊ณ์ฐ๋์๋ค. ํน์ time step์์์ pose error์ ๊ณ์ฐ์์ ๋ค์๊ณผ ๊ฐ๋ค.

Result

์ ์๊ฐ ๊ณต๊ฐํ ๋์์์์ ํ์ธํ ์ ์๋ฏ, ์ ์๋ ๋ฐฉ๋ฒ๋ค๋ก ํ๋ จ๋ agent๋ ๋ณต์กํ ํ๊ฒฝ๊ณผ ๋ค์ํ task๋ค์ ๋ํ์ฌ ๊ต์ฅํ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ ์์ฑ๋ ์์ง์ ๋ํ ์ฌ๋์ฒ๋ผ ์์ฐ์ค๋ฌ์์ ํ์ธํ ์ ์๋ค.
์ ์๋ task๋ค์ ๋ํ return๊ฐ์ ๋ค์๊ณผ ๊ฐ์ผ๋ฉฐ, ์ค์ ์คํ์์ ๋ฌธ์ ์์ด ์ฌ๋ฌ ์์ง์์ ์กฐํฉํ์ฌ task๋ฅผ ๋ฌ์ฑํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค.

๊ธฐ์กด์ state-of-the-art์ ๋น๊ตํ์์ ๋, ๋ค์์ ํ์์ ๋ณผ ์ ์๋ฏ ๋์์ ์ฌํ์์๋ ์ ๋์ ์ผ๋ก ์กฐ๊ธ ๋ฎ์ ์์น๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฌ๋ ์ ๋์ ์ธ ์์น๋ก ๋ณด์์ ๋ ๋ถ์กฑํจ์ด ์๋ ์์ค์ด๋ฉฐ, ํ๋์ motion data๋ง์ ์ฌ์ฉํ๋ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ฌ ์ด ์ฐ๊ตฌ์์๋ ์์ด์ ํธ๊ฐ task์ ๋ฐ๋ผ ์ฌ๋ฌ motion data ์ค์ ํ์ํ ๋์์ ์ํํ๋ค.

5. Conclusion
๋ณธ ๋ ผ๋ฌธ์ ํ์ฌ locomotion simulation์ state-of-the-art์ด๋ค.
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ๋ agent๊ฐ ์ฌ๋ฌ ๋์ ๋ฐ์ดํฐ๋ค์ ํ๋ฒ์ ํ์ตํ๋ฉฐ, ์ฃผ์ด์ง ์ํฉ์ ๋ง์ถฐ ํ์ํ motion์ ์์ฑํ๋ค๋ ๊ฒ์ด๋ค.
๋์์์์ ๋ณผ ์ ์๋ฏ, strike task์์ agent๋ ์์ฐ์ค๋ฝ๊ฒ object๋ก ๊ฑธ์ด๊ฐ ์ฃผ๋จน์ ๋ป์ด object๋ฅผ ํ๊ฒฉํ๋ค. ์ด ๋์์ ํ์ต์ ์ฌ์ฉ๋ ๊ฒ์ ์ค์ง ์ค์ ์ฌ๋์ ๊ฑท๋ ๋์๊ณผ ์ฃผ๋จน์ ๋ป๋ ๋์ ๋ฐ์ดํฐ ๋ฟ์ด๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, ์ฅ์ ๋ฌผ ์งํ์์์ ๋ฌ๋ฆฌ๊ธฐ ๋ฑ ๋๋ผ์ธ ์ ๋๋ก ๋ณต์กํ ๊ณผ์ ์ ์ํํ๋ ๊ฒ์ ๋นํ์ฌ ํ์ต์ ํ์๋ก ํ๋ data๋ ๋งค์ฐ ๋จ์ํ๋ฉฐ ์ฝ๊ฒ ์ป์ ์ ์๋ค. ๋ฅ๋ฌ๋์ ๊ฐ์ฅ ํฐ ์ด๋ ค์ ์ค ํ๋๊ฐ ํ์ต์ ์ํ ์ถฉ๋ถํ ๋ฐ์ดํฐ์ ํ๋์ด๋ผ๋ ์ฌ์ค์ ๊ฐ์ํ ๋, ์ด๋ฌํ ํน์ฑ์ ๊ต์ฅํ ์ฅ์ ์ผ๋ก ์๊ฐํ ์ ์๋ค.
์ด ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ ๋ก๋ด, ๊ฒ์, ์๋๋ฉ์ด์ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ํฐ ์ง๋ณด๋ฅผ ๊ฐ์ ธ๋ค ์ค ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
Take home message (์ค๋์ ๊ตํ)
๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด์ ์๊ณ ๋ฆฌ์ฆ๋ค๋ง์ ์ ์ ํ ์กฐํฉํ์ฌ ์ต๊ณ ์ ์ฑ๊ณผ๋ฅผ ์ป์๋ค.
์๋ก์ด ์ฐ๊ตฌ๋ค์ ๋ํ ๋์์๋ ๊ณต๋ถ์ ์๋๊ฐ ์ค์ํ๋ค.
Author / Reviewer information
You don't need to provide the reviewer information at the draft submission stage.
Author
์์ฑ๋น (Seongbin An)
KAIST Robotics Program
I am really new to this field. Thanks in advance for any advice.
sbin@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Peng, Xue Bin, et al. "AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control." arXiv preprint arXiv:2104.02180 (2021).
Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).
Ho, Jonathan, and Stefano Ermon. "Generative adversarial imitation learning." Advances in neural information processing systems 29 (2016): 4565-4573.
Peng, Xue Bin, et al. "Deepmimic: Example-guided deep reinforcement learning of physics-based character skills." ACM Transactions on Graphics (TOG) 37.4 (2018): 1-14.
Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems 27 (2014).
Last updated
Was this helpful?