Separation of hand motion and pose [kor]
Liu et al. / Decoupled Representation Learning for Skeleton-Based Gesture Recognition / CVPR 2020
1. Problem definition
์ ์ ์ ์์ ์ ํํ๊ฒ ์ธ์ํ๋ ค๋ ์ฐ๊ตฌ๋ ์์ ์ด์ฉํ ์กฐ์๋ฐฉ๋ฒ์ด ์ฃผ๋ ํฐ ์ด์ ๋๋ฌธ์ ์ด์ ๋ถํฐ ๋ง์ ์ฐ๊ตฌ๊ฐ ์ด๋ฌ์ด์ ธ์๋ค. ๊ทธ ์ค์ ๋ํ์ ์ธ ๋ ๊ฐ์ง๊ฐ ์์ ํฌ์ฆ(pose)๋ฅผ ์ธ์ํ๋ hand pose recognition/estimation๊ณผ ์ ๋ชจ์์ ์๋ฏธ๋ฅผ ์ธ์ํ๋ ค ํ๋ hand gesture recognition์ด๋ค.
hand pose estimation์ ์์ RGB ํน์ RGB-D ์ด๋ฏธ์ง๋ฅผ ๋ฐ์์ ๊ทธ feature๋ฅผ ๋ถ์ํด ์์ joint์ด ์ด๋ค ๋ชจ์์ ํ๊ณ ์๋์ง๋ฅผ ์์๋ด๊ณ ์ ํ๋ task ์ด๊ณ ๋๋ถ๋ถ์ด ๋จ์ผํ ์ ์ด๋ฏธ์ง๋ฅผ ์ธํ์ผ๋ก ๋ฐ๋๋ค. ํ์ง๋ง, hand gesture recognition ๊ฐ์ ๊ฒฝ์ฐ, ๊ทธ ์ ์ค์ฒ๊ฐ ์ ์งํด์๋ ์ ์ค์ฒ -์ซ์๋ฅผ ๋ํ๋ด๋ ์ ๋ชจ์ ๋ฑ- ์ด ์๋ ์ด์ ์ฐ๊ตฌ์ ๊ด์ฌ์ฌ๋ ์ ์ค์ฒ๊ฐ ์์ํด์ ๋๋๊ธฐ๊น์ง์ ์ผ๋ จ์ ์ ๋์์ ๋ถ์ํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค. ๊ทธ๋ ๊ธฐ์ ์ด๋ฌํ hand gesture recognition ๋ชจ๋ธ์ ํ๋์ ์ด๋ฏธ์ง๊ฐ ์๋ ๋ณต์์ ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ์ธํ์ผ๋ก ๋ฐ์์ ๊ทธ ์ํ์ค๋ค์ด ์ด๋ค ์๋ฏธ๋ฅผ ๋ํ๋ด๋ ์ ์ค์ฒ์ธ์ง๋ฅผ ์ถ๋ ฅํด๋ด์ผ๋ง ํ๋ค(Fig 1.).

์ด ๋ ผ๋ฌธ์์๋ ์ฌ์ฉ๋ SHREC'17 Track ๋ฐ์ดํฐ์ ์ ์๋ก ๋ค์๋ฉด, ํด๋น ๋ฐ์ดํฐ์ ์ 14๊ฐ์ง์ ์ ์ค์ฒ์ ๋ํ ์ ๋ชจ์ ์์๋ค๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ๊ทธ ์ค n๋ฒ์งธ ์ ์ค์ฒ (: t ๋ฒ์งธ ์ํ์ค์ ์ joint๋ค์ ์์น, : ์ํ์ค ๊ธธ์ด) ๋ฅผ ๋ชจ๋ธ์ ์ ๋ ฅํ์ ๋, ๋ฐ์ดํฐ์ ๋ด์ ์ ์ค์ฒ์ ์ธ๋ฑ์ค์ธ ๊ฐ ์ถ๋ ฅ๋๋ค. ์ด๋ ๋ฏ gesture recognition network๋ ์์ ๋ํ feature(pose, depth, optical flow ๋ฑ)๋ค์ ์ํ์ค๋ฅผ ๋ฐ์ ์ ์ค์ฒ๋ฅผ ํน์ ํ๋ ๋คํธ์ํฌ๋ค.
2. Motivation
Related work & Idea
์ด์ ์๋ ๋ฅ๋ฌ๋์ gesture์ action recognition์ ์ํด ์ฌ์ฉํ๋ ์ฐ๊ตฌ๋ ๋ง์ด ์์๋ค. CNN(Convolutional Neural Network)[3], RNN(Recurrent Neural Network)[4], LSTM(Long Shorth-term Memory)[5] ๊ทธ๋ฆฌ๊ณ attention mechanism[6] ์ด๋ mannifold learning[7], GCN(Graph Convolutional Networks)[8] ๋ํ ์ ์ค์ฒ ์ธ์ ์ฐ๊ตฌ๋ฅผ ์ํด ์ด์ฉ๋์ด์๋ค. ํ์ง๋ง, ์์ ๋ฐฉ๋ฒ๋ค์ ์ด์ฉํ ์ฐ๊ตฌ๋ค์ ์ joint์ ์ํ์ค๋ค์ ๊ณ ์ ๋ ๊ตฌ์กฐ๋ก ์ด์ฉํ๋ฉฐ, ๊ฐ ๊ด์ ์ด ์๋ก ์ฐ๊ฒฐ๋์ด ์๊ณ ํ ๊ด์ ์ ์์ง์์ด ๋ค๋ฅธ ๊ด์ ์ ์์น์๋ ์ํฅ์ ๋ผ์น๋ค๋ ์ ์ ๊ณ ๋ คํ์ง ์์๋ค. ์ฆ, ๊ฐ ์ํ์ค์ joint๋ค์ ์์น๋ฅผ ๊ทธ์ ํ๋์ ํต์งธ ์ด๋ฏธ์ง๋ก์ ํ๋ จ์ ํ๊ณ ๊ทธ๋ ๊ธฐ์ ์ธ์ ํด์ ์๋ก ์ํฅ์ ์ฃผ๋ joint๋ค์ local feature๋ฅผ ํฌ์ฐฉํด๋ด์ง ๋ชป ํ๋ค๋ ๊ฒ์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ์ ๊ทน๋ณตํ๊ณ ์ ์์ joint์ spatial and temporal volume modeling๋ฅผ ์ด์ฉํ๋ค. spatial and temporal volume modeling์ method ๋ถ๋ถ์์๋ ๋์ค๊ฒ ์ง๋ง ๋จ์ํ๊ฒ ๋ชจ๋ ์ํ์ค์ ๊ฐ joint์ ์์น๋ฅผ ํ๋์ 3D tensor๋ก ๋ง๋ ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด์ ์ ๋ฅ๋ฌ๋์ ์ด์ฉํ ์ ์ค์ฒ ์ธ์๊ฐ์ ๊ฒฝ์ฐ๋ ์ ๋ชจ์์ ๋ณํ์ ์์ ์์ง์์ ์ ๋ถ ํ๋์ ๋คํธ์ํฌ์์ ํ์ต์ ์งํ์ ํ๋ค. ํ์ง๋ง, ์ ๋ชจ์์ ๋ณํ๋ ๊ฐ ์๊ฐ๋ฝ joint๋ค์ ์์น ๋ณํ์ ๋ํด ํ์ต์ด ์ด๋ฃจ์ด์ ธ์ผํ๋ฉฐ, ์ ์์ฒด์ ์์ง์์ ์๊ฐ๋ฝ๊ณผ๋ ํฌ๊ฒ ๊ด๊ณ์์ด ํ ๋ฉ์ด๋ฆฌ๋ก์์ ์ ๊ทธ ์์ฒด์ ์์น๊ฐ ์ด๋ป๊ฒ ๋ณํํ์๋์ง์ ๋ํ ํ์ต์ด ์ด๋ฃจ์ด์ ธ์ผํ๋ค. ์ด๋ ๋ฏ ์ ๋ชจ์์ ๋ณํ(hand posture variations)์ ์์ ์์ง์(hand movements)๋ผ๋ ์ด ๋ ๊ฐ์ง feature๋ ๋ชจ๋ ์ ์ค์ฒ ์ธ์์ ์ํด ์ฌ์ฉ๋์ง๋ง, ์ ๋ชจ์์ ๋ณํ๋ ์ ๊ด์ ๋ค์ localํ ์ ๋ณด๋ฅผ ์ด์ฉํด์ผํ๊ณ , ์์ ์์ง์์ globalํ ์ ๋ณด๋ง์ ํ์๋ก ํ๊ธฐ์ ๊ทธ ์ฑ์ง์ด ํฌ๊ฒ ๋ค๋ฅด๋ค. ์ด๊ฒ๋ค์ ํ ๋คํธ์ํฌ์์ ํ๋ จํ๋ ๊ฒ์ ๋นํจ์จ์ ์ผ ์ ์๋ค. ๊ทธ๋ ๊ธฐ์ ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ feature์ ๋ํด ๋ฐ๋ก ํ์ต์ ์งํํ ํ์ ๊ฐ๊ฐ์ prediction ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ํ์ฌ ์ต์ข prediction ๊ฒฐ๊ณผ๋ฅผ ์ป์ผ๋ คํ๋ค(Fig 2.).
์ด๋ฌํ two-stream ๋คํธ์ํฌ๋ฅผ ์ด์ฉํ action recognition์ [9]์์๋ ์ด๋ฃจ์ด์ก์ง๋ง ๋ณธ ์ ์๋ [9]์์๋ shape์ body motion์ 2d mappingํ shape evolution maps ์ motion evolution maps๋ผ๋ feature๋ฅผ ์ด์ฉํ๊ณ ๋ณธ์ธ์ hand posture variations๊ณผ hand movements๋ฅผ 3d volume์ผ๋ก ๋ํ๋ด์ด ์ด์ฉํ๊ธฐ์ ๊ฑฐ๊ธฐ์ ์ฐจ๋ณ์ ์ด ์กด์ฌํ๋ค๊ณ ํ๋ค. ๋ํ, [9]์ body action recognition์ผ๋ก ํ๊ณ ์ ํ๋ body action๊ณผ ๋ณธ ๋ ผ๋ฌธ์ hand gesture recognition์ hand gesture๋ ๊ทธ ์ฑ์ง์ด ํฌ๊ฒ ๋ค๋ฅด๋ค. ๋ชธ ์ ์ฒด์๋ ๋ค๋ฅด๊ฒ ์์ ๊ทธ ๊ตฌ์กฐ๊ฐ ๋์ฑ ๋ณต์กํ๋ฉฐ, occlusion๋ body ๋ณด๋ค ๋น๋ฒํ๊ฒ ์ผ์ด๋๊ณ ๊ทธ occlusion์ ์ํ ์ํฅ๋ body ๋ณด๋ค ํฌ๋ค. ์ด๋ฌํ ์ฐจ๋ณ์ ์ด ์ ์๋ ๋ณธ ์ฐ๊ตฌ์ motivation์ด์๋ค๊ณ ํ๋ค.
3. Method
์ด ๋ชจ๋ธ์ ๋จผ์ ์์ joint ์ ๋ณด(hand skeleton data)๋ฅผ ๊ฐ๊ฐ hand posture variation๊ณผ hand movements๋ก ๋๋์ด์ ํ์ต์ ํ๋ค.
Hand posture variation์ ๊ฒฝ์ฐ, ๋ชจ๋ ์ํ์ค์ joint ๋ฐ์ดํฐ๋ก ํ๋์ tensor์ธ HPEV(hand posture evolution volume)๋ฅผ ์์ฑํ ํ, ์ด HPEV๋ฅผ 3D CNN์ ๋ฒ ์ด์ค๋ก ํ HPEV-Net์์ ํ์ต์ํจ๋ค. ์ถ๊ฐ๋ก, ์ฌ์ธํ ์๊ฐ๋ฝ์ ์์ง์๋ ์ธ์ํ๊ธฐ ์ํด ์์ง ์๊ฐ๋ฝ์ ๊ธฐ์ค์ผ๋ก ํ ๊ฐ ์๊ฐ๋ฝ์ ์๋์ ์์น์ธ FRPV(finger relative position vector) ๋ํ HPEV-Net์์ ์ถ๋ ฅ๋ feature vector์ ์ถ๊ฐํด์ค๋ค.
Hand movements๋ HMM(hand movement map)์ผ๋ก ๋งตํํ ํ CNN ๊ธฐ๋ฐ์ HMM-Net์ ํตํด ํ์ต์ ์ํจ๋ค. ๊ฐ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ํตํด ๋์จ feature vector๋ fully connected layer ์ softmax๋ฅผ ํตํด ๊ฐ๊ฐ prediction ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ฒ๋๋ค. ์ด ๋ ๊ฐ์ prediction ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ์ฌ ์ต์ข ์ ์ ์ค์ฒ prediction์ด ์ด๋ฃจ์ด์ง๋ค.
Hand Posture Volume
์ ์ค์ฒ์ feature๋ฅผ network๋ฅผ ํตํด ํ์ตํ๊ธฐ ์ํด์ ํด๋น ์ ๋ณด๋ค์ ๋ฐ์ดํฐํ ์ํฌ ํ์๊ฐ ์๋ค. ์ด ํํธ์์๋๋ ์ ์ค์ฒ์ ํ ์ํ์ค์ ํด๋นํ๋ ์ ๊ด์ ๋ค์ ์์น์ ๋ณด๋ฅผ 3D tensor๋ก ๋ง๋๋ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
n ๋ฒ์งธ ์ ์ค์ฒ ์ํ์ค๋ค์ ์งํฉ์ (์ํ์ค์ ๊ธธ์ด)์ด๋ผ๊ณ ํ์ ๋, t ๋ฒ์งธ ํ๋ ์์ ์์ joint 3D ์์น์ ๋ณด ๋ (joint์ ๊ฐฏ์, t ๋ฒ์งธ ํ๋ ์์ hand joint i์ 3D ์์น์ ๋ณด) ๋ผ๊ณ ํ ์ ์๋ค.
์ ์ค์ฒ ๋ง๋ค ์ํ์ค์ ๊ธธ์ด์ธ ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์ธํ ์ฌ์ด์ฆ๋ฅผ ํต์ผ์์ผ์ผ ํ๋ค. ์ด ๋์ ์ธํ ์ฌ์ด์ฆ๋ฅผ ๋ก ํ๊ณ ์ ํ๋ค๊ณ ํ์ ๋, ์ผ ๊ฒฝ์ฐ์๋ ์ผ์ ํ๊ฒ ์ํ์ค๋ฅผ ๋งํผ๋ง ์ ํํ๋ฉด ๋๊ณ , ์ผ ๊ฒฝ์ฐ, ๋ช ๊ฐ์ง์ ์ํ์ค๋ค์ ๋ฐ๋ณตํด์ ์ํ์ค์ ๊ธธ์ด๊ฐ ๊ฐ ๋๊ฒ ํ๋ฉด ๋๋ค. ์ฌ๊ธฐ์ T๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ๊ธฐ๋ณธ๊ฐ์ 60์ผ๋ก ์ ์๋ ์คํ์ ์งํํ๋ค. ์ด๋ฌํ ์ํ๋ง ๊ณผ์ ์ ํตํ๊ฒ ๋๋ฉด ์ ์ค์ฒ ์ ๊ธธ์ด๊ฐ ์ธ ์ด ๋๋ค.
๊ฐ ๊ด์ ์ 3d ์ขํ๋ฅผ volume์ผ๋ก ๋ํ๋ด๊ธฐ ์ ์ ๋จผ์ ๊ฐ ๊ด์ ์ 3d ์ขํ ๊ฐ์ ์ normalize ํด์ผํ๋ค. normalize๋ฅผ ์ํด์ ์์ maximum bounding box๊ฐ ํ์ํ๋ค. ํ ํน์ ํ๋ ์ t์ ํน์ joint i์ bounding box๋ ์ดํ์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌํ ์ ์๋ค. bounding box์ ๊ฐ ๋ณ์ ๊ธธ์ด๋ฅผ ๋ผ๊ณ ํ์ ๋,
๊ฐ ๋๋ค. ๋ํ, ์ด๋ฌํ bounding box์ ์ต๋ ๊ธธ์ด ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
์ด๋ฌํ ๊ฐ์ ์ด์ฉํด์ joint์ ์์น๋ฅผ normalize๋ฅผ ํ๊ฒ ๋๋ฉด ์ดํ์ ๊ฐ์ด ๋๋ค. ์ด normalizeํ joint์ x ๊ฐ, ๊ฐ ๊ฐ๊ฐ ํด๋น joint์ ์ต์/์ต๋ x ๊ฐ์ด๋ค.
์ ๋ํด์๋ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์ ๊ตฌํ ์ ์๋ค. ์์ ๊ฐ์ ๊ณผ์ ์ผ๋ก joint ์์น๋ฅผ normalize ํ๊ฒ ๋๋ฉด ์์ ์ค์ฌ์ ์ ๋ง์ถ ์ ์๊ฒ๋๋ค.
์ด ๋ค์ ์์ ๊ด์ ์ ์ cube volume์ผ๋ก ํ๊ธฐ ์ํด์ ์ ๋ค์๊ณผ ๊ฐ์ ์์ ํตํด ๋ก ๋ณํ์ํฌ ์ ์๋ค.
์ด๋ ๊ฒ ๋ฅผ ๊ตฌํ๊ฒ ๋๋ฉด, volume์ ํด๋นํ๋ ๊ฐ์ด ์๋ค๋ฉด 1, ์๋ค๋ฉด 0์ ํ ๋นํ๋ ๊ฒ์ผ๋ก ํน์ joint ์์น์ ๋ณด๋ฅผ volume์ ํํ๋ก ๋ํ๋ผ ์ ์๊ฒ๋๋ค. ์๋ฅผ ๋ค์ด, ์ด ์๋ค๋ฉด volume์ ํด๋นํ๋ voxel์ 1์ ํ ๋นํ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ volume์ผ๋ก ํ joint๋ค์ ์ ๋ถ ๋ชจ์ผ๊ฒ ๋๋ฉด ํน์ ์ ์ค์ฒ๋ฅผ ๋ผ๋ volume coordinates๋ก ํ ์ ์๊ฒ๋๋ค. ์ด๋ฌํ volume์ input์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ํด ๋ฐ์ ์์ผ๋ก tensor๋ก ๋ณํ์ํฌ ์ ์๋ค.
Hand Posture Evolution Volume(HPEV)
์์น์ ๋ณด๋ฅผ volumeํ ํ๋ ๊ฒ์ผ๋ก ๊ณต๊ฐ์ ๋ณด๋ฅผ ํ๋์ tensor๋ก ํ ์ ์์๋ค. ์ฌ๊ธฐ์๋ ๋ชจ๋ ์ํ์ค์ tensor๋ฅผ ์ผ์ ๊ฐ๊ฒฉ์ผ๋ก ํฉ์น๋ ๊ฒ์ผ๋ก ๊ณต๊ฐ์ ๋ณด(๊ฐ ๊ด์ ์ ์์น)์ ์๊ฐ์ ๋ณด(์ํ์ค ์งํ)๋ฅผ ํ๋์ tensor๋ก ํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํ๊ณ ์๋ค.
์ ์์์ ์ ์ ์๋ฏ์ด ๋ชจ๋ ์ํ์ค์ ์ ๊ด์ ์์น์ ๋ณด๋ฅผ ๋ํ๋ด๋ tensor์ธ ๋ ์์ ์น์ ์์ ๊ตฌํ V๋ฅผ x ์ถ์ ๋งํผ ๊ฐ๊ฒฉ์ ๋๊ณ ํฉ์น๋ ๊ฒ์ผ๋ก ๊ตฌํ ์ ์๋ค. ์ด๋ฌํ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋๋ฉด ํ๋์ ์ ์ค์ฒ์ ๋ํ ๋ชจ๋ ์ํ์ค๋ค์ ํ๋์ tensor๋ก ํฉ์ณ์ง๊ฒ ๋๊ณ ๋ค์๊ณผ ๊ฐ์ ๊ทธ๋ฆผ ์ฒ๋ผ ๋ ๊ฒ์ด๋ค.
Fingertip Relative Position Vector(FRPV)
joint ์์น์ ๋ณด๋ฅผ ํ๋์ volume์ผ๋ก ํ๋ ๊ฒ์ผ๋ก ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ์ฝ๊ฒ ๋ํ๋ผ ์ ์์์ง๋ง ๊ทธ volume์ ํฌ๊ธฐ๊ฐ ์ ํ๋๊ธฐ ๋๋ฌธ์ ์๊ฐ๋ฝ์ ์ฌ์ธํ ์์ง์๊น์ง๋ ๋ํ๋ด์ง๋ ๋ชปํ๋ค. ๊ทธ ๋๋ฌธ์ ์ด ๋ ผ๋ฌธ์์๋ ๋ณด์กฐ์ ์ธ ์ธํ์ผ๋ก์ ์๊ฐ๋ฝ์ ์๋์ ์์น๋ค์ธ FRPV๋ฅผ ์ด์ฉํ๋ค. ํน์ ํ๋ ์ ์ ์์ง์๊ฐ๋ฝ์ ๊ธฐ์ค์ผ๋ก ํ ๊ฐ ์๊ฐ๋ฝ์ ์๋์ ์์น ๋ฒกํฐ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
t ๋ฒ์งธ ํ๋ ์์ ์์ง ์์น ๋ฒกํฐ, ๊ฐ ๋ฒ์งธ ํ๋ ์์ ๊ฒ์ง, ์ค์ง, ์ฝ์ง, ์์ง ์์น ๋ฒกํฐ
๋ง์ง๋ง์ผ๋ก, ๋ชจ๋ ํ๋ ์์ ๊ฐ ๋ฒกํฐ๋ค์ ํฉ์นจ์ผ๋ก์ ์ ๊ตฌํ ์ ์๋ค.
Hand Movement Map(HMM)
๋ค์์ ์์ ์์ง์์ ๋ํ๋ด๋ HMM์ ์์ฑํด๋ด๋ ๋ฐฉ๋ฒ์ด๋ค. ์์ ์์ง์์ ์ ์ค์ฌ์ ์์ง์๊ณผ ๊ฐ ์๊ฐ๋ฝ ๋์ ์์ง์์ผ๋ก ๋ํ๋ผ ์ ์์ ๊ฒ์ด๋ค.
ํน์ ์ ์ค์ฒ๋ฅผ ๋ ๋ผ๊ณ ํ ์ ์๊ณ , ์์ joint๋ HPEV ๋์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ก ๋ํ๋ผ ์ ์๋ค. ์ด ๋, ๋ชจ๋ ๊ด์ ์ ๋ํ ์ค์ฌ์
์ด ๋ ๊ฒ์ด๊ณ , ์ด ์ค์ฌ์ ์์ง์์ ๋งจ ์ฒ์ ์ํ์ค์ ์์น์ ํ์ฌ ์ํ์ค์ ์์น์ ์ฐจ์ด๋ก ๊ตฌํ ์ ์๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, ์๊ฐ๋ฝ ๋์ ์์ง์ ๋ํ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ตฌํ๋ฉด ์ดํ์ ์์ด ๋๋ค.
j๋ J๊ฐ์ ์ ์ฒด ๊ด์ ์ค์์ 5๊ฐ์ ์ ๋ ๊ด์ ์ ์ธ๋ฑ์ค๋ฅผ ๋ํ๋ธ๋ค. ์ด๋ ๊ฒ ๊ตฌํ ๋ฅผ ํ์ผ๋ก ํ๋ ์์ ์ด๋ก ๋งตํํ๊ฒ ๋๋ฉด ๊ฐ xyz ์ธ ๊ฐ์ ์์น ์ ๋ณด๋ฅผ ์ฑ๋๋ก ํ๋ Hand Movement Map์ ์์ฑํ ์ ์๊ฒ ๋๋ค.
HPEV-Net and HMM-Net
์ด์ ๊น์ง ๊ตฌํ HPEV(Hand Posture Evolution Volume)๊ณผ HMM(Hand Movement Map)์ ๊ฐ๊ฐ HPEV-Net ๊ณผ HMM-Net์ ์ด์ฉํ์ฌ ๊ฐ๊ฐ์ feature๋ฅผ ์ถ์ถํ๊ณ , ๊ทธ feature๋ฅผ ์ด์ฉํด ์ต์ข ์ ์ผ๋ก gesture๋ฅผ predict ํ๊ฒ๋๋ค.
HPEV-Net
๋งจ ์ฒ์์ ์ปค๋ ์ฌ์ด์ฆ๊ฐ 7x3x3์ธ 3D convolution layer๋ฅผ ํตํด low-level features๋ฅผ ์ถ์ถ
high-level feature๋ฅผ ํ์ตํ๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ bottleneck module์ ์ฌ์ฉ
๊ฐ bottleneck modul์ output channel์ 128, 128, 256 ๊ทธ๋ฆฌ๊ณ 512
output features์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ธฐ ์ํ 4x2x2 max pooling layer๋ ๋งจ ์ฒ์ convolution layer ์ ์ค๊ฐ์ ๋ ๊ฐ์ bottleneck modul์์๋ง ์ฌ์ฉ
์ฒ์์ 3D convolution layer ์ดํ์ Batch Normalization ๊ณผ ReLu๊ฐ ์ฌ์ฉ
๋ง์ง๋ง bottleneck module ์ดํ์ output features๋ global average pooling์ ์ด์ฉํด ์ต์ข feature vector๊ฐ ์ถ๋ ฅ
HMM-Net
HCN(Hierarchical Co-occurrence Network)[10] module์ ํตํด feature๋ฅผ ์ถ์ถ
HPEV-Net์ ๋ง์ฐฌ๊ฐ์ง๋ก 4๊ฐ์ bottleneck module์ ํตํด high-level features๋ฅผ ํ์ต
globa average pooling์ ์ด์ฉํด feature vector ์์ฑ
fully connected layer์ softmax๋ฅผ ํตํด ์ ์ค์ฒ ๋ถ๋ฅ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค
๋ง์ง๋ง์ผ๋ก, HPEV-Net๊ณผ FRPV์ fully connected layer๋ฅผ ์ ์ฉ์์ผ ๋์จ feature vector๋ฅผ ์ด์ฉํ ๊ฒฐ๊ณผ์ HMM-Net์์ ๋์จ feature vector๋ฅผ ์ด์ฉํ ๋ถ๋ฅ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ํ์ฌ ์ต์ข ์ ์ค์ฒ ๋ถ๋ฅ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
4. Experiment & Result
Experimental setup
Dateset
Training setup
Optimizer: Adam
Loss function: Cross-entropy
batch size for training: 40
Initial learning rate: 3e-4
Learning rate dacay: 1/10 once learning stagnates
Final learnign rate: 3e-8
hyper parameters:
Result
Different input combinations
SHREC'17 Track ๋ฐ์ดํฐ์ ๊ณผ FPHA ๋ฐ์ดํฐ์ ์ ๊ฒฐ๊ณผ์ด๋ค. ์์ ์์ง์์ ๋ํ ์ธํ์ธ HMM๋ง์ ์ธํ์ผ๋ก ํ์๋ SHREC'17 ๋ฐ์ดํฐ์ ์์๋ง HPEV๋ง์ ์ฌ์ฉํ์๋๋ณด๋ค ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ๊ณ FPHA ๋ฐ์ดํฐ์ ์๋ ์คํ๋ ค ์ฑ๋ฅ์ด ์ค์ด๋ค์๋ค. SHREC'17 ๋ฐ์ดํฐ์ ์ด FPHA ๋ฐ์ดํฐ์ ๋ณด๋ค ์ ์์ง์์ด ๋ง์ ์ ์ค์ฒ๊ฐ ๋ง์์ ๊ทธ๋ฐ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ FPHA ๋ฐ์ดํฐ์ ์์ FRPV ์ธํ์ ์ฌ์ฉํ์ ์ฑ๋ฅ์ด 8% ๋ ์ฆ๊ฐํ๋๋ฐ ์ด๊ฒ์ FPHA๊ฐ ์ฌ์ธํ ์๊ฐ๋ฝ ์์ง์ด ํฌํจ๋ ์ ์ค์ฒ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํ๋ค.
Comparison with the state-of-the-art
FPHA ๋ฐ์ดํฐ์ ๊ฒฐ๊ณผ์์ ST-TS-HGR-NET ์ ๊ฒฐ๊ณผ๊ฐ ์ด ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ํ๋๋ค. ์ ์๋ FPHA ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ _ST-TS-HGR-NET_์ ๊ฒฐ๊ณผ๊ฐ ๋ ์ข๊ฒ ๋์จ ๊ฒ์ด๊ณ , SHREC'17 Track, DHG-14/28 ๋ฐ์ดํฐ์ ๊ณผ ๊ฐ์ ํฌ๊ธฐ๊ฐ ํฐ ๋ฐ์ดํฐ์ ์์ ๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๊ฐ ๋ ์ข์๊ธฐ์ ๋ณธ ๋ฐฉ๋ฒ์ ํฐ ๋ฐ์ดํฐ์ ์ด์ ๊ทธ ์ฑ๋ฅ์ ๋ฐํํ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์ฃผ์ฅํ๋ค.
5. Conclusion
์ด ๋ ผ๋ฌธ์์๋ ์ ์ค์ฒ์ธ์์ ํ ๋์ ์์ joint ๋ณํ์ ์์ ์ ์ฒด ์์ง์ ๋ณํ๋ฅผ ๋ฐ๋ก ๋ ๊ฐ์ ๋คํธ์ํฌ์์ ํ๋ จํ ํ์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ํฉ์ณ์ ์ ์ค์ฒ๋ฅผ ์ธ์ํ๋ ๋ฐฉ์์ ์ ์ํ๋ค. ํ์คํ ์ด์ ๊น์ง์ ์ ์ค์ฒ ์ธ์๊ฐ์ ๊ฒฝ์ฐ๋ ๊ฐ ํ๋ ์์ ์์ ํ๋์ ํต์งธ ์ด๋ฏธ์ง๋ก๋ง ๋ณด๊ณ , ๊ทธ ๊ณณ์์ ์ถ์ถํ feature์ ๋ณํ๋ง์ ๊ฐ์ง๊ณ ์ ์ค์ฒ๋ฅผ ์ธ์ํด์๊ธฐ์ ์ด ๋ ผ๋ฌธ๊ณผ ๊ฐ์ด ์์ ๋ชจ์๊ณผ ์์ง์์ ๋ฐ๋ก ๋ถ๋ฆฌํด์ ํ๋ จ์ํจ ๋ค๋ ์์ด๋์ด๋ ๊ต์ฅํ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ์์ด๋์ด๋ก ๋ณด์ธ๋ค.
ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ ์์ joint ํฌ์ฆ ์ ๋ณด๋ฅผ ์์ ํ ์๊ณ ์๋ค๋ ์ ์ ํ์์ ๊ทธ joint์ ๋ณํ๋ฅผ ์ธํ์ผ๋ก ์ด์ฉํ๋ค. ์ด๋ฌํ ์ ๋๋ฌธ์ ์ค์ ํ๊ฒฝ์์ ์ด ๋ฐฉ๋ฒ์ ์ด์ฉํ ๋์ ์ด๋ป๊ฒ ์ ํํ ์์ joint ํฌ์ฆ๋ฅผ ์ป์ด๋ผ ๊ฒ์ธ๊ฐ ํ๋ ๋ฌธ์ ๊ฐ ์ผ์ด๋๋ค. ์ผ๋ฐ์ ์ธ RGB ํน์ RGB-D ์ด๋ฏธ์ง์์ ๋ชจ๋ ์๊ณผ ์๊ฐ๋ฝ joint์ ๊ณต๊ฐ ์์น ์ ๋ณด๋ฅผ ์ป์ด์ค๊ธฐ ์ํด์๋ hand pose estimation ๊ณผ์ ์ด ํ์ํ๋ฐ, ์ด๊ฒ์ real-time์ผ๋ก ์ด๋ฃจ์ด๋ด๊ธฐ ์ํด์ ์ด ๋ ผ๋ฌธ๊ณผ ๋ง์ฐฌ๊ฐ์ง์ ํน์ ๋ ํฐ ๋ชจ๋ธ์ ํ์ต์ ํ์๋ก ํ๊ณ ๊ณ์ฐ๊ณผ์ ์ ๊ฑธ๋ฆฌ๋ ์๊ฐ๊ณผ ์์์ด ๋ ๋ค์ด๊ฐ๊ฒ ๋๋ค. ๊ทธ๋ ๋ค๋ ๊ฒ์ ์ด ๋ ผ๋ฌธ์ ์ ์ค์ฒ ์ธ์ ๊ณผ์ ์ ์ค์ ํ๊ฒฝ์์ ์ฐ๊ฒ๋๋ค๋ฉด joint์ ์ฐพ๋ ๊ณผ์ + ์ ์ค์ฒ ์ธ์ ๊ณผ์ ์ด ๋ํด์ ธ์ ํ ๋์์ ์ ์ค์ฒ๋ฅผ ์ธ์ํ๋ ๋ฐ๋ง ์๊ฐ์ ์ง์ฐ์ด ๋ง์ด ๋ฐ์ํ๊ฒ ๋ ๊ฒ์ด๋ค. ๋, ์ด ๋ ผ๋ฌธ์์๋ ์ joint์ ์์น ์ ๋ณด๋ฅผ ์๊ณ ์๊ธฐ์ ์ ๋์ ๋ ํฌ์ฐฉ์ด ๊ฐ๋ฅํ ๋ถ๋ถ์ด์๊ณ ๊ทธ๋ ๊ธฐ์ FRPV ์ธํ์ด ๊ทธ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์๋ค. ํ์ง๋ง, ์ค์ ์ ์ ์ค์ฒ์์๋ ์๊ฐ๋ฝ์ด ์์ ์ํด์ ๊ฐ๋ ค์ง๋ occlusion ์ํฉ์ด ๋น๋ฒํ๊ฒ ๋ฐ์ํ๊ฒ ๋๊ณ occlusion ๋ฌธ์ ๋ ์ ์ค์ฒ ์ธ์ ๋ถ์ผ์์ ๊ต์ฅํ ์ค์ํ๊ฒ ๋ค๋ฃจ๊ณ ์๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ occlusion ์ํฉ์ ๋ํ ๊ณ ์ฐฐ์ ์ ํ ํ๊ณ ์์ง ์๋ค. ์ด๋ ๋ฏ ์์ joint ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ์ป์ ๊ฒ์ด๊ฐ ํ๋ ๋ฌธ์ ์ occlusion ๋ฌธ์ , ์ด ๋ ๊ฐ์ง์ ํต์ฌ์ ์ธ ๋ฌธ์ ์ ๋ํด์ ๊ณ ์ฐฐ์ด ์๋ค๋ ์ ์ด ์ด ๋ ผ๋ฌธ์ ์์ฌ์ด ์ ์ด๋ผ๊ณ ํ ์ ์๋ค.
Take home message (์ค๋์ ๊ตํ)
Simple is the best!
๋ค์ํ ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํ์!
Author / Reviewer information
Author
ํํ์ฑ (HA TAEWOOK)
KAIST CT
hatw95@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Liu, Jianbo, et al. "Decoupled representation learning for skeleton-based gesture recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
Google Mediapipe (Official Github repository)
Devineau, Guillaume, et al. "Deep learning for hand gesture recognition on skeletal data." 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018.
Du, Yong, Wei Wang, and Liang Wang. "Hierarchical recurrent neural network for skeleton based action recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
Liu, Jun, et al. "Global context-aware attention lstm networks for 3d action recognition." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
Weng, Junwu, et al. "Deformable pose traversal convolution for 3d action and gesture recognition." Proceedings of the European conference on computer vision (ECCV). 2018.
Nguyen, Xuan Son, et al. "A neural network based on SPD manifold learning for skeleton-based hand gesture recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
Chen, Yuxiao, et al. "Construct dynamic graphs for hand gesture recognition via spatial-temporal attention." arXiv preprint arXiv:1907.08871 (2019).
Liu, Hong, et al. "Learning explicit shape and motion evolution maps for skeleton-based human action recognition." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
Li, Chao, et al. "Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation." arXiv preprint arXiv:1804.06055 (2018).
Last updated
Was this helpful?