Separation of hand motion and pose [kor]
Liu et al. / Decoupled Representation Learning for Skeleton-Based Gesture Recognition / CVPR 2020
Last updated
Liu et al. / Decoupled Representation Learning for Skeleton-Based Gesture Recognition / CVPR 2020
Last updated
μ μ μ μμ μ ννκ² μΈμνλ €λ μ°κ΅¬λ μμ μ΄μ©ν μ‘°μλ°©λ²μ΄ μ£Όλ ν° μ΄μ λλ¬Έμ μ΄μ λΆν° λ§μ μ°κ΅¬κ° μ΄λ¬μ΄μ Έμλ€. κ·Έ μ€μ λνμ μΈ λ κ°μ§κ° μμ ν¬μ¦(pose)λ₯Ό μΈμνλ hand pose recognition/estimationκ³Ό μ λͺ¨μμ μλ―Έλ₯Ό μΈμνλ € νλ hand gesture recognitionμ΄λ€.
hand pose estimationμ μμ RGB νΉμ RGB-D μ΄λ―Έμ§λ₯Ό λ°μμ κ·Έ featureλ₯Ό λΆμν΄ μμ jointμ΄ μ΄λ€ λͺ¨μμ νκ³ μλμ§λ₯Ό μμλ΄κ³ μ νλ task μ΄κ³ λλΆλΆμ΄ λ¨μΌν μ μ΄λ―Έμ§λ₯Ό μΈνμΌλ‘ λ°λλ€. νμ§λ§, hand gesture recognition κ°μ κ²½μ°, κ·Έ μ μ€μ²κ° μ μ§ν΄μλ μ μ€μ² -μ«μλ₯Ό λνλ΄λ μ λͺ¨μ λ±- μ΄ μλ μ΄μ μ°κ΅¬μ κ΄μ¬μ¬λ μ μ€μ²κ° μμν΄μ λλκΈ°κΉμ§μ μΌλ ¨μ μ λμμ λΆμνλ κ²μ λͺ©μ μΌλ‘ νλ€. κ·Έλ κΈ°μ μ΄λ¬ν hand gesture recognition λͺ¨λΈμ νλμ μ΄λ―Έμ§κ° μλ 볡μμ μ΄λ―Έμ§ μνμ€λ₯Ό μΈνμΌλ‘ λ°μμ κ·Έ μνμ€λ€μ΄ μ΄λ€ μλ―Έλ₯Ό λνλ΄λ μ μ€μ²μΈμ§λ₯Ό μΆλ ₯ν΄λ΄μΌλ§ νλ€(Fig 1.).
μ΄μ μλ λ₯λ¬λμ gestureμ action recognitionμ μν΄ μ¬μ©νλ μ°κ΅¬λ λ§μ΄ μμλ€. CNN(Convolutional Neural Network)[3], RNN(Recurrent Neural Network)[4], LSTM(Long Shorth-term Memory)[5] κ·Έλ¦¬κ³ attention mechanism[6] μ΄λ mannifold learning[7], GCN(Graph Convolutional Networks)[8] λν μ μ€μ² μΈμ μ°κ΅¬λ₯Ό μν΄ μ΄μ©λμ΄μλ€. νμ§λ§, μμ λ°©λ²λ€μ μ΄μ©ν μ°κ΅¬λ€μ μ jointμ μνμ€λ€μ κ³ μ λ κ΅¬μ‘°λ‘ μ΄μ©νλ©°, κ° κ΄μ μ΄ μλ‘ μ°κ²°λμ΄ μκ³ ν κ΄μ μ μμ§μμ΄ λ€λ₯Έ κ΄μ μ μμΉμλ μν₯μ λΌμΉλ€λ μ μ κ³ λ €νμ§ μμλ€. μ¦, κ° μνμ€μ jointλ€μ μμΉλ₯Ό κ·Έμ νλμ ν΅μ§Έ μ΄λ―Έμ§λ‘μ νλ ¨μ νκ³ κ·Έλ κΈ°μ μΈμ ν΄μ μλ‘ μν₯μ μ£Όλ jointλ€μ local featureλ₯Ό ν¬μ°©ν΄λ΄μ§ λͺ» νλ€λ κ²μ΄λ€. μ΄ λ Όλ¬Έμμλ μ΄λ¬ν μ μ 극볡νκ³ μ μμ jointμ spatial and temporal volume modelingλ₯Ό μ΄μ©νλ€. spatial and temporal volume modelingμ method λΆλΆμμλ λμ€κ² μ§λ§ λ¨μνκ² λͺ¨λ μνμ€μ κ° jointμ μμΉλ₯Ό νλμ 3D tensorλ‘ λ§λ λ€λ κ²μ μλ―Ένλ€.
κ·Έλ¦¬κ³ μ΄μ μ λ₯λ¬λμ μ΄μ©ν μ μ€μ² μΈμκ°μ κ²½μ°λ μ λͺ¨μμ λ³νμ μμ μμ§μμ μ λΆ νλμ λ€νΈμν¬μμ νμ΅μ μ§νμ νλ€. νμ§λ§, μ λͺ¨μμ λ³νλ κ° μκ°λ½ jointλ€μ μμΉ λ³νμ λν΄ νμ΅μ΄ μ΄λ£¨μ΄μ ΈμΌνλ©°, μ μ체μ μμ§μμ μκ°λ½κ³Όλ ν¬κ² κ΄κ³μμ΄ ν λ©μ΄λ¦¬λ‘μμ μ κ·Έ μ체μ μμΉκ° μ΄λ»κ² λ³ννμλμ§μ λν νμ΅μ΄ μ΄λ£¨μ΄μ ΈμΌνλ€. μ΄λ λ― μ λͺ¨μμ λ³ν(hand posture variations)μ μμ μμ§μ(hand movements)λΌλ μ΄ λ κ°μ§ featureλ λͺ¨λ μ μ€μ² μΈμμ μν΄ μ¬μ©λμ§λ§, μ λͺ¨μμ λ³νλ μ κ΄μ λ€μ localν μ 보λ₯Ό μ΄μ©ν΄μΌνκ³ , μμ μμ§μμ globalν μ 보λ§μ νμλ‘ νκΈ°μ κ·Έ μ±μ§μ΄ ν¬κ² λ€λ₯΄λ€. μ΄κ²λ€μ ν λ€νΈμν¬μμ νλ ¨νλ κ²μ λΉν¨μ¨μ μΌ μ μλ€. κ·Έλ κΈ°μ μ΄ λ Όλ¬Έμμλ μ΄λ¬ν λ featureμ λν΄ λ°λ‘ νμ΅μ μ§νν νμ κ°κ°μ prediction κ²°κ³Όλ₯Ό νκ· νμ¬ μ΅μ’ prediction κ²°κ³Όλ₯Ό μ»μΌλ €νλ€(Fig 2.).
μ΄λ¬ν two-stream λ€νΈμν¬λ₯Ό μ΄μ©ν action recognitionμ [9]μμλ μ΄λ£¨μ΄μ‘μ§λ§ λ³Έ μ μλ [9]μμλ shapeμ body motionμ 2d mappingν shape evolution maps μ motion evolution mapsλΌλ featureλ₯Ό μ΄μ©νκ³ λ³ΈμΈμ hand posture variationsκ³Ό hand movementsλ₯Ό 3d volumeμΌλ‘ λνλ΄μ΄ μ΄μ©νκΈ°μ κ±°κΈ°μ μ°¨λ³μ μ΄ μ‘΄μ¬νλ€κ³ νλ€. λν, [9]μ body action recognitionμΌλ‘ νκ³ μ νλ body actionκ³Ό λ³Έ λ Όλ¬Έμ hand gesture recognitionμ hand gestureλ κ·Έ μ±μ§μ΄ ν¬κ² λ€λ₯΄λ€. λͺΈ μ 체μλ λ€λ₯΄κ² μμ κ·Έ κ΅¬μ‘°κ° λμ± λ³΅μ‘νλ©°, occlusionλ body λ³΄λ€ λΉλ²νκ² μΌμ΄λκ³ κ·Έ occlusionμ μν μν₯λ body λ³΄λ€ ν¬λ€. μ΄λ¬ν μ°¨λ³μ μ΄ μ μλ λ³Έ μ°κ΅¬μ motivationμ΄μλ€κ³ νλ€.
μ΄ λͺ¨λΈμ λ¨Όμ μμ joint μ 보(hand skeleton data)λ₯Ό κ°κ° hand posture variationκ³Ό hand movementsλ‘ λλμ΄μ νμ΅μ νλ€.
Hand posture variationμ κ²½μ°, λͺ¨λ μνμ€μ joint λ°μ΄ν°λ‘ νλμ tensorμΈ HPEV(hand posture evolution volume)λ₯Ό μμ±ν ν, μ΄ HPEVλ₯Ό 3D CNNμ λ² μ΄μ€λ‘ ν HPEV-Netμμ νμ΅μν¨λ€. μΆκ°λ‘, μ¬μΈν μκ°λ½μ μμ§μλ μΈμνκΈ° μν΄ μμ§ μκ°λ½μ κΈ°μ€μΌλ‘ ν κ° μκ°λ½μ μλμ μμΉμΈ FRPV(finger relative position vector) λν HPEV-Netμμ μΆλ ₯λ feature vectorμ μΆκ°ν΄μ€λ€.
Hand movementsλ HMM(hand movement map)μΌλ‘ 맡νν ν CNN κΈ°λ°μ HMM-Netμ ν΅ν΄ νμ΅μ μν¨λ€. κ°κ°μ λ€νΈμν¬λ₯Ό ν΅ν΄ λμ¨ feature vectorλ fully connected layer μ softmaxλ₯Ό ν΅ν΄ κ°κ° prediction κ²°κ³Όκ° λμ€κ²λλ€. μ΄ λ κ°μ prediction κ²°κ³Όλ₯Ό μ’ ν©νμ¬ μ΅μ’ μ μ μ€μ² predictionμ΄ μ΄λ£¨μ΄μ§λ€.
μ μ€μ²μ featureλ₯Ό networkλ₯Ό ν΅ν΄ νμ΅νκΈ° μν΄μ ν΄λΉ μ 보λ€μ λ°μ΄ν°ν μν¬ νμκ° μλ€. μ΄ ννΈμμλλ μ μ€μ²μ ν μνμ€μ ν΄λΉνλ μ κ΄μ λ€μ μμΉμ 보λ₯Ό 3D tensorλ‘ λ§λλ κ³Όμ μ 보μ¬μ£Όκ³ μλ€.
μμΉμ 보λ₯Ό volumeν νλ κ²μΌλ‘ 곡κ°μ 보λ₯Ό νλμ tensorλ‘ ν μ μμλ€. μ¬κΈ°μλ λͺ¨λ μνμ€μ tensorλ₯Ό μΌμ κ°κ²©μΌλ‘ ν©μΉλ κ²μΌλ‘ 곡κ°μ 보(κ° κ΄μ μ μμΉ)μ μκ°μ 보(μνμ€ μ§ν)λ₯Ό νλμ tensorλ‘ νλ λ°©λ²μ μ€λͺ νκ³ μλ€.
λ€μμ μμ μμ§μμ λνλ΄λ HMMμ μμ±ν΄λ΄λ λ°©λ²μ΄λ€. μμ μμ§μμ μ μ€μ¬μ μμ§μκ³Ό κ° μκ°λ½ λμ μμ§μμΌλ‘ λνλΌ μ μμ κ²μ΄λ€.
μ΄ λ κ²μ΄κ³ , μ΄ μ€μ¬μ μμ§μμ 맨 μ²μ μνμ€μ μμΉμ νμ¬ μνμ€μ μμΉμ μ°¨μ΄λ‘ ꡬν μ μλ€.
λ§μ°¬κ°μ§λ‘, μκ°λ½ λμ μμ§μ λν κ°μ λ°©μμΌλ‘ ꡬνλ©΄ μ΄νμ μμ΄ λλ€.
μ΄μ κΉμ§ ꡬν HPEV(Hand Posture Evolution Volume)κ³Ό HMM(Hand Movement Map)μ κ°κ° HPEV-Net κ³Ό HMM-Netμ μ΄μ©νμ¬ κ°κ°μ featureλ₯Ό μΆμΆνκ³ , κ·Έ featureλ₯Ό μ΄μ©ν΄ μ΅μ’ μ μΌλ‘ gestureλ₯Ό predict νκ²λλ€.
맨 μ²μμ 컀λ μ¬μ΄μ¦κ° 7x3x3μΈ 3D convolution layerλ₯Ό ν΅ν΄ low-level featuresλ₯Ό μΆμΆ
high-level featureλ₯Ό νμ΅νκΈ° μν΄ μ¬λ¬κ°μ bottleneck moduleμ μ¬μ©
κ° bottleneck modulμ output channelμ 128, 128, 256 κ·Έλ¦¬κ³ 512
output featuresμ ν¬κΈ°λ₯Ό μ€μ΄κΈ° μν 4x2x2 max pooling layerλ 맨 μ²μ convolution layer μ μ€κ°μ λ κ°μ bottleneck modulμμλ§ μ¬μ©
μ²μμ 3D convolution layer μ΄νμ Batch Normalization κ³Ό ReLuκ° μ¬μ©
λ§μ§λ§ bottleneck module μ΄νμ output featuresλ global average poolingμ μ΄μ©ν΄ μ΅μ’ feature vectorκ° μΆλ ₯
HCN(Hierarchical Co-occurrence Network)[10] moduleμ ν΅ν΄ featureλ₯Ό μΆμΆ
HPEV-Netμ λ§μ°¬κ°μ§λ‘ 4κ°μ bottleneck moduleμ ν΅ν΄ high-level featuresλ₯Ό νμ΅
globa average poolingμ μ΄μ©ν΄ feature vector μμ±
fully connected layerμ softmaxλ₯Ό ν΅ν΄ μ μ€μ² λΆλ₯κ²°κ³Όκ° λμ¨λ€
λ§μ§λ§μΌλ‘, HPEV-Netκ³Ό FRPVμ fully connected layerλ₯Ό μ μ©μμΌ λμ¨ feature vectorλ₯Ό μ΄μ©ν κ²°κ³Όμ HMM-Netμμ λμ¨ feature vectorλ₯Ό μ΄μ©ν λΆλ₯κ²°κ³Όλ₯Ό νκ· νμ¬ μ΅μ’ μ μ€μ² λΆλ₯κ²°κ³Όλ₯Ό μ»μ μ μλ€.
Optimizer: Adam
Loss function: Cross-entropy
batch size for training: 40
Initial learning rate: 3e-4
Learning rate dacay: 1/10 once learning stagnates
Final learnign rate: 3e-8
SHREC'17 Track λ°μ΄ν°μ κ³Ό FPHA λ°μ΄ν°μ μ κ²°κ³Όμ΄λ€. μμ μμ§μμ λν μΈνμΈ HMMλ§μ μΈνμΌλ‘ νμλ SHREC'17 λ°μ΄ν°μ μμλ§ HPEVλ§μ μ¬μ©νμλλ³΄λ€ μ±λ₯μ΄ μ¬λΌκ°κ³ FPHA λ°μ΄ν°μ μλ μ€νλ € μ±λ₯μ΄ μ€μ΄λ€μλ€. SHREC'17 λ°μ΄ν°μ μ΄ FPHA λ°μ΄ν°μ λ³΄λ€ μ μμ§μμ΄ λ§μ μ μ€μ²κ° λ§μμ κ·Έλ° κ²μΌλ‘ 보μΈλ€κ³ νλ€. κ·Έλ¦¬κ³ FPHA λ°μ΄ν°μ μμ FRPV μΈνμ μ¬μ©νμ μ±λ₯μ΄ 8% λ μ¦κ°νλλ° μ΄κ²μ FPHAκ° μ¬μΈν μκ°λ½ μμ§μ΄ ν¬ν¨λ μ μ€μ²κ° λ§κΈ° λλ¬Έμ΄λΌκ³ νλ€.
FPHA λ°μ΄ν°μ κ²°κ³Όμμ ST-TS-HGR-NET μ κ²°κ³Όκ° μ΄ λ Όλ¬Έμ κ²°κ³Όλ³΄λ€ λ μ’μ μ±λ₯μ λνλλ€. μ μλ FPHA λ°μ΄ν°μ μ ν¬κΈ°κ° μκΈ° λλ¬Έμ _ST-TS-HGR-NET_μ κ²°κ³Όκ° λ μ’κ² λμ¨ κ²μ΄κ³ , SHREC'17 Track, DHG-14/28 λ°μ΄ν°μ κ³Ό κ°μ ν¬κΈ°κ° ν° λ°μ΄ν°μ μμ λ³Έ μ°κ΅¬μ κ²°κ³Όκ° λ μ’μκΈ°μ λ³Έ λ°©λ²μ ν° λ°μ΄ν°μ μ΄μ κ·Έ μ±λ₯μ λ°ννλ λ°©λ²μ΄λΌκ³ μ£Όμ₯νλ€.
μ΄ λ Όλ¬Έμμλ μ μ€μ²μΈμμ ν λμ μμ joint λ³νμ μμ μ 체 μμ§μ λ³νλ₯Ό λ°λ‘ λ κ°μ λ€νΈμν¬μμ νλ ¨ν νμ κ·Έ κ²°κ³Όλ₯Ό λ€μ ν©μ³μ μ μ€μ²λ₯Ό μΈμνλ λ°©μμ μ μνλ€. νμ€ν μ΄μ κΉμ§μ μ μ€μ² μΈμκ°μ κ²½μ°λ κ° νλ μμ μμ νλμ ν΅μ§Έ μ΄λ―Έμ§λ‘λ§ λ³΄κ³ , κ·Έ κ³³μμ μΆμΆν featureμ λ³νλ§μ κ°μ§κ³ μ μ€μ²λ₯Ό μΈμν΄μκΈ°μ μ΄ λ Όλ¬Έκ³Ό κ°μ΄ μμ λͺ¨μκ³Ό μμ§μμ λ°λ‘ λΆλ¦¬ν΄μ νλ ¨μν¨ λ€λ μμ΄λμ΄λ κ΅μ₯ν κ°λ¨νλ©΄μλ ν¨κ³Όμ μΈ μμ΄λμ΄λ‘ 보μΈλ€.
νμ§λ§, μ΄ λ Όλ¬Έμμλ μμ joint ν¬μ¦ μ 보λ₯Ό μμ ν μκ³ μλ€λ μ μ νμμ κ·Έ jointμ λ³νλ₯Ό μΈνμΌλ‘ μ΄μ©νλ€. μ΄λ¬ν μ λλ¬Έμ μ€μ νκ²½μμ μ΄ λ°©λ²μ μ΄μ©ν λμ μ΄λ»κ² μ νν μμ joint ν¬μ¦λ₯Ό μ»μ΄λΌ κ²μΈκ° νλ λ¬Έμ κ° μΌμ΄λλ€. μΌλ°μ μΈ RGB νΉμ RGB-D μ΄λ―Έμ§μμ λͺ¨λ μκ³Ό μκ°λ½ jointμ κ³΅κ° μμΉ μ 보λ₯Ό μ»μ΄μ€κΈ° μν΄μλ hand pose estimation κ³Όμ μ΄ νμνλ°, μ΄κ²μ real-timeμΌλ‘ μ΄λ£¨μ΄λ΄κΈ° μν΄μ μ΄ λ Όλ¬Έκ³Ό λ§μ°¬κ°μ§μ νΉμ λ ν° λͺ¨λΈμ νμ΅μ νμλ‘ νκ³ κ³μ°κ³Όμ μ 걸리λ μκ°κ³Ό μμμ΄ λ λ€μ΄κ°κ² λλ€. κ·Έλ λ€λ κ²μ μ΄ λ Όλ¬Έμ μ μ€μ² μΈμ κ³Όμ μ μ€μ νκ²½μμ μ°κ²λλ€λ©΄ jointμ μ°Ύλ κ³Όμ + μ μ€μ² μΈμ κ³Όμ μ΄ λν΄μ Έμ ν λμμ μ μ€μ²λ₯Ό μΈμνλ λ°λ§ μκ°μ μ§μ°μ΄ λ§μ΄ λ°μνκ² λ κ²μ΄λ€. λ, μ΄ λ Όλ¬Έμμλ μ jointμ μμΉ μ 보λ₯Ό μκ³ μκΈ°μ μ λμ λ ν¬μ°©μ΄ κ°λ₯ν λΆλΆμ΄μκ³ κ·Έλ κΈ°μ FRPV μΈνμ΄ κ·Έ μ±λ₯μ λ°νν μ μμλ€. νμ§λ§, μ€μ μ μ μ€μ²μμλ μκ°λ½μ΄ μμ μν΄μ κ°λ €μ§λ occlusion μν©μ΄ λΉλ²νκ² λ°μνκ² λκ³ occlusion λ¬Έμ λ μ μ€μ² μΈμ λΆμΌμμ κ΅μ₯ν μ€μνκ² λ€λ£¨κ³ μλ€. νμ§λ§ μ΄ λ Όλ¬Έμ μ΄λ¬ν occlusion μν©μ λν κ³ μ°°μ μ ν νκ³ μμ§ μλ€. μ΄λ λ― μμ joint μ 보λ₯Ό μ΄λ»κ² μ»μ κ²μ΄κ° νλ λ¬Έμ μ occlusion λ¬Έμ , μ΄ λ κ°μ§μ ν΅μ¬μ μΈ λ¬Έμ μ λν΄μ κ³ μ°°μ΄ μλ€λ μ μ΄ μ΄ λ Όλ¬Έμ μμ¬μ΄ μ μ΄λΌκ³ ν μ μλ€.
Simple is the best!
λ€μν λ¬Έμ λ₯Ό κ³ λ €νμ!
ννμ± (HA TAEWOOK)
KAIST CT
hatw95@kaist.ac.kr
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Liu, Jianbo, et al. "Decoupled representation learning for skeleton-based gesture recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
Google Mediapipe (Official Github repository)
Devineau, Guillaume, et al. "Deep learning for hand gesture recognition on skeletal data." 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018.
Du, Yong, Wei Wang, and Liang Wang. "Hierarchical recurrent neural network for skeleton based action recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
Liu, Jun, et al. "Global context-aware attention lstm networks for 3d action recognition." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
Weng, Junwu, et al. "Deformable pose traversal convolution for 3d action and gesture recognition." Proceedings of the European conference on computer vision (ECCV). 2018.
Nguyen, Xuan Son, et al. "A neural network based on SPD manifold learning for skeleton-based hand gesture recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
Chen, Yuxiao, et al. "Construct dynamic graphs for hand gesture recognition via spatial-temporal attention." arXiv preprint arXiv:1907.08871 (2019).
Liu, Hong, et al. "Learning explicit shape and motion evolution maps for skeleton-based human action recognition." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
Li, Chao, et al. "Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation." arXiv preprint arXiv:1804.06055 (2018).
μ΄ λ Όλ¬Έμμλ μ¬μ©λ SHREC'17 Track λ°μ΄ν°μ μ μλ‘ λ€μλ©΄, ν΄λΉ λ°μ΄ν°μ μ 14κ°μ§μ μ μ€μ²μ λν μ λͺ¨μ μμλ€λ‘ μ΄λ£¨μ΄μ Έμλ€. κ·Έ μ€ nλ²μ§Έ μ μ€μ² (: t λ²μ§Έ μνμ€μ μ jointλ€μ μμΉ, : μνμ€ κΈΈμ΄) λ₯Ό λͺ¨λΈμ μ λ ₯νμ λ, λ°μ΄ν°μ λ΄μ μ μ€μ²μ μΈλ±μ€μΈ κ° μΆλ ₯λλ€. μ΄λ λ― gesture recognition networkλ μμ λν feature(pose, depth, optical flow λ±)λ€μ μνμ€λ₯Ό λ°μ μ μ€μ²λ₯Ό νΉμ νλ λ€νΈμν¬λ€.
n λ²μ§Έ μ μ€μ² μνμ€λ€μ μ§ν©μ (μνμ€μ κΈΈμ΄)μ΄λΌκ³ νμ λ, t λ²μ§Έ νλ μμ μμ joint 3D μμΉμ 보 λ (jointμ κ°―μ, t λ²μ§Έ νλ μμ hand joint iμ 3D μμΉμ 보) λΌκ³ ν μ μλ€.
μ μ€μ² λ§λ€ μνμ€μ κΈΈμ΄μΈ μ΄ λ€λ₯΄κΈ° λλ¬Έμ μΈν μ¬μ΄μ¦λ₯Ό ν΅μΌμμΌμΌ νλ€. μ΄ λμ μΈν μ¬μ΄μ¦λ₯Ό λ‘ νκ³ μ νλ€κ³ νμ λ, μΌ κ²½μ°μλ μΌμ νκ² μνμ€λ₯Ό λ§νΌλ§ μ ννλ©΄ λκ³ , μΌ κ²½μ°, λͺ κ°μ§μ μνμ€λ€μ λ°λ³΅ν΄μ μνμ€μ κΈΈμ΄κ° κ° λκ² νλ©΄ λλ€. μ¬κΈ°μ Tλ νμ΄νΌνλΌλ―Έν°λ‘ κΈ°λ³Έκ°μ 60μΌλ‘ μ μλ μ€νμ μ§ννλ€. μ΄λ¬ν μνλ§ κ³Όμ μ ν΅νκ² λλ©΄ μ μ€μ² μ κΈΈμ΄κ° μΈ μ΄ λλ€.
κ° κ΄μ μ 3d μ’νλ₯Ό volumeμΌλ‘ λνλ΄κΈ° μ μ λ¨Όμ κ° κ΄μ μ 3d μ’ν κ°μ μ normalize ν΄μΌνλ€. normalizeλ₯Ό μν΄μ μμ maximum bounding boxκ° νμνλ€. ν νΉμ νλ μ tμ νΉμ joint iμ bounding boxλ μ΄νμ κ°μ λ°©λ²μΌλ‘ ꡬν μ μλ€. bounding boxμ κ° λ³μ κΈΈμ΄λ₯Ό λΌκ³ νμ λ,
κ° λλ€. λν, μ΄λ¬ν bounding boxμ μ΅λ κΈΈμ΄ λ λ€μκ³Ό κ°μ΄ ꡬν μ μλ€.
μ΄λ¬ν κ°μ μ΄μ©ν΄μ jointμ μμΉλ₯Ό normalizeλ₯Ό νκ² λλ©΄ μ΄νμ κ°μ΄ λλ€. μ΄ normalizeν jointμ x κ°, κ° κ°κ° ν΄λΉ jointμ μ΅μ/μ΅λ x κ°μ΄λ€.
μ λν΄μλ κ°μ λ°©μμΌλ‘ μ ꡬν μ μλ€. μμ κ°μ κ³Όμ μΌλ‘ joint μμΉλ₯Ό normalize νκ² λλ©΄ μμ μ€μ¬μ μ λ§μΆ μ μκ²λλ€.
μ΄ λ€μ μμ κ΄μ μ μ cube volumeμΌλ‘ νκΈ° μν΄μ μ λ€μκ³Ό κ°μ μμ ν΅ν΄ λ‘ λ³νμν¬ μ μλ€.
μ΄λ κ² λ₯Ό ꡬνκ² λλ©΄, volumeμ ν΄λΉνλ κ°μ΄ μλ€λ©΄ 1, μλ€λ©΄ 0μ ν λΉνλ κ²μΌλ‘ νΉμ joint μμΉμ 보λ₯Ό volumeμ ννλ‘ λνλΌ μ μκ²λλ€. μλ₯Ό λ€μ΄, μ΄ μλ€λ©΄ volumeμ ν΄λΉνλ voxelμ 1μ ν λΉνλ κ²μ΄λ€. μ΄λ κ² volumeμΌλ‘ ν jointλ€μ μ λΆ λͺ¨μΌκ² λλ©΄ νΉμ μ μ€μ²λ₯Ό λΌλ volume coordinatesλ‘ ν μ μκ²λλ€. μ΄λ¬ν volumeμ inputμΌλ‘ μ¬μ©νκΈ° μν΄ λ°μ μμΌλ‘ tensorλ‘ λ³νμν¬ μ μλ€.
μ μμμ μ μ μλ―μ΄ λͺ¨λ μνμ€μ μ κ΄μ μμΉμ 보λ₯Ό λνλ΄λ tensorμΈ λ μμ μΉμ μμ ꡬν Vλ₯Ό x μΆμ λ§νΌ κ°κ²©μ λκ³ ν©μΉλ κ²μΌλ‘ ꡬν μ μλ€. μ΄λ¬ν κ³Όμ μ κ±°μΉκ² λλ©΄ νλμ μ μ€μ²μ λν λͺ¨λ μνμ€λ€μ νλμ tensorλ‘ ν©μ³μ§κ² λκ³ λ€μκ³Ό κ°μ κ·Έλ¦Ό μ²λΌ λ κ²μ΄λ€.
joint μμΉμ 보λ₯Ό νλμ volumeμΌλ‘ νλ κ²μΌλ‘ 곡κ°μ μ 보λ₯Ό μ½κ² λνλΌ μ μμμ§λ§ κ·Έ volumeμ ν¬κΈ°κ° μ νλκΈ° λλ¬Έμ μκ°λ½μ μ¬μΈν μμ§μκΉμ§λ λνλ΄μ§λ λͺ»νλ€. κ·Έ λλ¬Έμ μ΄ λ Όλ¬Έμμλ 보쑰μ μΈ μΈνμΌλ‘μ μκ°λ½μ μλμ μμΉλ€μΈ FRPVλ₯Ό μ΄μ©νλ€. νΉμ νλ μ μ μμ§μκ°λ½μ κΈ°μ€μΌλ‘ ν κ° μκ°λ½μ μλμ μμΉ λ²‘ν°λ₯Ό λ€μκ³Ό κ°μ΄ ꡬν μ μλ€.
t λ²μ§Έ νλ μμ μμ§ μμΉ λ²‘ν°, κ° λ²μ§Έ νλ μμ κ²μ§, μ€μ§, μ½μ§, μμ§ μμΉ λ²‘ν°
λ§μ§λ§μΌλ‘, λͺ¨λ νλ μμ κ° λ²‘ν°λ€μ ν©μΉ¨μΌλ‘μ μ ꡬν μ μλ€.
νΉμ μ μ€μ²λ₯Ό λ λΌκ³ ν μ μκ³ , μμ jointλ HPEV λμ λ§μ°¬κ°μ§λ‘ λ‘ λνλΌ μ μλ€. μ΄ λ, λͺ¨λ κ΄μ μ λν μ€μ¬μ
jλ Jκ°μ μ 체 κ΄μ μ€μμ 5κ°μ μ λ κ΄μ μ μΈλ±μ€λ₯Ό λνλΈλ€. μ΄λ κ² κ΅¬ν λ₯Ό νμΌλ‘ νλ μμ μ΄λ‘ 맡ννκ² λλ©΄ κ° xyz μΈ κ°μ μμΉ μ 보λ₯Ό μ±λλ‘ νλ Hand Movement Mapμ μμ±ν μ μκ² λλ€.
hyper parameters: