SignBot: Learning Human-to-Humanoid Sign Language Interaction
์ ์: Guanren Qiao, Sixu Lin, Ronglai Zuo, Zhizheng Wu, Kui Jia, Guiliang Liu | ๋ ์ง: 2025-05-30 | URL: https://arxiv.org/abs/2505.24266 📄 PDF
Essence
Fig. 2: Overview of SignBot: The framework consists of three stages: (1) Motion Retargeting aligns human sign language
SignBot์ ์ํ ์ธ์ด๋ฅผ ์ธ์ํ๊ณ ์์ฑํ ์ ์๋ ์ธ๊ฐํ ๋ก๋ด์ ์ํ ํ๋ ์์ํฌ๋ก, motion retargeting, policy training, ๊ทธ๋ฆฌ๊ณ generative interaction์ ํตํฉํ์ฌ ์ฒญ๊ฐ์ฅ์ ์ธ๊ณผ์ ์์ฐ์ค๋ฌ์ด ์ํธ์์ฉ์ ์คํํ๋ค.
Motivation
- Known: ์ต๊ทผ computer vision๊ณผ LLM์ ๋ฐ์ ์ผ๋ก ์ํ ์์ฑ, ๋ฒ์ญ, ์ธ์์ด ํฅ์๋์์ผ๋, ์ด๋ฌํ ์์คํ
๋ค์ ์ค์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ์ ๊ณตํ์ง ๋ชปํ๋ค. ์ธ๊ฐํ ๋ก๋ด์ ๋ฐ์ ์ผ๋ก embodied AI๋ฅผ ํตํ ์ค์ ์ํธ์์ฉ์ด ๊ฐ๋ฅํด์ก๋ค.
- Gap: ๊ธฐ์กด teleoperation ๋ฐฉ์์ ์๋์ฑ์ด ๋ถ์กฑํ๊ณ , learning-based control์ ์๊ฐ๋ฝ์ ๋ณต์กํ ์์ง์์ ๋ค๋ฃจ์ง ๋ชปํ๋ฉฐ, ๋๋ถ๋ถ์ dexterous hand๋ DoF์ ์๋ชฉ ์ ์ฐ์ฑ์ด ์ ํ์ ์ด๋ค.
- Why: ์ฒญ๊ฐ์ฅ์ ์ธ(DHH) ์ปค๋ฎค๋ํฐ์ ์์ฌ์ํต ์ ๊ทผ์ฑ ํฅ์๊ณผ ์์ ์ธ์ด ์ฌ์ฉ์์์ ์ํธ์์ฉ ์ด์ง์ด ์ค์ํ๋ฉฐ, embodied AI๋ฅผ ํตํ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ด ์ค์ ์ฌํ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.
- Approach: SignBot์ ์ธ ๊ฐ์ง ์ฃผ์ ์ปดํฌ๋ํธ๋ก ๊ตฌ์ฑ๋๋ค: (1) ์ธ๊ฐ ์ํ๋ฅผ ๋ก๋ด kinematics๋ก ๋ณํํ๋ motion retargeting, (2) decoupled upper/lower body policies๋ก simulation์์ ํ์ตํ๋ policy training, (3) translator, responder, generator๋ฅผ ํตํฉํ generative interaction ๋ชจ๋.
Achievement
Fig. 4: An example of real-world interaction between the robot and the human customer.
- ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ํ๋ ์์ํฌ: ์ฒญ๊ฐ์ฅ์ ์ธ ์ปค๋ฎค๋ํฐ์ ๋ก๋ด ๊ฐ seamlessํ ์ํ ์์ฌ์ํต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํตํฉ ์์คํ
๊ฐ๋ฐ
- ์ ํํ ์ํ ์คํ: ๋ค์ํ ์ธ๊ฐ ์ํ ๋์์ ๊ฐ๊ฑดํ๊ฒ ์ ์ํ๋ ๋ก๋ด ์ ์ด ์ ์ฑ
์ผ๋ก ์์ ์ ์ด๊ณ ์ ํํ ์ํ ํํ ๋ฌ์ฑ
- ๋๋ฉ์ธ ์ ์์ฑ: Sim-to-Real ์ ์ด๋ฅผ ํตํด ๋ค์ํ ๋ก๋ด๊ณผ ๋ฐ์ดํฐ์
์ ๋ํ ์ ์ ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
How
Fig. 2: Overview of SignBot: The framework consists of three stages: (1) Motion Retargeting aligns human sign language
- Human sign language video mesh์์ motion ์ถ์ถ ํ, body์ hand๋ฅผ ๋ถ๋ฆฌํ์ฌ retargeting ์ํ
- Dual T-Pose๋ฅผ spatial alignment reference๋ก ์ฌ์ฉํ์ฌ human skeleton๊ณผ robot skeleton ๊ฐ mapping
- Upper body๋ imitation learning์ผ๋ก target sign language pose๋ฅผ ์ถ์ , lower body๋ RL policy๋ก ์์ ์ฑ ์ ์ง
- POMDP ๊ธฐ๋ฐ robot learning ํ๊ฒฝ ์ ์๋ก proprioception๊ณผ goal imitation์ผ๋ก ๊ตฌ์ฑ๋ observation space ํ์ฉ
- Sign language translation function (fT), responding function (fR), generation function (fG)๋ฅผ ํตํ closed-loop interaction pipeline ๊ตฌ์ฑ
- Conditional sequence generation์ผ๋ก text ์
๋ ฅ์ผ๋ก๋ถํฐ SMPL-X ๊ธฐ๋ฐ sign language ์ํ์ค ์์ฑ
Originality
- ์ฒ์์ผ๋ก embodied humanoid robot์์ autonomous sign language interaction์ ๊ตฌํํ ์ฐ๊ตฌ๋ก, ๊ธฐ์กด teleoperation ๋ฐฉ์์ ์๋์ฑ ๋ถ์กฑ ๋ฌธ์ ํด๊ฒฐ
- Decoupled policy ์ ๊ทผ์ผ๋ก upper body์ ๋ณต์กํ hand gesture์ lower body์ ์์ ์ฑ์ ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํ๋ ์ ๊ท ๋ฐฉ์
- Sign language processing์ translation, response, generation ์ธ ๊ฐ์ง ๋ชจ๋์ ํตํฉํ์ฌ closed-loop interaction ๊ตฌํ
- Motion retargeting์์ ์ถ๊ฐ DoF๋ฅผ ๋์
ํ์ฌ ๋ก๋ด์ ์์ฐ์ค๋ฌ์ด ์ํ ํํ ํฅ์
Limitation & Further Study
- ๋๋ถ๋ถ์ dexterous hand๊ฐ ์ ํ๋ DoF๋ฅผ ๊ฐ์ง๊ณ ์์ด ์ํ์ ์ธ๋ถ ํํ์ ์ ์ฝ ๊ฐ๋ฅ์ฑ
- Hand retargeting ๋ฐฉ๋ฒ์ ๋ํ ์์ธ ์ค๋ช
์ด ๋ถ์กฑํ์ฌ ์๊ฐ๋ฝ์ ๋ณต์กํ ์์ง์ ์ฒ๋ฆฌ ๋ฐฉ์์ด ๋ช
ํํ์ง ์์
- ๋ค์ํ sign language dialect์ ์ง์ญ๋ณ ๋ณ์ด์ ๋ํ ์ ์์ฑ ๊ฒ์ฆ ํ์
- Real-world interaction ์คํ์ ๊ท๋ชจ์ ์ ๋์ ํ๊ฐ ์งํ๊ฐ ์ ํ์ ์ผ ์ ์์
- ํ์ ์ฐ๊ตฌ๋ ๋ ๋ง์ DoF๋ฅผ ๊ฐ์ง dexterous hand ๊ฐ๋ฐ, ๋ค๊ตญ์ด ์ํ ์ฒ๋ฆฌ, ๋๊ท๋ชจ ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ํตํ ์ฌํ์ ์ํฅ ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: SignBot์ embodied humanoid robot์์ ์ฒ์์ผ๋ก ์๋ํ๋ sign language interaction์ ๊ตฌํํ ํ์ ์ ์ฐ๊ตฌ๋ก, ์ฒญ๊ฐ์ฅ์ ์ธ ์ปค๋ฎค๋ํฐ์ ์์ฌ์ํต ์ ๊ทผ์ฑ ํฅ์์ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง hand retargeting ๊ธฐ์ ์ ์์ธ ์ค๋ช
๊ณผ ๋ ๊ด๋ฒ์ํ ์ค์ธ๊ณ ํ๊ฐ๊ฐ ๋ณด์๋๋ฉด ์ํฅ๋ ฅ์ด ๋์ฑ ์ฆ๋๋ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์