Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots
์ ์: Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang | ๋ ์ง: 2026-03-06 | URL: https://arxiv.org/abs/2603.06181 📄 PDF
Essence
Figure 1.
Motion Turing Test๋ผ๋ ๊ฐ๋
์ ์ ์ํ์ฌ ์ธ๊ฐ๊ด์ฐฐ์๊ฐ ํค๋ค๋งํฑ ์ ๋ณด๋ง์ผ๋ก ํด๋จธ๋
ธ์ด๋ ๋ก๋ด๊ณผ ์ธ๊ฐ์ ์์ธ๋ฅผ ๊ตฌ๋ถํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๊ณ , ์ด๋ฅผ ์ํด 1,000๊ฐ์ ๋ชจ์
์ํ์ค๋ก ๊ตฌ์ฑ๋ HHMotion ๋ฐ์ดํฐ์
๊ณผ human-likeness ์์ธก ๊ธฐ์ค์ ๋ชจ๋ธ์ ์ ์ํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ชจ์
์์ฑ ๋ฐ ์ ์ด ๊ธฐ์ ์ด ์๋นํ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ๋ค์ํ ๋ชจ์
์์ฑ ๋ฐฉ๋ฒ(autoregressive, diffusion-based, adversarial framework)์ด ์กด์ฌํ๋ค. ๊ทธ๋ฌ๋ ๋ชจ์
์ human-likeness๋ฅผ ์ ๋์ ์ผ๋ก ํ๊ฐํ๋ ํต์ผ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Gap: ๊ธฐ์กด ๋ชจ์
๋ฐ์ดํฐ์
์ ์ธ๊ฐ ๋ชจ์
์๋ง ์ด์ ์ ๋ง์ถ๊ฑฐ๋ robot appearance ์ ๋ณด๋ก ์ธํด ํ๊ฐ๊ฐ ํธํฅ๋ ์ ์์ผ๋ฉฐ, ๋ก๋ด๊ณผ ์ธ๊ฐ ๋ชจ์
์ human-likeness๋ฅผ ์ง์ ๋น๊ต ํ๊ฐํ ์ ์๋ ๋ฒค์น๋งํฌ์ ์ ๋ํ๋ ํ๊ฐ ๋ฉํธ๋ฆญ์ด ์๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ชจ์
์ ์์ฐ์ค๋ฌ์๊ณผ ์ธ๊ฐ์ ์ฌ์ฑ์ ๋ก๋ด ๊ฐ๋ฐ์ ํต์ฌ ๋ชฉํ์ด๋ฉฐ, ์ด๋ฅผ ๊ฐ๊ด์ ์ผ๋ก ํ๊ฐํ๊ณ ๊ฐ์ ํ๊ธฐ ์ํ ์ฒด๊ณ์ ์ธ ํ๊ฐ ํ๋ ์์ํฌ์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค.
- Approach: SMPL-X๋ฅผ ์ด์ฉํ์ฌ RGB ๋น๋์ค์์ ํ
์ค์ฒ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ skeleton ๊ธฐ๋ฐ ํํ์ ์ถ์ถํ๊ณ , 30๋ช
์ ํ๊ฐ์๊ฐ 0-5 Likert scale๋ก 1,000๊ฐ ๋ชจ์
ํด๋ฆฝ์ ํ๊ฐํ์ฌ ground truth human-likeness score๋ฅผ ๊ตฌ์ถํ๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก PTR-Net์ด๋ผ๋ ํ๊ท ๊ธฐ๋ฐ ๊ธฐ์ค์ ๋ชจ๋ธ์ ์ ์ํ์ฌ VLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํจ์ ๋ณด์ธ๋ค.
Achievement
Figure 2. Action sources, types, and category distribution in the
- HHMotion ๋ฐ์ดํฐ์
: 11๊ฐ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ชจ๋ธ๊ณผ 10๋ช
์ ์ธ๊ฐ ํผํ์๋ก๋ถํฐ ์์งํ 21.7์๊ฐ ๋ถ๋์ 1,000๊ฐ ๋ชจ์
ํด๋ฆฝ, 15๊ฐ ์ก์
์นดํ
๊ณ ๋ฆฌ, 500์๊ฐ ์ด์์ human-likeness ์ ์ ์ฃผ์์ผ๋ก ๊ตฌ์ฑ
- Motion Turing Test ํ๋ ์์ํฌ: ๋ชจ์
์ human-likeness๋ฅผ ์ ๋์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ์ฒด๊ณ์ ์ธ ํ๊ฐ ๊ธฐ์ค ์ ์
- ์์ธํ ๋ถ์: ๋ฐ์ฑ, ์ ํ, ๋ฌ๋ฆฌ๊ธฐ ๋ฑ์ ๋์ ์ก์
์์ ๋ก๋ด ๋ชจ์
์ด ์ธ๊ฐ๊ณผ ํ์ ํ ํธ์ฐจ๋ฅผ ๋ณด์ด๋ฉฐ, ๊ฑท๊ธฐ ๊ฐ์ ์ ์ ์ก์
์์๋ ๋ ์ ์ฌํจ์ ์ค์ฆ
- PTR-Net ๊ธฐ์ค์ ๋ชจ๋ธ: ๋ค์ํ prompt ์ ๋ต์ ์ฌ์ฉํ VLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค(GPT-4V, Claude ๋ฑ)์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ๊ณต๊ฐ ์์: ๋ฐ์ดํฐ์
, ์ฝ๋, ๋ฒค์น๋งํฌ๋ฅผ ๊ณต๊ฐํ์ฌ ํฅํ ์ฐ๊ตฌ ์ง์
How
Figure 3. Overview of the human scoring pipeline, where all the humanoid robot and human motions are converted into SMPL
- RGB ๋น๋์ค์์ SMPL-X ์ ์ ๋ชจ๋ธ ์ถ์ ์ผ๋ก visual appearance ์ํฅ ์ ๊ฑฐ ๋ฐ ์์ ๋ชจ์
์ ๋ณด๋ง ์ถ์ถ
- Motion Turing Test๋ฅผ 0-5 Likert scale์ ํ๊ท ์์
์ผ๋ก ์ฌ์ ์ํ์ฌ human-likeness ์ ์ ์์ธก
- Pose-Temporal Regression Network (PTR-Net) ์ค๊ณ: temporal ์ ๋ณด์ pose ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ human-likeness ์ ์ ํ๊ท
- 30๋ช
์ ํ๊ฐ์ ๋ฆฌ์ฟ ๋ฅดํธ ๋ฐ ์๊ฒฉํ annotation protocol ์ ์ฉ์ผ๋ก ์ ๋ขฐ์ฑ ์๋ ground truth ๊ตฌ์ถ
- 5๊ฐ ์์ค(์ค์ ๋ก๋ด, ์๋ฎฌ๋ ์ด์
๋ก๋ด, ์์๋ด์ฌ์ ์ธ๊ฐ, ๋ก๋ด ๋ชจ๋ฐฉ ์ธ๊ฐ, YouTube)์์ ๊ท ํ์กํ ๋ฐ์ดํฐ ์์ง
- VLM ๊ธฐ๋ฐ baseline(GPT-4V, Claude ๋ฑ)๊ณผ์ ๋น๊ต ํ๊ฐ๋ฅผ ํตํด ์ ์ ๋ชจ๋ธ์ ์ฐ์์ฑ ์
์ฆ
Originality
- Motion Turing Test ๊ฐ๋
์ ๋ช
ํํ ์ ์ ๋ฐ ํ์ํ: ๊ธฐ์กด์ ๋ชจํธํ Turing Test ๊ฐ๋
์ ๋ชจ์
ํ๊ฐ์ ํนํ๋ ๊ตฌ์ฒด์ ์ธ ํ๋ ์์ํฌ๋ก ์ฌ๊ตฌ์ฑ
- Human-Humanoid Motion ์ง์ ๋น๊ต ๋ฐ์ดํฐ์
: ๋์ผ ์ก์
์ ์ํํ๋ ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ชจ์
์ ํจ๊ป ์์งํ์ฌ ์ง์ ๋น๊ต ๊ฐ๋ฅํ ์ต์ด์ ๋ฐ์ดํฐ์
- SMPL-X ๊ธฐ๋ฐ appearance-agnostic ํ๊ฐ: ๋ก๋ด ์ธํ์ ์ํฅ์ ์ ๊ฑฐํ๊ณ ์์ ๋ชจ์
๋ง์ผ๋ก ํ๊ฐํ๋ ํ์ ์ ์ ๊ทผ๋ฒ
- ๋๊ท๋ชจ human-likeness annotation: 500์๊ฐ ์ด์์ ์ฃผ์์ ํตํ ์ ๋ขฐ์ฑ ์๋ ์ ๋ํ๋ ํ๊ฐ ๋ฉํธ๋ฆญ ์ ๊ณต
- human-likeness ํ๊ท ์์
์ ๊ณต์ํ: ์ด์ง ํ๋ณ์ด ์๋ ์ฐ์์ human-likeness ์ ์ ์์ธก์ผ๋ก ๋ ์ธ๋ฐํ ํ๊ฐ ๊ฐ๋ฅ
Limitation & Further Study
- ํ๊ฐ ํธํฅ ๊ฐ๋ฅ์ฑ: 30๋ช
์ ํ๊ฐ์ ๊ทธ๋ฃน์ด ์ ํ์ ์ผ ์ ์์ผ๋ฉฐ, ๋ฌธํ์ ยท๋ฐฐ๊ฒฝ์ ์ฐจ์ด๊ฐ human-likeness ์ธ์์ ์ํฅ์ ๋ฏธ์น ์ ์์
- SMPL-X ์ถ์ ์ค๋ฅ: RGB ๋น๋์ค์์ SMPL-X ๋ชจ๋ธ์ ์ถ์ ํ๋ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ค๋ฅ๊ฐ ์ต์ข
ํ๊ฐ์ ์ํฅ์ ์ค ์ ์์
- ์ก์
์นดํ
๊ณ ๋ฆฌ ํ๊ณ: 15๊ฐ ์ก์
์นดํ
๊ณ ๋ฆฌ๋ ๋ชจ๋ ๊ฐ๋ฅํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ชจ์
์ ๋ํํ์ง ๋ชปํ ์ ์์
- ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๊ฐ๊ฒฉ: ์๋ฎฌ๋ ์ด์
๋ก๋ด ๋ชจ์
๊ณผ ์ค์ ๋ก๋ด ๋ชจ์
๊ฐ์ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ์กด์ฌํ ์ ์์
- PTR-Net์ ๋จ์์ฑ: ์ ์๋ ๊ธฐ์ค์ ๋ชจ๋ธ์ ์๋์ ์ผ๋ก ๋จ์ํ์ฌ ๋ ๋ณต์กํ temporal-spatial ํน์ฑ์ ์ถฉ๋ถํ ํฌ์ฐฉํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ํฐ ๊ท๋ชจ์ ํ๊ฐ์ ํ์ ํตํ ํ๊ฐ ์ ๋ขฐ์ฑ ๊ฐํ, (2) ๋ค์ํ ์ ์ฒด ์ ํ์ ๋ก๋ด ํฌํจ, (3) human-likeness ์ ์๋ฅผ ๋ณด์ ์ ํธ๋ก ํ๋ reinforcement learning ๊ธฐ๋ฐ ๋ชจ์
์์ฑ ์ฐ๊ตฌ, (4) ๋ค์ํ ๋ฌธํ๊ถ ํ๊ฐ์๋ฅผ ํฌํจํ cross-cultural ๋ถ์, (5) temporal consistency์ physical plausibility ๊ฐ์ ์ถ๊ฐ ํ๊ฐ ์ฐจ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Motion Turing Test๋ผ๋ ๋ช
ํํ ๊ฐ๋
์ ์์ ์ด๋ฅผ ๋ท๋ฐ์นจํ๋ ํฌ๊ด์ ์ธ HHMotion ๋ฐ์ดํฐ์
์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ชจ์
ํ๊ฐ ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. SMPL-X ๊ธฐ๋ฐ appearance-agnostic ํ๊ฐ ๋ฐฉ์๊ณผ 500์๊ฐ์ ๋๊ท๋ชจ ์ธ๊ฐ ์ฃผ์์ ๋์ ์ ๋ขฐ์ฑ์ ์ ๊ณตํ๋ฉฐ, ์ ์๋ PTR-Net์ด VLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ ๊ฒฐ๊ณผ๋ ์ ๋ฌธํ๋ ๋ชจ์
ํ๊ฐ ๋ชจ๋ธ์ ํ์์ฑ์ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์