Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations
์ ์: Wei-Jin Huang, Yue-Yi Zhang, Yi-Lin Wei, Zhi-Wei Xia, Juantao Tan, Yuan-Ming Li, Zhilin Zhao, Wei-Shi Zheng | ๋ ์ง: 2026-01-14 | DOI: 10.48550/arXiv.2601.09518 📄 PDF
Essence
Figure 2. PAIR preserves physical consistency where naive meth-
ํด๋จผ-ํด๋จผ ์ธํฐ๋์
(HHI) ๋ฐ์ดํฐ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๋ณด์กดํ๋ฉด์ ํด๋จผ-ํด๋ชจ์ด๋ ์ธํฐ๋์
(HHoI)์ผ๋ก ๋ณํํ๋ PAIR์, ์๊ฐ์ ์๋์ ๊ณต๊ฐ์ ์ ํ์ ๋ถ๋ฆฌํ์ฌ ์ํธ์์ฉ์ ์ดํด๋ฅผ ๊ฐ์ถ D-STAR ์ ์ฑ
์ ์ ์ํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ธ๊ฐ๊ณผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ํธ์์ฉํ ์ ์๋๋ก ํ์ตํ๋ ๊ฒ์ ์ค์ํ์ง๋ง, HHoI ๋ฐ์ดํฐ์ ๋ถ์กฑ์ผ๋ก ์งํ์ด ์ ํ๋๋ค. ๊ธฐ์กด ์ฌํ๊ฒํ
๊ธฐ๋ฒ์ ๋์์ ์ด๋ํ์ ์ ์ฌ์ฑ๋ง ๋ณด์กดํ๋ฏ๋ก ๋ชจํด๋ก์ง ์ฐจ์ด๋ก ์ธํด ํ์ ์ ์ด์ ์์์ํจ๋ค.
- Gap: ํ์ค ์ฌํ๊ฒํ
์ ์ ์ด ์๋งจํฑ์ ๋ณด์กดํ์ง ๋ชปํ๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ฐฉํ์ต ์ ์ฑ
์ ๊ถค์ ์ ๋ชจ๋ฐฉํ ๋ฟ ์ํธ์์ฉ์ ์ดํด์ ๋ฐ์์ฑ์ด ๋ถ์กฑํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ธ๊ฐ-๋ก๋ด ํ๋ ฅ ๋ฅ๋ ฅ์ ๊ณต์ ํ๊ฒฝ์์์ ์์ฐ์ค๋ฌ์ด ์ํธ์์ฉ์ ์ํด ํ์์ด๋ฉฐ, ํ๋ถํ HHI ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋ค๋ฉด ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ๋ํญ ์ ๊ฐํ ์ ์๋ค.
- Approach: PAIR๋ ๋ ๋จ๊ณ์ ์ต์ ํ ํ์ดํ๋ผ์ธ์ผ๋ก ์ ์ด ์๋งจํฑ์ ๋ช
์์ ์ผ๋ก ๋ณด์กดํ๊ณ , D-STAR๋ Phase Attention(์ธ์ )๊ณผ Multi-Scale Spatial ๋ชจ๋(์ด๋)์ ๋ถ๋ฆฌํ์ฌ diffusion head๋ก ์ตํฉํจ์ผ๋ก์จ ๋๊ธฐํ๋ ์ ์ ํ๋์ ์์ฑํ๋ค.
Achievement
Figure 1. From HHI to HHoI with simulation and real-robot results. Left: PAIR (Physics-Aware Interaction Retargeting) co
- PAIR ๊ฐ๋ฐ: ์ํธ์์ฉ ์ธ์ํ NรN ํด๋จผ-๋ก๋ด ๊ฑฐ๋ฆฌ ์์ค Lcon์ ํฌํจํ ๋ ๋จ๊ณ ์ฌํ๊ฒํ
ํ์ดํ๋ผ์ธ์ผ๋ก ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ HHoI ๋ฐ์ดํฐ ์์ฑ
- D-STAR ์ ์: Phase Attention๊ณผ Multi-Scale Spatial ๋ชจ๋์ ๋ถ๋ฆฌํ์ฌ ์๊ฐ์ ์์๊ณผ ๊ณต๊ฐ์ ๋
ธ์ด์ฆ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ํ์ต, ๋ฐ์์ ํ๋ ฅ ์คํ
- ํ์ฅ์ฑ: HHI ๋ฐ์ดํฐ์
์์ ๋๊ท๋ชจ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ HHoI ๋ฐ์ดํฐ ์์ฑ ๊ฐ๋ฅ
- ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด ๊ฒ์ฆ: ๋ชจ์์คํ์์ ๊ธฐ์ค ๋ฐฉ๋ฒ ๋๋น ์ฐ์ํ ์ฑ๋ฅ, Unitree G1 ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌ
How
Figure 3. PAIR preserves contact semantics and physical consis-
- PAIR Stage 1 (Coarse Global Init): Lkin + Ltemp + Lpose + Lhum ์์ค๋ก ์ด๋ํ์ ํ๋น์ฑ ํ๋ณด
- PAIR Stage 2 (Contact-Centric Refinement): wcon ์ฆ๊ฐ์ ํจ๊ป Lcon์ ๊ฐ์กฐํ์ฌ ์ ์ด ์ผ๊ด์ฑ ์ต์ ํ
- ์ ์ด ์๋งจํฑ ๋ณด์กด: ๋๊ฐ ์ด๋๋ฅผ ๋ช ์ด ๋์ ์ ์ดํ๋์ง๋ฅผ ์ถ์ ํ๋ NรN ํด๋จผ-๋ก๋ด ๊ฑฐ๋ฆฌ ์์ค๋ก ์ ์ด ์๋ฏธ ๋ณด์กด
- Phase Attention: ์ด์ฐ ์๊ฐ ์์ ์ ๋ณด๋ก '์ธ์ ํ๋ํ ์ง' ํ์ต", "Multi-Scale Spatial ๋ชจ๋: ๋ค์ค ์ค์ผ์ผ์ ๊ณต๊ฐ ํน์ง์ผ๋ก '์ด๋์ ํ๋ํ ์ง' ํ์ต", 'Diffusion head ์ตํฉ: PA์ MSS์ ์ถ๋ ฅ์ diffusion ๋ฉ์ปค๋์ฆ์ผ๋ก ํตํฉํ์ฌ ๋๊ธฐํ๋ ์ ์ ํ๋ ์์ฑ
- ๋ชจํด๋ก์ง ์ ๋ ฌ: ๊ณจ๋ฐ ์ ๋ ฌ ๋ฐ ๋น๋ก์ ๋ผ ๊ธธ์ด ์ค์ผ์ผ๋ง์ผ๋ก ์ด๊ธฐ ๋ชจํด๋ก์ง ์ฐจ์ด ํด๊ฒฐ
Originality
- ์ํธ์์ฉ ์ธ์ํ ์ฌํ๊ฒํ
: ๊ธฐ์กด์ ์ด๋ํ์ ์ ์ฌ์ฑ ์ค์ฌ ์ฌํ๊ฒํ
์์ ๋ฒ์ด๋ ์ ์ด ์๋งจํฑ์ ๋ช
์์ ์ผ๋ก ๋ณด์กดํ๋ ์๋ก์ด ์์ค ํจ์ ์ ์
- ์๊ณต๊ฐ ๋ถ๋ฆฌ: ๋์ ์ ์ฑ
์์ ์๊ฐ์ ์๋(Phase Attention)์ ๊ณต๊ฐ์ ์ ํ(Multi-Scale Spatial)์ ๋ถ๋ฆฌํ๋ ๊ณ์ธต์ ๊ตฌ์กฐ ๋์
- ๋ ๋จ๊ณ ์ต์ ํ ์ ๋ต: ์ ์ญ ํ๋น์ฑ ํ๋ณด ํ ์ ์ด ์ ์ ๋ก ์ง์ญ ์ต์๊ฐ ๋ฌธ์ ์ํํ๋ ์ด์ค ๋จ๊ณ ์ค๊ณ
- ๋ก๋ณดํฑ์ค ์ ์ฝ ํตํฉ: ๊ด์ ํ๊ณ, ์์ฒด ์ถฉ๋, ๊ฐ์ฒด ์ถฉ๋ ๋ฑ ๋ก๋ณดํฑ์ค ๋ฑ๊ธ์ ์ ์ฝ์ ์ฌํ๊ฒํ
์ต์ ํ์ ํฌํจ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
์ค์ฌ ์ ๋ ํ๊ฐ: ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ ์ ํ๋ ์๋๋ฆฌ์ค(Hug, Handshake, High-Five)์์๋ง ๊ฒ์ฆ๋จ
- ์ ์ด ๊ฐ์ง ์์กด์ฑ: ์ค์ ๋ก๋ด์ ๋น๋๊ธฐ ์ผ์ฑ๊ณผ ํ์ค ์ ์ ์ ์ด๊ธฐ์ ์ ์ฝ์ ์์ ํ ๊ทน๋ณตํ์ง ๋ชปํจ
- ๋ชจํด๋ก์ง ๋ค์์ฑ: ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์ด๋ ๊ทน๋จ์ ๋ชจํด๋ก์ง ์ฐจ์ด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ
- ์ํธ์์ฉ ๋ณต์ก๋: ์ ์๋ 6๊ฐ์ง ์ํธ์์ฉ(Bend, Wave, Fly-Kiss, Hug, High-Five, Handshake)์ ๋์ด ๋ ๋ณต์กํ ์ ์ ํ๋ ฅ ์์
์ผ๋ก์ ํ์ฅ ํ์
- ํ์ ์ฐ๊ตฌ: ์ค์ ํผ๋ถ ์ ์ด ํผ๋๋ฐฑ ํตํฉ, ๋ค์ค ํด๋จธ๋
ธ์ด๋-์ธ๊ฐ ์ํธ์์ฉ, ๋์ ์ฅ๋ฉด ์ ์ ๋ฑ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ HHI์์ HHoI๋ก์ ๋ฐ์ดํฐ ๋ณํ ๋ฌธ์ ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ ๊ด์ ์์ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ์๊ณต๊ฐ ๋ถ๋ฆฌ๋ฅผ ํตํด ์ํธ์์ฉ ์ ์ฑ
์ ๋ฐ์์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ ํ์ ์ ์ธ ์ ๊ทผ์ ์ ์ํ๋ค. ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๊ฒ์ฆ์ ํตํด ์ค์ฉ์ฑ์ ์
์ฆํ์์ผ๋, ๋ ๋ค์ํ ์ํธ์์ฉ ์๋๋ฆฌ์ค์ ํ๋ซํผ์ผ๋ก์ ํ์ฅ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์