Learning Human-Humanoid Coordination for Collaborative Object Carrying
์ ์: Yushi Du, Yixuan Li, Baoxiong Jia, Yutang Lin, Pei Zhou, Wei Liang, Yanchao Yang, Siyuan Huang | ๋ ์ง: 2025-10-16 | DOI: 10.48550/arXiv.2510.14293 📄 PDF
Essence
Fig. 2: Overview of COLA. Our Policy mainly consists of three steps: (i) We train a base whole-body control policy to pr
COLA๋ proprioception๋ง์ ์ฌ์ฉํ๋ reinforcement learning ๊ธฐ๋ฐ์ ์ ์ฑ
์ผ๋ก, humanoid ๋ก๋ด์ด ์ธ๊ฐ๊ณผ ํ๋ ฅํ์ฌ ๋ฌผ์ฒด๋ฅผ ์ด๋ฐํ ๋ ์ ์์ ์ด๊ณ ์์ ์ ์ธ whole-body coordination์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: ๋ก๋ด-์ธ๊ฐ ํ๋ ฅ์ robotic arm์์ ์ ๊ฐ๋ฐ๋์์ผ๋, humanoid ๋ก๋ด์ ๋ณต์กํ whole-body dynamics๋ก ์ธํด compliant human-humanoid collaboration์ ๋ฏธ๊ฐ์ฒ ์์ญ์ด๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ model-based ์ ๊ทผ์ด๋ ์ ํ๋ scope์ ํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์์กดํ๋ค.
- Gap: Humanoid ๋ก๋ด์ด multiple terrain, diverse object types, dynamic role switching(leader/follower)์ ๋ชจ๋ ํฌํจํ compliant collaborative carrying์ ์ํํ ์ ์๋ unified framework์ด ๋ถ์ฌํ๋ค.
- Why: Humanoid ๋ก๋ด์ practical deployment๋ฅผ ์ํด healthcare, domestic assistance, manufacturing ๋ฑ ์ค์ํ ํ๊ฒฝ์์ ์ธ๊ฐ๊ณผ ์์ฐ์ค๋ฝ๊ฒ ํ๋ ฅํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์์ ์ด๋ค.
- Approach: Three-step training framework๋ฅผ ์ ์ํ๋ค: (1) whole-body control policy ํ์ต, (2) privileged object-state information์ ์ฌ์ฉํ residual teacher policy ํ์ต, (3) proprioception-only student policy๋ก์ behavioral cloning ๊ธฐ๋ฐ distillation์ ์ํํ์ฌ, ์ค์ ๋ฐฐํฌ ์ external sensor ์์ด ์๋ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Fig. 1: COLA provides a proprioception-only policy that enables compliant human-humanoid collaboration for carrying dive
- ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ: ์ธ๊ฐ์ ๋ฌผ๋ฆฌ์ ๋ถ๋ด์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 24.7% ๊ฐ์, 10.2 cm/s์ ์ ํ ์๋ ์ถ์ ์ค์ฐจ์ 0.1 rad/s์ ๊ฐ์๋ ์ถ์ ์ค์ฐจ๋ก ์ ๋ฐํ ์กฐ์ ๋ฌ์ฑ
- ์ค์ ํ๊ฒฝ ๊ฒ์ฆ: boxes, desks, stretchers ๋ฑ ๋ค์ํ ๋ฌผ์ฒด ์ ํ๊ณผ straight-line, turning, slope climbing ๋ฑ ๋ค์ํ ์ด๋ ํจํด์์ robust collaborative carrying ๋ฌ์ฑ
- ์ฌ์ฉ์ ์ฐ๊ตฌ: 23๋ช
์ ์ฐธ๊ฐ์ ๋์ human user study์์ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ํ๊ท 27.4% ๊ฐ์ ๋ compliant collaboration ํ์ธ
- ์ค์ฉ์ฑ: External sensor๋ ๋ณต์กํ interaction model ์์ด proprioception๋ง์ผ๋ก ์๋ํ๋ ์ค์ฉ์ ์๋ฃจ์
์ ์
How
Fig. 2: Overview of COLA. Our Policy mainly consists of three steps: (i) We train a base whole-body control policy to pr
- Joint state offset์ interaction force ์ถ์ ์ proxy๋ก ํ์ฉํ๋ residual ํ์ต ๋ฐฉ์ ๋์
- Carried object์ state๋ฅผ implicit collaboration constraint(์์ ์ฑ, ์ขํ)๋ก ์ธ์ฝ๋ฉ
- Teacher-student framework: teacher๋ privileged information์ผ๋ก ํ์ต, student๋ distillation์ ํตํด proprioception-only๋ก ๋ณํ
- Velocity command๋ฅผ ํตํ role allocation ์ ์ด(zero velocity = following)
- Closed-loop training environment์์ dynamic object interaction์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋ง
- Whole-body controller ๊ธฐ๋ฐ์ base policy์ residual policy ์ถ๊ฐํ์ฌ ์์ ์ฑ๊ณผ ์ ์์ฑ ๋์ ๋ฌ์ฑ
Originality
- Humanoid์ whole-body coordination์ ์ํ unified proprioception-only ์ ์ฑ
์ ์์ผ๋ก, ๊ธฐ์กด์ ์ ํ๋ scope์ ๋ชจ๋ธ-๊ธฐ๋ฐ ๋๋ ๋ถ๋ถ์ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ์ฐจ๋ณํ
- Joint state offset์ implicit force proxy๋ก ์ฌ์ฉํ๋ novel design์ผ๋ก explicit force sensing ์์ด compliant collaboration ๊ตฌํ
- Teacher-student distillation framework๋ฅผ ํตํด privileged information ๊ธฐ๋ฐ ํ์ต๊ณผ ์ค์ ๋ฐฐํฌ์ ๊ฐญ์ ํด๊ฒฐ
- Leader-follower role switching์ velocity command๋ก ๊ฐ๋จํ ์ ์ดํ๋ฉด์๋ ๋ณต์กํ interaction์ ์๋ฌต์ ์ผ๋ก ํ์ตํ๋ ๋ฐฉ์
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
-์ค์ ํ๊ฒฝ ๊ฐญ(sim-to-real gap)์ ์์ ํ ํด๊ฒฐํ์ง ๋ชปํ์ผ๋ฉฐ, ์ค์ ํ๊ฒฝ์์์ ์ฑ๋ฅ์ด ์๋ฎฌ๋ ์ด์
๋ณด๋ค ๋ฎ์ ์ ์์
- Student policy distillation ์ information loss๋ก ์ธํ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ์ด ๋ช
์์ ์ผ๋ก ๋
ผ์๋์ง ์์
- ์ธ๊ฐ ํํธ๋์ ์์ง์ ์๋ ์์ธก์ด '์๋ฌต์ (implicit)' ํ์ต์ ์์กดํ๋ฏ๋ก, ์์ธก ์คํจ ์ ๋์ ๋ฉ์ปค๋์ฆ์ด ๋ถ๋ช
ํ", 'Real-world ์คํ์ด ์ ํ๋ ์๋๋ฆฌ์ค(23๋ช
์ฌ์ฉ์, ํน์ ๋ฌผ์ฒด ์ ํ)์์๋ง ์ํ๋์์ผ๋ฏ๋ก ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์์ ํ ์
์ฆ ํ์
- ํ์ ์ฐ๊ตฌ: (1) More challenging terrains์ ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ฐ, (2) ์ธ๊ฐ ์๋ ์์ธก ์ฑ๋ฅ ๋ช
์์ ๋ถ์, (3) Multi-agent collaboration์ผ๋ก์ ํ์ฅ, (4) Physical HRI safety ํ๊ฐ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: COLA๋ humanoid-human collaborative carrying์ด๋ผ๋ ์ค์ฉ์ ๊ณผ์ ์ ๋ํด proprioception-only ์ ์ฑ
์ผ๋ก ์์ ํ ์๋ฃจ์
์ ์ ์ํ๋ฉฐ, three-step training framework์ implicit force modeling์ ํตํด ๋์ ๋
์ฐฝ์ฑ์ ๋ณด์ฌ์ค๋ค. ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ์์ ๋์์ ๊ฒ์ฆ๋ ๊ฒฐ๊ณผ๋ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ์์ฌํ๋ฉฐ, human user study๋ฅผ ํตํ compliant collaboration ํ์ธ์ผ๋ก ์ค๋ฌด์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์