Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots
์ ์: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Xinrun Xu, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Bรถrje F. Karlsson, Yehui Tang, Zongqing Lu | ๋ ์ง: 2025-10-09 | URL: https://arxiv.org/abs/2510.07882 📄 PDF
Essence
Fig. 1: DualTHOR is a novel simulator specifically tai-
์ด ๋
ผ๋ฌธ์ ์ด์คํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฅ๊ธฐ ๊ณํ์ ์ํด DualTHOR ์๋ฎฌ๋ ์ดํฐ์ ๊ณ ์ ๊ฐ๊ฐ(proprioception)์ ์ธ์ํ๋ Proprio-MLLM์ ์ ์ํ๋ฉฐ, ๊ธฐ์กด MLLM์ ๊ตฌํํ ์ธ์ ๋ถ์กฑ์ ํด๊ฒฐํ๋ค.
Motivation
- Known: MLLMs๋ ๊ณ ์์ค ๋ก๋ด ๊ณํ์๋ก ํ์ฉ๋์ด ์์ผ๋, ์ด์คํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฅ๊ธฐ ์์
์์๋ ํจ๊ณผ๊ฐ ์ ํ์ ์ด๋ค. ๊ธฐ์กด ์๋ฎฌ๋ ์ด์
ํ๋ซํผ๋ค์ ์ฃผ๋ก ๋ฐํด๋ฌ๋ฆฐ ๋ก๋ด์ด๋ ๋จ์ผํ ๋งค๋ํฐ๋ ์ดํฐ์๋ง ์ด์ ์ ๋ง์ถฐ์๋ค.
- Gap: (i) ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ํ ์ฅ๊ธฐ ๊ณํ ๋ฐ์ดํฐ ์์ง ๋ฐ ํ๊ฐ๋ฅผ ์ง์ํ๋ ํตํฉ ์๋ฎฌ๋ ์ด์
ํ๋ซํผ์ ๋ถ์ฌ, (ii) MLLMs์ ๋ถ์ถฉ๋ถํ ๊ตฌํํ ์ธ์์ผ๋ก ์ธํ ์ด์คํ ์ ํ ๋
ผ๋ฆฌ ๋ฐ ์ ์ฒด ์์น ์ถ๋ก ์ ์ด๋ ค์.
- Why: ์ด์คํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ณต์กํ ์ผ์ ์์
์ํ์ ์ ์ฌ๋ ฅ์ด ํฌ์ง๋ง, ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ๋ชจ๋ธ์ ๊ตฌํํ ์ธ์ ๋ถ์กฑ์ด ์ด๋ฅผ ํ์ฉํ๊ธฐ ์ํ ๊ทผ๋ณธ์ ์ธ ๋ณ๋ชฉ์ด ๋๊ณ ์๋ค.
- Approach: DualTHOR์ด๋ผ๋ ์๋ก์ด ์ด์คํ ํด๋จธ๋
ธ์ด๋ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ฐ๋ฐํ์ฌ ์ฐ์ ์ํ ์ ํ๊ณผ ์ฐ๋ฐ ์ํฉ ๋ฉ์ปค๋์ฆ์ ์ ๊ณตํ๊ณ , Proprio-MLLM์ ์ ์ํ์ฌ ๊ณ ์ ๊ฐ๊ฐ ์ ๋ณด, motion-based position embedding, cross-spatial encoder๋ฅผ ํตํด ๊ตฌํํ ์ธ์์ ๊ฐํํ๋ค.
Achievement
Fig. 4: The framework of Proprio-MLLM. By incorporating proprioceptive information, we propose a multimodal
- DualTHOR ์๋ฎฌ๋ ์ดํฐ: AI2-THOR์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ด์คํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ฉ ์๋ฎฌ๋ ์ด์
ํ๋ซํผ์ผ๋ก, ์ฐ์ ์ ์ด, ์ฐ๋ฐ ์ํฉ ๋ฉ์ปค๋์ฆ, ๋ค์ํ ๊ฐ์ ์ฉ ์ด์คํ ์์
์ค์ํธ๋ฅผ ์ ๊ณต
- Proprio-MLLM ๋ชจ๋ธ: ๊ณ ์ ๊ฐ๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ๊ตฌํํ ์ธ์์ ํฅ์์ํจ multimodal alignment MLLM์ผ๋ก, motion-based position embedding๊ณผ cross-spatial encoder๋ฅผ ๋์
- ์ฑ๋ฅ ๊ฐ์ : ๊ธฐ์กด MLLMs ๋๋น ํ๊ท 19.75% ๊ณํ ์ฑ๋ฅ ๊ฐ์ ๋ฌ์ฑ
How
Fig. 4: The framework of Proprio-MLLM. By incorporating proprioceptive information, we propose a multimodal
- Unity ์์ง ๊ธฐ๋ฐ์ ๋ฌผ๋ฆฌ ์์ง์ผ๋ก ์ ๋ฐํ ์ด์คํ ์ํธ์์ฉ ์๋ฎฌ๋ ์ด์
- ์ฐ์ ์ํ ์ ํ์ ํตํ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ์ค์ ์ธ ๋ก๋ด ๋์ ๋ชจ๋ธ๋ง
- ์ฐ๋ฐ ์ํฉ ๋ฉ์ปค๋์ฆ์ผ๋ก ์คํ ์ค๋ฅ์ ๋ํ ์ฌ๊ณํ ๋ฅ๋ ฅ ๊ฐ๋ฐ
- ๊ณ ์ ๊ฐ๊ฐ ์ ๋ณด(joint configuration, hand position, body state ๋ฑ)๋ฅผ MLLM์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์์ ์ตํฉ(shallow fusion) ๋ฐฉ์์ผ๋ก ํตํฉ
- Motion-based position embedding์ผ๋ก ๋ก๋ด์ ์ ์ฒด ์์น ์ธ์ ๊ฐํ
- Cross-spatial encoder๋ก ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ์
Originality
- ๊ธฐ์กด AI2-THOR ๊ธฐ๋ฐ ํ๋ซํผ ์ค ์ฒ์์ผ๋ก ์ด์คํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ ์ ์ผ๋ก ์ง์ํ๋ ์๋ฎฌ๋ ์ดํฐ ๊ฐ๋ฐ
- ์ฐ์ ์ ์ด์ ์ฐ๋ฐ ์ํฉ ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉํ ํ์ค์ ์ธ ์ฅ๊ธฐ ๊ณํ ํ๊ฒฝ ์ ๊ณต
- ๊ณ ์ ๊ฐ๊ฐ ์ ๋ณด๋ฅผ MLLM์ ๋ช
์์ ์ผ๋ก ํตํฉํ๋ novel ์ ๊ทผ๋ฒ์ผ๋ก ๊ตฌํํ ์ธ์ ๊ฐํ
- ์ด์คํ ์์
์ ๊ณ ์์ค ๊ณํ๊ณผ ์ ์์ค ์ ์ด๋ฅผ ๋์์ ํ๊ฐํ ์ ์๋ ํตํฉ ๋ฒค์น๋งํฌ ์ ๊ณต
Limitation & Further Study
- ํ์ฌ ๋ ๊ฐ์ง ํด๋จธ๋
ธ์ด๋ ๋ก๋ด(Unitree H1, Boston Dynamics Atlas)์ผ๋ก๋ง ๊ฒ์ฆ๋์์ผ๋ฏ๋ก ๋ค์ํ ๋ก๋ด ํํ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๋ฌผ๋ฆฌ ์์ง ๋จ์ํ๋ก ์ธํ sim-to-real ๊ฐญ์ด ์์ ํ ํด๊ฒฐ๋์ง ์์์ ๊ฐ๋ฅ์ฑ
- ๊ณ ์ ๊ฐ๊ฐ ์ ๋ณด์ ํ์ฉ์ด motion-based embedding๊ณผ cross-spatial encoder์๋ง ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ์ฌํ๋ ๊ตฌํํ ์ธ์ ๊ธฐ๋ฒ์ ํ์ ํ์
- ํ์ ์ฐ๊ตฌ๋ ์ค์ ๋ก๋ด์์์ ์ฑ๋ฅ ๊ฒ์ฆ, ๋ ๋ณต์กํ ํ๋ ฅ ์์
์๋๋ฆฌ์ค ์ถ๊ฐ, ๋ค์ํ ์ ์ฒด ํํ์ ๋ํ ์ ์์ ๊ณ ์ ๊ฐ๊ฐ ์ ๋ณด ํตํฉ ๋ฐฉํฅ์ผ๋ก ์งํ๋์ด์ผ ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ด์คํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฅ๊ธฐ ๊ณํ์ ์ํ ์ฒด๊ณ์ ์ธ ์๋ฎฌ๋ ์ด์
ํ๋ซํผ๊ณผ ๊ณ ์ ๊ฐ๊ฐ ๊ธฐ๋ฐ MLLM์ ์ ์ํจ์ผ๋ก์จ ๊ตฌํํ AI ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ์ค์ ๋ก๋ด์์์ ์ฑ๋ฅ ๊ฒ์ฆ๊ณผ ๋ ๋ณต์กํ ํ๋ ฅ ์์
ํ์ฅ์ด ์ด๋ฃจ์ด์ง๋ค๋ฉด ๋์ฑ ์ํฅ๋ ฅ ์๋ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์