Trinity: A Modular Humanoid Robot AI System
์ ์: Jingkai Sun, Qiang Zhang, Gang Han, Wen Zhao, Zhe Yong, Yan He, Jiaxu Wang, Jiahang Cao, Yijie Guo, Renjing Xu | ๋ ์ง: 2025-03-11 | URL: https://arxiv.org/abs/2503.08338 📄 PDF
Essence
Fig. 1: Overview of the Modular Humanoid Robot AI System. In this system, task instructions are processed by both a visi
LLM, VLM, RL์ ํตํฉํ ๋ชจ๋์ ์ธ๊ฐํ ๋ก๋ด AI ์์คํ
Trinity๋ฅผ ์ ์ํ์ฌ ๋ณต์กํ ํ๊ฒฝ์์ ํจ์จ์ ์ธ ์ ์ด๋ฅผ ์คํํ๋ค. ๊ณ์ธต์ ์ํคํ
์ฒ๋ฅผ ํตํด ์ธ์ด ์ดํด, ์๊ฐ ์ธ์, ๋์ ์ ์ด๋ฅผ ์กฐํ๋กญ๊ฒ ์ํํ๋ค.
Motivation
- Known: RL์ ์ธ๊ฐํ ๋ก๋ด์ ๋์ ์ ์ด ์ฑ๋ฅ์ ํฅ์์์ผฐ๊ณ , LLM๊ณผ VLM์ ์๋ฏธ๋ก ์ ๊ณํ๊ณผ ํ๊ฒฝ ์ธ์ ๋ฅ๋ ฅ์ ์ ๊ณตํ๋ค. ํ์ง๋ง ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ด๋ค ๊ธฐ์ ์ ๋
๋ฆฝ์ ์ผ๋ก ์ ์ฉํ๊ฑฐ๋ ๋จ์ํ ๋ก๋ด ๊ตฌ์ฑ์๋ง ์ ์ฉํด์๋ค.
- Gap: ๋ณต์กํ ์ ์ ์ ์ด์ ์กฐ์์ด ํ์ํ ์ธ๊ฐํ ๋ก๋ด์์ RL, LLM, VLM์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ฉฐ, ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ๋ ์ ํ์ ์ด๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ด ์ธ๊ฐ ์ํ ๊ณต๊ฐ์์ ๋ณต์กํ ์์
์ ์ํํ๋ ค๋ฉด ์ธ์ด ์ดํด, ์๊ฐ ์ธ์, ์์ ์ ๋์ ์ ์ด๊ฐ ๋์์ ํ์ํ๋ฉฐ, ์ด๋ ๋ก๋ด ์ง๋ฅํ์ ํต์ฌ ๊ณผ์ ์ด๋ค.
- Approach: ๋ชจ๋์ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ํตํด LLM (์๋ฏธ๋ก ์ ํ์คํฌ ๊ณํ), VLM (ํ๊ฒฝ ์ธ์), RL (๋์ ์ ์ด)์ ๋ถ๋ฆฌํ๊ณ ์ํธ์์ฉํ๊ฒ ์ค๊ณํ์ฌ, ๊ฐ ๋ชจ๋์ ๋
๋ฆฝ์ ์ต์ ํ์ ํ๋ ฅ์ ๋์์ ๋์์ ์คํํ๋ค.
Achievement
Fig. 3: Process of a humanoid robot opening a door. The humanoid robot begins
- ์ฒซ ํตํฉ ์์คํ
: LLM, VLM, RL์ ์ธ๊ฐํ ๋ก๋ด์ ์ฒ์ ํตํฉํ์ฌ ์ค์ ๋ํ ๋ก๋ด์์์ ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ํจ๊ณผ์ฑ์ ์
์ฆํ๋ค.
- ๋ชจ๋์ ๊ณ์ธต ์ค๊ณ: ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ถํดํ๊ณ ๊ต์ฒด ๊ฐ๋ฅํ ๋ชจ๋ธ๋ค๋ก ์ฒ๋ฆฌํ์ฌ ์ ์ฐ์ฑ๊ณผ ํ์ฅ์ฑ์ ํฅ์์์ผฐ๋ค.
- ํด์์ฑ๊ณผ ์์ ์ฑ: ๋ค์ค ๋ชจ๋ ๊ฐ ์ํธ์์ฉ์ ํตํด ์์คํ
ํด์์ฑ์ ๋ณด์ฅํ๊ณ ๋ก๋ด ๋์์ ์์ ์ฑ์ ํ๋ณดํ๋ค.
How
Fig. 1: Overview of the Modular Humanoid Robot AI System. In this system, task instructions are processed by both a visi
- LLM์ ์ฌ์ฉํ์ฌ ์์ฐ์ด ์ง์์ฌํญ์ผ๋ก๋ถํฐ ์๋ฏธ๋ก ์ ์ดํด์ ์ฅ๊ธฐ ํ์คํฌ ๊ณํ์ ์ํ
- VLM์ผ๋ก ํ๊ฒฝ ์ธ์๊ณผ ๊ฐ์ฒด ๊ฐ์ง๋ฅผ ํตํด ์กฐ์ ๋์์ ์์น์ ํน์ฑ์ ํ์
- RL ๊ธฐ๋ฐ ๋ณดํ ์ ์ฑ
(locomotion policy)๊ณผ ์ ์ ์ด๊ธฐ(hand controller)๋ก ์์ ์ ์ธ ๋์ ์ ์ด ๊ตฌํ
- Arm Planner๋ฅผ ํตํด ์์ง ์์ง์์ ๋์ํ์ฌ ํ์ง์ ๋ฌด๊ฒ์ค์ฌ์ ์กฐ์ ํ์ฌ ๊ท ํ ์ ์ง
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ RL ์ ์ฑ
์ ํ์ตํ๊ณ ์ค์ ๋ก๋ด์ ๋ฐฐํฌ
Originality
- ์ธ๊ฐํ ๋ก๋ด์ ์ ์ ์ ์ด ๋ฌธ์ ์ RL, LLM, VLM์ ์ฒ์์ผ๋ก ํตํฉํ ์์คํ
์ค๊ณ
- ๋ณดํ(locomotion) ์ ์ฑ
๊ณผ ์กฐ์(manipulation) ๋คํธ์ํฌ๋ฅผ ๋ถ๋ฆฌํ์ฌ ๋ก์ฝ-์กฐ์ ๋ฅ๋ ฅ ํฅ์
- ๊ณ์ธต์ ๋ชจ๋ ๊ตฌ์กฐ๋ฅผ ํตํด ๊ฐ ๊ธฐ์ ์ ์ฅ์ ์ ํ์ฉํ๋ฉด์ ์์คํ
์์ ์ฑ๊ณผ ํด์์ฑ์ ๋์์ ํ๋ณด
- ์ค์ ๋ํ ์ธ๊ฐํ ๋ก๋ด ํ๋ซํผ์์์ ํฌ๊ด์ ์์คํ
๊ฒ์ฆ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ์ ์ฐจ์ด(sim-to-real gap)๊ฐ ์ฌ์ ํ ์กด์ฌํ๋ฉฐ, ํนํ ๋ณต์กํ ์ํธ์์ฉ๊ณผ ๋ณํ ๊ฐ๋ฅํ ํ๊ฒฝ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ ํ
- ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด ๋์ผ๋ฉฐ, ํน์ ์๋๋ฆฌ์ค์ ๋ํ ์์กด์ฑ์ด ์กด์ฌ
- ๋ชจ๋ ๊ฐ ํต์ ์ค๋ฅ ๋๋ ๊ฐ๋ณ ๋ชจ๋์ ์คํจ๊ฐ ์์คํ
์ ์ฒด์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๊ฐ๋ ฅํ sim-to-real ์ ์ด ํ์ต ๊ธฐ๋ฒ, ์จ๋ผ์ธ ํ์ต๊ณผ ์ ์(adaptation) ๋ฅ๋ ฅ ๊ฐํ, ๋ณต์กํ ๋ฉํฐ-ํ์คํฌ ํ์ต ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Trinity๋ RL, LLM, VLM์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ ํ์ ์ ์ธ๊ฐํ ๋ก๋ด AI ์์คํ
์ผ๋ก, ๋ชจ๋์ ์ค๊ณ๋ฅผ ํตํด ์ ์ฐ์ฑ๊ณผ ํด์์ฑ์ ํ๋ณดํ๊ณ ์ค์ ๋ก๋ด์์์ ๋์์ ์
์ฆํจ์ผ๋ก์จ ๊ตฌํ์ ๊ฐ์น๊ฐ ๋๋ค. ๋ค๋ง sim-to-real ๊ฐญ๊ณผ ๋ชจ๋ ๊ฐ ์ํธ์์ฉ์ ๊ฒฌ๊ณ ์ฑ์ ๋ํ ์ฌํ ๋ถ์์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์