Trinity: A Modular Humanoid Robot AI System
์ ์: Jingkai Sun, Qiang Zhang, Gang Han, Wen Zhao, Zhe Yong, Yan He, Jiaxu Wang, Jiahang Cao, Yijie Guo, Renjing Xu | ๋ ์ง: 2025-03-11 | URL: https://arxiv.org/abs/2503.08338 📄 PDF
Essence
Fig. 1: Overview of the Modular Humanoid Robot AI System. In this system, task instructions are processed by both a visi
Trinity๋ LLM, VLM, RL์ ๋ชจ๋์ ๊ณ์ธต ๊ตฌ์กฐ๋ก ํตํฉํ์ฌ humanoid robot์ ์ ์ดํ๋ ์ข
ํฉ AI ์์คํ
์ด๋ค. ๊ฐ ๋ชจ๋์ด ๋
๋ฆฝ์ ์ผ๋ก ์ต์ ํ๋๋ฉด์๋ ํ๋ ฅํ์ฌ ๋ณต์กํ ํ๊ฒฝ์์ humanoid robot์ ํจ์จ์ ์ธ ์ ์ด๋ฅผ ์คํํ๋ค.
Motivation
- Known: Humanoid robot ์ ์ด๋ RL ๊ธฐ๋ฐ controller๋ก ๋ณดํ, ์ ํ, ๋ฌ๋ฆฌ๊ธฐ ๋ฑ์ ์์
์ ์ํํด์๊ณ , ์ต๊ทผ LLM๊ณผ VLM ๊ธฐ์ ์ด ๋ฐ์ ํ๋ฉด์ semantic planning๊ณผ environmental perception ๋ฅ๋ ฅ์ด ํฅ์๋์๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๊ฐ๋จํ ๋ก๋ด ๊ตฌ์กฐ๋ ์์ฒด ์ ์ด๋ง ๋ค๋ฃจ์์ผ๋ฉฐ, ๋ณต์กํ humanoid robot์ ์ ์ ์ ์ด์ ์ฅ๊ธฐ ์ํธ์์ฉ์ ๋ค๋ฃจ๋ ํตํฉ ์์คํ
์ด ๋ถ์กฑํ๋ค.
- Gap: Humanoid robot ์ฐ๊ตฌ์ ํต์ฌ ๋์ ๋ ๊ทน๋๋ก ๋ณต์กํ ์ ์ด ๋ฌธ์ ์ simulation-to-real ๊ฒฉ์ฐจ์ด๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ฐ ๊ธฐ์ (RL, LLM, VLM)์ ๊ฐ๋ณ์ ์ผ๋ก ์ ์ฉํ์ ๋ฟ ์ค์ full-scale humanoid robot์ ๋ํ ์ข
ํฉ์ ํตํฉ ๋ฐ ๊ฒ์ฆ์ด ๋ถ์กฑํ์ผ๋ฉฐ, ํนํ loco-manipulation ๋ฌธ์ ์์ locomotion policy์ manipulation network๋ฅผ ์กฐํ๋กญ๊ฒ ์ ์ดํ๋ ์ ๊ทผ์ด ๋ฏธํกํ๋ค.
- Why: Humanoid robot์ ์์ฉํ์ ์ค์ฉ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ์ธ์ด ์ดํด, ํ๊ฒฝ ์ธ์, ๋ก๋ด ์ ์ด๊ฐ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํด์ผ ํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ณต์กํ ์ผ์ ์์
์ ์์จ์ ์ผ๋ก ์ํํ ์ ์์ด์ผ ํ๋ค. Trinity์ ๋ชจ๋์ ํตํฉ ์ค๊ณ๋ system interpretability์ safety๋ฅผ ๋ณด์ฅํ๋ฉด์๋ ๊ฐ ๊ตฌ์ฑ ์์์ ๋
๋ฆฝ์ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: Trinity๋ LLM์ ํตํด semantic understanding๊ณผ task planning์ ๋ด๋นํ๊ณ , VLM์ด environmental perception์ ์ํํ๋ฉฐ, RL ๊ธฐ๋ฐ controller๊ฐ locomotion๊ณผ manipulation์ ์ ์ดํ๋ค. ์์คํ
์ ๋ชจ๋์ ๊ณ์ธต ๊ตฌ์กฐ๋ก ์ค๊ณ๋์ด ๊ฐ ๋ชจ๋์ด ๋
๋ฆฝ์ ์ผ๋ก ์ต์ ํ๋๋ฉด์ ์ํธ์์ฉํ๋ค. ํนํ loco-manipulation ์ lower limbs์ ์ด๋๊ณผ center of mass์ ์กฐ์ ์ ํตํด balance๋ฅผ ์ ์งํ๋ novel approach๋ฅผ ์ ์ํ๋ค.
Achievement
Fig. 1: Overview of the Modular Humanoid Robot AI System. In this system, task instructions are processed by both a visi
1) ์ต์ด์ ํตํฉ ์์คํ
: LLM, VLM, RL์ humanoid robot์ ์ฒ์์ผ๋ก ํตํฉํ์ฌ full-scale humanoid robot ์์์ ์ข
ํฉ ๊ฒ์ฆ์ ์๋ฃํ๊ณ ์ค๋ฌด์ ํ๋น์ฑ์ ์
์ฆํ๋ค. 2) ๋ชจ๋์ ๊ณ์ธต ๊ตฌ์กฐ: interchangeable models์ ํตํด ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ถํดยทํด๊ฒฐํ๋ฉฐ system flexibility์ scalability๋ฅผ ํฅ์์์ผฐ๋ค. 3) ์์คํ
ํด์์ฑ ๋ฐ ์์ ์ฑ: ๋ค์ค ๋ชจ๋ ๊ฐ ์ํธ์์ฉ์ผ๋ก interpretability๋ฅผ ๋ณด์ฅํ์ฌ human-robot interaction์ ์์ ์ฑ์ ํ๋ณดํ๋ค. 4) Loco-manipulation ์ฑ๋ฅ: locomotion policy์ manipulation network์ ๋ถ๋ฆฌ๋ฅผ ํตํด lower limbs์ center of mass๋ฅผ ํ์กฐ์ ์ผ๋ก ์กฐ์ ํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
How
Fig. 2: Overview of locomotion policy training. The state transitions sampled from
- LLM์ด ์์ฐ์ด instruction์ semantic task๋ก ๋ณํํ์ฌ task planning ์ํ
- VLM์ด RGB vision input์ผ๋ก๋ถํฐ scene understanding ๋ฐ object interaction ์ ๋ณด ์ถ์ถ
- RL-based locomotion policy๊ฐ simulation training ๊ธฐ๋ฐ์ผ๋ก ๋ณดํ ์ ์ด ํ์ต
- Manipulation network๊ฐ arm skill๊ณผ hand skill์ hierarchicalํ๊ฒ ์ ์ด
- ๋ชจ๋ ๊ฐ coordination mechanism์ผ๋ก loco-manipulation ์์
์์ balance ์ ์ง
Originality
- ์ต์ด์ ํตํฉ: RL, LLM, VLM์ ๋จ์ผ humanoid robot AI system์ผ๋ก ํตํฉํ ๊ฒ์ด novelํ๋ค.
- ๋ชจ๋์ ์ค๊ณ: Interchangeable model components๋ฅผ ํตํด ์ ์ฐ์ฑ๊ณผ ํด์์ฑ์ ๋์์ ํ๋ณดํ๋ architecture๊ฐ ๋
์ฐฝ์ ์ด๋ค.
- Loco-manipulation ์ ๊ทผ: Locomotion policy์ manipulation์ ๋ถ๋ฆฌํ๋ฉด์๋ center of mass ์กฐ์ ์ ํตํด balance๋ฅผ ์ ์งํ๋ ๋ฐฉ๋ฒ์ด ์๋ก์ด ๊ธฐ์ฌ์ด๋ค.
Limitation & Further Study
- Simulation-to-real gap: RL training์ด simulation ํ๊ฒฝ์ ํฌ๊ฒ ์์กดํ๋ฏ๋ก real-world ํ๊ฒฝ์ ์์ธก ๋ถ๊ฐ๋ฅํ dynamic์ ๋ํ generalization ์ฑ๋ฅ์ด ์ ํ๋ ์ ์๋ค.
- ๋ฐ์ดํฐ ์๊ตฌ์ฌํญ: VLM๊ณผ LLM์ fine-tuning์ด ํ์ํ ๊ฒฝ์ฐ ๋๊ท๋ชจ domain-specific ๋ฐ์ดํฐ ์์ง์ด ํ์ํ ์ ์๋ค.
- Computation overhead: ์ธ ๊ฐ์ large model์ ๋์์ ์ด์ํ๋ computational cost๊ฐ real-time control์ ๋ฏธ์น ์ํฅ์ด ๋ช
ํํ์ง ์๋ค.
- ํ๊ฐ ๋ฒ์ ์ ํ: ๋
ผ๋ฌธ์ด ํน์ task(door opening ๋ฑ)์ ๋ํ ๊ฒฐ๊ณผ๋ง ์ ์ํ๊ณ ์์ด ๋ค์ํ ์ผ์ ์์
์ ๋ํ generalization ์ฑ๋ฅ ๊ฒ์ฆ์ด ํ์ํ๋ค.
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:
- Online learning๊ณผ adaptation ๋ฉ์ปค๋์ฆ์ ์ถ๊ฐํ์ฌ sim-to-real transfer ์ฑ๋ฅ ํฅ์
- Edge computing ํ๊ฒฝ์ ์ต์ ํ๋ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ๊ฐ๋ฐ
- ๋ ๊ด๋ฒ์ํ daily task์ ๋ํ systematic evaluation ์ํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Trinity๋ RL, LLM, VLM์ ๋ชจ๋์ ๊ณ์ธต ๊ตฌ์กฐ๋ก ํตํฉํ์ฌ humanoid robot์ ๋ณต์กํ ์ ์ด ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. Full-scale humanoid robot์ ๋ํ ์ข
ํฉ ๊ฒ์ฆ๊ณผ loco-manipulation ์ฑ๋ฅ์ด ์ฃผ์ ๊ฐ์ ์ด๋, ๋ ๊ด๋ฒ์ํ ์์
์ ๋ํ ํ๊ฐ์ sim-to-real transfer ์ฑ๋ฅ์ ๋ช
ํํ ๋ถ์์ด ํ์ํ๋ค. ์ ๋ฐ์ ์ผ๋ก humanoid robotics ๋ถ์ผ์ ์ค์ํ ์ง์ ์ ๋ํํ๋ ์์ง์ ์์คํ
๋
ผ๋ฌธ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์