Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
์ ์: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Bรถrje F. Karlsson, Zongqing Lu | ๋ ์ง: 2025-03-16 | URL: https://arxiv.org/abs/2503.12533 📄 PDF
Essence
Figure 1. Overview of the Being-0 framework. The humanoid agent framework, Being-0, comprises three key components: (1)
Being-0๋ Foundation Model, VLM ๊ธฐ๋ฐ Connector, ๋ชจ๋์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ํตํฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ด ๋ณต์กํ ์ฅ๊ธฐ ๊ณผ์ ๋ฅผ ์ํํ ์ ์๋๋ก ํ๋ ํ๋ ์์ํฌ์ด๋ค. Connector ๋ชจ๋์ด ์ธ์ด ๊ธฐ๋ฐ ๊ณํ์ ์คํ ๊ฐ๋ฅํ ์คํฌ ๋ช
๋ น์ผ๋ก ๋ณํํ๊ณ ๋ณดํ๊ณผ ์กฐ์์ ๋์ ์ผ๋ก ์กฐ์จํ๋ค.
Motivation
- Known: ์ต๊ทผ Foundation Model๊ณผ ํ์ต ๊ธฐ๋ฐ ๋ก๋ด ์คํฌ์ ๊ฒฐํฉํ ์์ด์ ํธ ์ฐ๊ตฌ๊ฐ ๋ก๋ด ํ, ๋ฐํด ๋ฌ๋ฆฐ ๋ก๋ด, ์ฌ์กฑ ๋ก๋ด์์ ์ง์ ์ ๋ณด์๋ค. ์ธ๊ฐํ ๋ก๋ด์ ๊ฒฝ์ฐ ๊ฐ๋ณ ์คํฌ(๋ณดํ, ์กฐ์, ์ ์ ์ ์ด)์ ๋ํ ์ฐ๊ตฌ๋ ์กด์ฌํ์ง๋ง ์์ ์์จ ์์ด์ ํธ ๊ตฌ์ถ์ ๋ฏธ๊ฐ์ฒ ๋ถ์ผ์ด๋ค.
- Gap: Foundation Model์ ์ง์ ๋ก๋ด ์คํฌ๊ณผ ๊ฒฐํฉํ๋ฉด ์ฅ๊ธฐ ๊ณผ์ ์์ ์ค๋ฅ ๋์ ๊ณผ ๋ชจ๋ ์ง์ฐ ํธ์ฐจ๋ก ์ธํด ๊ฒฌ๊ณ ์ฑ๊ณผ ํจ์จ์ฑ์ด ์ ํ๋๋ค. ํนํ ์ธ๊ฐํ ๋ก๋ด์ ์ด์กฑ ๋ณดํ ๋ถ์์ ์ฑ์ ๋น๋ฒํ ๋ณดํ ๋ช
๋ น ์กฐ์ ์ ์๊ตฌํ๋๋ฐ, ๊ธฐ์กด FM์ ์ถ๋ก ํจ์จ๊ณผ embodied ์ฅ๋ฉด ์ดํด์ ์ ํ์ด ์๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ด ํ์ค ์ธ๊ณ์์ ์ธ๊ฐ ์์ค์ ์ฑ๋ฅ์ผ๋ก ์์จ ๊ณผ์ ๋ฅผ ์ํํ๋ ๊ฒ์ embodied AI์ ๊ถ๊ทน์ ๋ชฉํ์ด๋ฉฐ, ์ด๋ฅผ ์ํด์๋ ๊ณ ์์ค ์ธ์ง์ ์ ์์ค ์ ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ์ํคํ
์ฒ๊ฐ ํ์์ ์ด๋ค.
- Approach: VLM ๊ธฐ๋ฐ Connector๋ฅผ ๋์
ํ์ฌ FM์ ๊ณํ๊ณผ ๋ชจ๋์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ณ , ์ค์๊ฐ ๋ณดํยท์กฐ์ ๋ช
๋ น ์์ฑ๊ณผ ๋์ ์กฐ์จ์ ์ํํ๋ค. ์ค๋ด ๋ค๋น๊ฒ์ด์
๋ฐ์ดํฐ๋ก Connector๋ฅผ ํ์ต์์ผ embodied ์ง์์ ๊ฒฝ๋ VLM์ ์ฆ๋ฅํ๋ค.
Achievement
- ๊ณ์ธต์ ํ๋ ์์ํฌ: FM์ ํด๋ผ์ฐ๋์, Connector์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์จ๋ณด๋ ๊ณ์ฐ ์ฅ์น์ ๋ฐฐํฌํ์ฌ ํจ์จ์ ์คํ ๊ฐ๋ฅ
- ๋์ ์์์จ: ๋ค๋น๊ฒ์ด์
๊ณผ ์กฐ์์ด ํฌํจ๋ ๋ณต์กํ ์ฅ๊ธฐ ๊ณผ์ ์์ ํ๊ท 84.4% ์์์จ ๋ฌ์ฑ
- ํจ์จ์ฑ ํฅ์: FM ๊ธฐ๋ฐ ์์ด์ ํธ ๋๋น 4.2๋ฐฐ ํฅ์๋ ๋ค๋น๊ฒ์ด์
ํจ์จ
- ๋ค์ค ์ง๋ฅํ ์๊ณผ ๋ฅ๋ ์นด๋ฉ๋ผ ์ง์: 41-DoF ์ธ๊ฐํ ๋ก๋ด์ ๋ค์ง ์๊ณผ 2-DoF ๋ชฉ์ ๋ฅ๋ ๋น์ ํ์ฉ
- Connector์ ๊ธฐ์ฌ ์
์ฆ: ๋ณดํ ๋ช
๋ น ์กฐ์ ๋ฐ ์กฐ์๊ณผ์ seamless ์ฐ๊ฒฐ๋ก ๊ณผ์ ์ฑ๊ณต๋ฅ ํฅ์
How
- ๋ชจ๋์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ: ๋ณดํ ์คํฌ์ ์กฐ์ด์คํฑ ๋ช
๋ น ๊ธฐ๋ฐ, ์กฐ์ ์คํฌ์ ์ธ์ด ์ค๋ช
๊ณผ ํจ๊ป teleoperation๊ณผ imitation learning์ผ๋ก ํ์ต
- VLM ๊ธฐ๋ฐ Connector: 1์ธ์นญ ์ค๋ด ๋ค๋น๊ฒ์ด์
์ด๋ฏธ์ง์ ์ธ์ด ์ง์, ๊ฐ์ฒด ๋ ์ด๋ธ, bounding box ์ฃผ์์ผ๋ก ํ์ต
- ์ค์๊ฐ ๋ช
๋ น ์์ฑ: Connector๊ฐ FM์ ์ธ์ด ๊ณํ๊ณผ ์๊ฐ ๊ด์ธก์ ๋ฐ์ ๋ณดํยท์กฐ์ ์คํฌ ๋ช
๋ น์ ๊ณ ์ฃผํ์๋ก ์์ฑ
- ๋ณดํ ์กฐ์ ๋ฉ์ปค๋์ฆ: Connector๊ฐ ์กฐ์ ๊ณผ์ ์ด๊ธฐํ ์ํ ๊ฐ์ ์ ์ํด ๋ณดํ ๋ช
๋ น์ผ๋ก ๋ก๋ด ์์ธ ์กฐ์
- ๋ฅ๋ ์นด๋ฉ๋ผ ํ์ฉ: 2-DoF ๋ชฉ์ผ๋ก ์นด๋ฉ๋ผ ๋ฐฉํฅ ์กฐ์ ํ์ฌ ๋ค๋น๊ฒ์ด์
๊ณผ ์กฐ์ ์ค ์ฅ๋ฉด ์ดํด ํฅ์
Originality
- ์ธ๊ฐํ ๋ก๋ด์ฉ hierarchical agent framework: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋ก๋ด ํ, ๋ฐํด ๋ก๋ด, ์ฌ์กฑ ๋ก๋ด ์ค์ฌ์ด์์ผ๋, ์ธ๊ฐํ ๋ก๋ด์ ์ด์กฑ ๋ณดํ ๋ถ์์ ์ฑ๊ณผ ์กฐ์ ๋ณต์ก์ฑ์ ๊ณ ๋ คํ ์ค๊ณ๋ ์๋ก์
- Connector ๋ชจ๋์ novel ์ญํ : FM๊ณผ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฌ์ด์ ์ค๊ฐ์ธต์ผ๋ก์ ๊ฒฝ๋ VLM์ ์ฌ์ฉํ์ฌ ์ค์๊ฐ ๋ฐ์์ฑ๊ณผ embodied ์ดํด๋ฅผ ๋์์ ํ๋ณด
- embodied ๋ฐ์ดํฐ๋ฅผ ํตํ ์ฆ๋ฅ: ์ค๋ด ๋ค๋น๊ฒ์ด์
๋ฐ์ดํฐ๋ก VLM์ ํ์ต์์ผ ํน์ embodied ์์
์ ์ต์ ํ๋ Connector ๊ตฌํ
- ๋ณดํ-์กฐ์ ๋์ ์กฐ์จ: ์กฐ์ ์ ๋ณดํ ๋ช
๋ น์ผ๋ก ์์ธ ์กฐ์ ํ๋ seamless ์ฐ๊ฒฐ ๋ฐฉ์์ ๊ธฐ์กด ์์ด์ ํธ์์ ๋ฏธํกํ ๋ถ๋ถ
Limitation & Further Study
- FM์ ํด๋ผ์ฐ๋ ์์กด: Foundation Model์ด ํด๋ผ์ฐ๋์ ๋ฐฐํฌ๋์ด ๋คํธ์ํฌ ์ง์ฐ ๋ฐ ๊ฐ์ฉ์ฑ์ ์์กด
- ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํ์ฅ์ฑ: ํ์ฌ ๋ณดํ๊ณผ ์กฐ์ ์คํฌ์ ์ ํ๋์ด ์์ผ๋ฉฐ, ์๋ก์ด ๊ณผ์ ์ ํ์ ๋ํ ์ผ๋ฐํ ์ ๋ ๋ฏธ๋ช
์
- ์ค๋ด ํ๊ฒฝ ์ค์ฌ ํ๊ฐ: ์ค๋ด ๋๊ท๋ชจ ํ๊ฒฝ์์๋ง ํ๊ฐ๋์์ผ๋ฉฐ, ์ค์ธ ํ๊ฒฝ์ด๋ ๋ค์ํ ์งํ์ ๋ํ ์ฑ๋ฅ ๋ถ๋ช
ํ
- Connector ํ์ต ๋ฐ์ดํฐ: ์ค๋ด ๋ค๋น๊ฒ์ด์
๋ฐ์ดํฐ์ ์์กดํ๋ฏ๋ก, ๋ค์ํ ํ๊ฒฝ์ด๋ ์กฐ์ ์์
์ ๋ฐ์ดํฐ ๋ถ์ฌ ์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ์จ๋๋ฐ์ด์ค ๊ฒฝ๋ FM ๊ฐ๋ฐ๋ก ์์ ์์จ์ฑ ํ๋ณด, (2) ๋ค์ํ ํ๊ฒฝ๊ณผ ๊ณผ์ ๋ก ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฅ, (3) ๋์ ์ฅ์ ๋ฌผ ํํผ ๋ฑ ๋ณต์กํ ๋ค๋น๊ฒ์ด์
์๋๋ฆฌ์ค ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Being-0๋ ์ธ๊ฐํ ๋ก๋ด์ ์ํ ์ค์ฉ์ ์ด๊ณ ํจ์จ์ ์ธ hierarchical agent ํ๋ ์์ํฌ๋ก, Connector ๋ชจ๋์ ํตํ ์ฐฝ์์ ์ธ ์ค๊ฐ์ธต ์ค๊ณ์ ์ค์ ํ๋์จ์ด ๊ตฌํ์ผ๋ก embodied AI ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋์ ์์์จ๊ณผ 4.2๋ฐฐ ํจ์จ์ฑ ํฅ์์ ์ ์ ๋ฐฉ์์ ํจ๊ณผ๋ฅผ ์
์ฆํ์ง๋ง, FM์ ํด๋ผ์ฐ๋ ์์กด์ฑ๊ณผ ์ค๋ด ์ค์ฌ ํ๊ฐ๋ ์ค์ฉ์ฑ ํ๋๋ฅผ ์ํ ๊ฐ์ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์