RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints
์ ์: Yiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai | ๋ ์ง: 2025-03-20 | URL: https://arxiv.org/abs/2503.16408 📄 PDF
Essence
Figure 1. When performing the task โGrab the steak and use the camera to photograph it with 4 embodied agentsโ, collabor
๋ณธ ๋
ผ๋ฌธ์ ๋ค์ค ๊ตฌ์ฒดํ ์์ด์ ํธ(embodied multi-agent) ์์คํ
์ ํ๋ ฅ์ ์ํด ๋
ผ๋ฆฌ์ , ๊ณต๊ฐ์ , ์๊ฐ์ ์ ์ฝ์ ์กฐํฉํ compositional constraints ๊ฐ๋
์ ์ ์ํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ํ๋ ๋ฐ์ดํฐ ์์ง ํ๋ ์์ํฌ RoboFactory๋ฅผ ๊ฐ๋ฐํ์ฌ ๋ค์ค ์์ด์ ํธ ์กฐ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค.
Motivation
- Known: ๋จ์ผ ์์ด์ ํธ ๋ก๋ณดํฑ ์กฐ์ ์์คํ
์ BC, diffusion policy ๋ฑ imitation learning ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ ํ๊ณ , LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์ฑ๋ ์๋๋์๋ค. ๊ทธ๋ฌ๋ ๋ค์ค ์์ด์ ํธ ํ๋ ฅ ์๋๋ฆฌ์ค์์์ ์๋ํ๋ ์์ ํ ๋ฐ์ดํฐ ์์ฑ์ ์ถฉ๋ถํ ์ฐ๊ตฌ๋์ง ์์๋ค.
- Gap: ๊ธฐ์กด ๋จ์ผ ์์ด์ ํธ ๋ฐฉ๋ฒ์ ๋ค์ค ์์ด์ ํธ์ ๋จ์ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ, ๊ณต๊ฐ ์ถฉ๋ ํํผ, ์๊ฐ ํจ์จ์ฑ ๋ฑ์ ๋์์ ๊ณ ๋ คํ๋ ์ฒด๊ณ์ ํ๋ ์์ํฌ์ ๋ฒค์น๋งํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ์ ์กฐ์
, ์๋ฃ ์ง์ ๋ฑ ํ์ค ์์ฉ์์ ๋ค์ค ๋ก๋ด ํ๋ ฅ์ด ํ์์ ์ด๊ณ , ์์ ํ๊ณ ํจ์จ์ ์ธ ๋ค์ค ์์ด์ ํธ ์์คํ
์ค๊ณ๋ ํ์ฅ ๊ฐ๋ฅํ ๋ก๋ณดํฑ ์๋ํ์ ํต์ฌ์ด๋ค.
- Approach: LLM ๊ธฐ๋ฐ RoboBrain์ด global task๋ฅผ compositional constraints(๋
ผ๋ฆฌ, ๊ณต๊ฐ, ์๊ฐ ์ ์ฝ)๋ก ๋ณํํ๊ณ , RoboChecker๊ฐ ์ด๋ฅผ ์คํ ๊ฐ๋ฅํ ์ ์ฝ ์ธํฐํ์ด์ค๋ก ๊ตฌํํ์ฌ ์์ ํ๊ณ ํจ์จ์ ์ธ ๋ค์ค ์์ด์ ํธ ๊ถค์ ์ ์์ฑํ๋ค.
Achievement
Figure 2. Overview of RoboFactory. Given the global task description, prior information, and observations, RoboBrain gen
- Compositional Constraints ๊ฐ๋
๋์
: ๋
ผ๋ฆฌ์ (interaction rules), ๊ณต๊ฐ์ (collision avoidance), ์๊ฐ์ (scheduling efficiency) ์ ์ฝ์ ์ฒด๊ณํํ์ฌ ๋ค์ค ์์ด์ ํธ ํ๋ ฅ ๋ฌธ์ ๋ฅผ ๊ตฌ์กฐํ
- RoboFactory ๋ฒค์น๋งํฌ ๊ตฌ์ถ: ์ฒซ ๋ฒ์งธ embodied multi-agent manipulation ๋ฒค์น๋งํฌ๋ก, ์๋ํ๋ ๋ฐ์ดํฐ ์์ง๊ณผ ๋ค์ํ ํ๋ ฅ ์๋๋ฆฌ์ค ์ ๊ณต
- ๋ค์ค ์์ด์ ํธ Imitation Learning ํ๊ฐ: diffusion policy ๊ธฐ๋ฐ ๋ค์ค ์์ด์ ํธ ์์คํ
์ ์ํคํ
์ฒ ๋ฐ ํ์ต ์ ๋ต ํ์์ผ๋ก safe and efficient embodied multi-agent systems ๊ตฌ์ถ ๊ฐ๋ฅ์ฑ ์
์ฆ
How
Figure 2. Overview of RoboFactory. Given the global task description, prior information, and observations, RoboBrain gen
- LLM(GPT)์ ํ์ฉํ RoboBrain์ด global task description, prior information, observations๋ก๋ถํฐ sub-goal ์์ฑ ๋ฐ textual compositional constraints ์ถ๋ ฅ
- Motion primitives๋ฅผ ํธ์ถํ์ฌ unconstrained trajectory sequences ์์ฑ
- RoboChecker์์ constraint interfaces๋ฅผ ์ค๊ณํ์ฌ logical, spatial, temporal constraints๋ฅผ ์คํ ๊ฐ๋ฅํ ํํ๋ก ๋ณํ
- Voxelization, spatial constraint enforcement, temporal scheduling ๋ฑ ๊ตฌ์ฒด์ ์ธํฐํ์ด์ค ๊ตฌํ
- ์์ฑ๋ ๊ถค์ ์ ๋ํด imitation learning(BC, diffusion policy ๋ฑ) ๋ฐฉ๋ฒ ์ ์ฉ ๋ฐ ๋ค์ค ์์ด์ ํธ ์ํคํ
์ฒ ์ค๊ณ(centralized vs decentralized ๋ฑ) ๋น๊ต ํ๊ฐ
Originality
- Compositional constraints์ ์ฒด๊ณํ: ๋จ์ํ ์ถฉ๋ ํํผ๋ฅผ ๋์ด ๋
ผ๋ฆฌ์ consistency, temporal efficiency๋ฅผ ํ์ํํ์ฌ ๋ค์ค ์์ด์ ํธ ํ๋ ฅ์ ๋ณธ์ง์ ํฌ์ฐฉ
- ์๋ํ๋ ์์ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ: LLM๊ณผ constraint enforcement๋ฅผ ๊ฒฐํฉํ์ฌ ์๊ฒฉ ์กฐ์ ์์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ ์๋ํ
- ์ฒซ ๋ฒ์งธ embodied multi-agent manipulation ๋ฒค์น๋งํฌ: ๋ค์ค ์์ด์ ํธ ์กฐ์์ ํ์ค ํ๊ฐ ํ๊ฒฝ ์ ๊ณต์ผ๋ก ํ์ ์ฐ๊ตฌ ๊ธฐ๋ฐ ๋ง๋ จ
Limitation & Further Study
- ์ ์๋ compositional constraints๊ฐ ์ธ ๊ฐ์ง ์ ํ์ผ๋ก ์ ํ๋๋ฉฐ, ๋ ๋ณต์กํ ์ํธ์์ฉ ์๋๋ฆฌ์ค(e.g., ํ๋ฅ ์ ํ๋ ฅ, ์ ๋์ ์์ด์ ํธ)์ ๋ํ ํ์ฅ์ฑ ๋ฏธํก
- LLM ๊ธฐ๋ฐ RoboBrain์ generalization ์ฑ๋ฅ ํ๊ฐ ๋ถ์กฑ โ ์๋ก์ด task type์ ๋ํ ์ฑ๊ณต๋ฅ , failure case ๋ถ์ ํ์
- ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ ๊ฒ์ฆ ๋ถ์ฌ โ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์ฑ์ด ์ค์ ํ๊ฒฝ์์์ domain gap ๋ฏธํด๊ฒฐ
- ๋ค์ค ์์ด์ ํธ imitation learning์ ํ์ฅ์ฑ ๋ถ์ ๋ถ์กฑ โ ์์ด์ ํธ ์ ์ฆ๊ฐ ์ ์ฑ๋ฅ ์ ํ, ๊ณ์ฐ ๋ณต์ก๋ ๋ถ์ ํ์
- ํ์ ์ฐ๊ตฌ: (1) ๋ ํ๋ถํ constraint ํ์
์ถ๊ฐ (hierarchical, probabilistic constraints), (2) sim-to-real transfer learning ๊ธฐ๋ฒ ์ ์ฉ, (3) reinforcement learning๊ณผ์ ๊ฒฐํฉ์ผ๋ก constraint violation ์ ์ ์์ ์ฌ๊ณํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๋ก๋ณดํฑ ํ๋ ฅ์ ํต์ฌ ๋์ ๋ฌธ์ ๋ฅผ compositional constraints๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ๊ณ , ์ฒซ ๋ฒ์งธ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ๋ค์ค ์์ด์ ํธ embodied AI ์ฐ๊ตฌ์ ์ค์ํ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ๋ค. ๋ค๋ง ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ํ์ฅ์ฑ ๋ถ์์ด ์ถ๊ฐ๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์