RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
์ ์: Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang | ๋ ์ง: 2025-05-03 | URL: https://arxiv.org/abs/2505.01709 📄 PDF
Essence
Figure 1. Comparison of RoBridge and previous methods. Declarative skill methods (left) directly generate specific contr
RoBridge๋ Vision-Language Model์ ์ ์ธ์ ๋ฅ๋ ฅ๊ณผ ๊ฐํํ์ต์ ์ ์ฐจ์ ๋ฅ๋ ฅ์ ํตํฉํ๋ ๊ณ์ธต์ ์ํคํ
์ฒ๋ก, Invariant Operable Representation(IOR)์ ์์ง์ ๋ธ๋ฆฟ์ง๋ก ํ์ฉํ์ฌ ๋ก๋ด์ ์ธ์ง์ ์คํ ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๋ค.
Motivation
- Known: ์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด-๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ฐ์ ์ผ๋ก ๋ก๋ด์ ๋ช
๋ น ์ดํด๋๊ฐ ํฅ์๋์์ผ๋, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ธ์ง์ ์คํ ์ค ํ๋์ ๋ฅ๋ ฅ์ ํฌ์ํ๋ ํธ๋ ์ด๋์คํ๋ฅผ ์๊ณ ์๋ค.
- Gap: ์ ์ธ์ ๊ธฐ์ (VLM ๊ธฐ๋ฐ)์ ๋ฌผ๋ฆฌ์ ์ง๊ด์ด ๋ถ์กฑํด ๋ถ์ ํํ ์คํ ๊ณํ์ ์์ฑํ๊ณ , ์ ์ฐจ์ ๊ธฐ์ (๊ฐํํ์ต)์ ํ์ต ํจ์จ์ด ๋ฎ์ผ๋ฉฐ ํ๊ฒฝ ๋ณํ์ ์ทจ์ฝํ๋ค๋ ๋ฌธ์ ๊ฐ ๋ฏธํด๊ฒฐ๋์ด ์๋ค.
- Why: ๊ฐ๋ฐฉํ ํ๊ฒฝ์์ ๋ค์ํ ์์
์ ์ํํ๋ ๋ก๋ด ๊ฐ๋ฐ์ ์ค์ํ ์ฐ๊ตฌ ๋ฐฉํฅ์ด๋ฉฐ, ์ธ์ง์ ์คํ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ฉด ๋ก๋ด์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ค๋ฌด ์ ์ฉ์ฑ์ด ํฌ๊ฒ ํฅ์๋ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: High-level Cognitive Planner(HCP)๊ฐ ์์ฐ์ธ์ด ๋ช
๋ น์ ๋ฌผ๋ฆฌ์ ์ง๊ด์ ๊ฐ์ง IOR๋ก ๋ณํํ๊ณ , Guided Embodied Agent(GEA)๊ฐ ์ด๋ฅผ ๊ตฌ์ฒด์ ์คํ ๋์์ผ๋ก ๋ณํํ๋ 3๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค.
Achievement
Figure 1. Comparison of RoBridge and previous methods. Declarative skill methods (left) directly generate specific contr
- ์๋ก์ด ์์
์ ๋ํ ๋์ ์ฑ๊ณต๋ฅ : ๋ฏธํ์ต ์์
์ ๋ํด 75% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ฐ์ํ Sim-to-Real ์ผ๋ฐํ: ์์
๋น 5๊ฐ์ ์ค์ ๋ฐ์ดํฐ ์ํ๋ง์ผ๋ก 83% ํ๊ท ์ฑ๊ณต๋ฅ
- ํตํฉ ์ํคํ
์ฒ์ ์ฒซ ๊ตฌํ: ์ ์ธ์ ๋ฅ๋ ฅ๊ณผ ์ ์ฐจ์ ๋ฅ๋ ฅ์ ์ํธ ์ ์ฝ ์์ด ํตํฉํ ์ต์ด์ ์์ ํ ์์คํ
- ํ๊ฒฝ ๋ถ๋ณ์ฑ: ์กฐ๋ช
๋ณํ, ์นด๋ฉ๋ผ ์์ธ ํธ์ฐจ ๋ฑ ๋ค์ํ ๊ฐ์ญ ์กฐ๊ฑด์์ ์์ ์ ์ฑ๋ฅ ์ ์ง
How
Figure 2. RoBridge overview. RoBridge adopts a three-layer architecture, consisting of a high-level cognitive planner (H
- High-level Cognitive Planner: ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ VLM์ ๊ธฐ๋ฐ์ผ๋ก ์์ฐ์ธ์ด ๋ช
๋ น์ ๋ถ์ํ๊ณ ์ธ๊ณผ ์ถ๋ก ์ ํตํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ IOR ์์ฑ
- Invariant Operable Representation: ํ๊ฒฝ ๋ถ๋ณ์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ์ง๊ด์ ๊ฐ์ง ๊ธฐํธ์ ํํ์ผ๋ก Action(place, push ๋ฑ), Gripper, Object, Target, Constraint ๋ฑ์ ๊ตฌ์กฐํ๋ ์ ๋ณด ํฌํจ
- Guided Embodied Agent: DiT block ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ก IOR์ ์ ์์ค ์คํ ๋์์ผ๋ก ๋ณํํ๋ฉฐ, RL ํ์ต์ ํตํด ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์์ ์ ์ฐจ์ ๊ธฐ์ ํ๋
- Continual Skill Aggregation: GEA๊ฐ ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์์ ๋ฐ๋ณต์ ์ผ๋ก ์ํธ์์ฉํ์ฌ ์ง์์ ์ผ๋ก ๊ธฐ์ ์ ์ง์
Originality
- Central Pattern Generator(CPG) ์ด๋ก ์์ ์๊ฐ์ ๋ฐ์ ๊ณ ์์ค ์ถ๋ก ๊ณผ ์ ์์ค ์ ์ด ์ฌ์ด์ ๋ถ๋ณ ์ค๊ฐ ํํ ๊ฐ๋
๋์
- IOR ์ค๊ณ๋ก VLM๊ณผ ๊ตฌ์ฒด์ ๋ก๋ด ์ ์ด ๊ฐ์ ์์ ํ ์๋ก์ด ์ธํฐํ์ด์ค ์ ์
- ์ ์ธ์ ๊ธฐ์ ๊ณผ ์ ์ฐจ์ ๊ธฐ์ ์ ์ํธ ์ ์ฝ์ ์ ๊ฑฐํ๋ ์ฒซ ๋ฒ์งธ ํตํฉ ํ๋ ์์ํฌ
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ถ๋ถ์ ์์๋ค(VoxPoser์ ์ฝ๋ ์์ฑ, ReKep์ ํคํฌ์ธํธ)์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ ์์ ํ ์์คํ
Limitation & Further Study
- IOR ์ค๊ณ๊ฐ ํน์ ๋๋ฉ์ธ(๋ก๋ด ์กฐ์)์ ๋ง์ถฐ์ ธ ์์ด ๋ค๋ฅธ ๋ก๋ด ์์
์ผ๋ก์ ํ์ฅ์ฑ์ด ๋ช
ํํ์ง ์์
- ์คํ์ด ์ฃผ๋ก ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ์ํ๋์์ผ๋ฉฐ, ํ์ค ์ธ๊ณ ํ
์คํธ๊ฐ ์ ํ์ (์์
๋น 5๊ฐ ์ํ)
- HCP๊ฐ ์์กดํ๋ VLM์ ์ฑ๋ฅ์ ํฌ๊ฒ ์ข์ฐ๋๋ฏ๋ก, VLM์ ๊ณต๊ฐ-์๊ฐ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ณ๊ฐ ์์คํ
์ฑ๋ฅ์ ์ง์ ์ํฅ
- ๋ค์ค ๋ก๋ด ํ๋ ฅ์ด๋ ๋งค์ฐ ๋ณต์กํ ๊ธด ์ฃผ๊ธฐ ์์
์ ๋ํ ๊ฒ์ฆ์ด ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: IOR ์ค๊ณ์ ์ผ๋ฐํ, ๋ณด๋ค ๊ฐ๋ ฅํ ๊ณต๊ฐ-์๊ฐ VLM ํ์ฉ, ์ค์ ํ๊ฒฝ์์์ ๊ด๋ฒ์ํ ๊ฒ์ฆ, ๋ณต์ก๋๊ฐ ๋์ ์์
์ผ๋ก์ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoBridge๋ ์ธ์ง์ ์คํ์ ๊ทผ๋ณธ์ ๋ถ๋ฆฌ ๋ฌธ์ ๋ฅผ IOR์ด๋ผ๋ ์๋ก์ด ์์ง์ ํํ์ผ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ ํ์ ์ ์ํคํ
์ฒ์ด๋ฉฐ, ๋์ ์ฑ๊ณต๋ฅ ๊ณผ Sim-to-Real ์ฑ๋ฅ์ผ๋ก ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์ค์ํ ์ง์ ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์