Humanoid Agent via Embodied Chain-of-Action Reasoning with Multimodal Foundation Models for Zero-Shot Loco-Manipulation
์ ์: Congcong Wen, Geeta Chandra Raju Bethala, Yu Hao, Niraj Pudasaini, Hao Huang, Shuaihang Yuan, Baoru Huang, Anh Nguyen, Mengyu Wang, Anthony Tzes, Yi Fang | ๋ ์ง: 2025-04-13 | URL: https://arxiv.org/abs/2504.09532 📄 PDF
Essence
Fig. 1.
์ธํ๋ก๋ด์ ์ ์ ๋ณดํ-์กฐ์์ ์ํด ๊ธฐ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ Embodied Chain-of-Action (CoA) ๋ฉ์ปค๋์ฆ์ ํตํฉํ ์ ๋ก์ท ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ณ ์์ค ์ธ๊ฐ ์ง์๋ฅผ affordance ๋ถ์, ๊ณต๊ฐ ์ถ๋ก , ์ ์ ๋์ ์ถ๋ก ์ ํตํด ์ฒด๊ณ์ ์ธ ๋ณดํ ๋ฐ ์กฐ์ ์์ ๋์ ์์ด๋ก ๋ถํดํ๋ค.
Motivation
- Known: Foundation model์ ๋ก๋ด์์ ์ ์ด ๊ฐ๋ฅํ ๋ค์ค๋ชจ๋ฌ ํํ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ๊ณตํ๋ฉฐ, SayCan, PaLM-E ๊ฐ์ ์ด๊ธฐ ์ฐ๊ตฌ๋ ์์ฐ์ด ์ง์๋ฅผ ๋ก๋ด affordance์ ์ฐ๊ฒฐ์์ผฐ๋ค. ์ธํ๋ก๋ด ์ ์ด๋ ๊ณ ์ฐจ์ ์์ ๋์ ๋์ ๊ท ํ ์ ์ง์ ๋์ ์ ๊ฐ์ง๋ค.
- Gap: ๊ธฐ์กด foundation model ๊ธฐ๋ฐ ์ฐ๊ตฌ๋ ์ฃผ๋ก ๋ณดํ ๋๋ ์กฐ์ ์ค ํ๋์๋ง ๊ตญํ๋์ด ์์ผ๋ฉฐ, ์ธํ๋ก๋ด์ ๊ณ ์ฐจ์ ์ ์ ์กฐ์จ๊ณผ ์ฅ์งํ์ ๋น์ ํ ํ๊ฒฝ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค. ์์ฐ์ด ์ง์๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๊ถค์ ์ผ๋ก ๋ณํํ๋ ์ถ๋ก ๋ฉ์ปค๋์ฆ์ด ๋ฏธํกํ๋ค.
- Why: ์ธํ๋ก๋ด ๋ณดํ-์กฐ์์ ํ์ค์ ๋ก๋ด ์์ฉ์ ํต์ฌ ๊ณผ์ ์ด๋ฉฐ, ์ฅ์งํ์ ๋ณต์กํ ํ๊ฒฝ์์ ์ธ๊ฐ ์๋๋ฅผ ์ ํํ ์ดํดํ๊ณ ์คํํ ์ ์๋ ์์ด์ ํธ๋ ์ฐ์
๋ฐ ์๋น์ค ๋ก๋ด ์๋ํ๋ฅผ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: Perception-Reasoning-Action ํจ๋ฌ๋ค์์์ ํต์ฌ ๊ธฐ์ฌ๋ Reasoning ๋จ๊ณ์ CoA ๋ฉ์ปค๋์ฆ์ผ๋ก, LLM์ ํตํด ๊ณ ์์ค ์ง์๋ฅผ affordance ๋ถ์(๊ฐ์ฒด ์กฐ์ ๊ฐ๋ฅ์ฑ), ๊ณต๊ฐ ์ถ๋ก (๊ฐ๋ ค์ง ๊ฐ์ฒด ์์น ์ถ์ ), ์ ์ ๋์ ์ถ๋ก (์ด๋ํยท๋์ญํ ์คํ ๊ฐ๋ฅ์ฑ)์ผ๋ก ๊ตฌ์กฐํ๋ ์์ ๋์ ์์ด๋ก ๋ถํดํ๋ค.
Achievement
Fig. 1.
- ์ฒซ ์ธํ๋ก๋ด ๋ณดํ-์กฐ์ ํ๋ ์์ํฌ: Foundation model ์ถ๋ก ๊ณผ CoA Reasoning์ ํตํฉํ ์ ๋ก์ท ์์ฐ์ด ์ง์ ๊ธฐ๋ฐ ์ธํ๋ก๋ด ์์ด์ ํธ์ ์ฒซ ์ ์
- ๊ฐ๊ฑดํ ์ผ๋ฐํ: Unitree H1-2, G1 ๋ ์ธํ๋ก๋ด์์ ์ด๋ฆฐ ํ๊ฒฝ ๋ฐ ์ํํธ ํ๊ฒฝ ํฌํจ ๋ค์ํ ๋ณดํ, ์กฐ์, ๋ณดํ-์กฐ์ ํ์คํฌ์์ ๊ธฐ์ ์ ์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ์ฅ์งํ์ ยท๋น์ ํ ํ๊ฒฝ ์ ์: ์ฌ์ ์ ์๋ ํ์คํฌ ํ
ํ๋ฆฟ ์์ด ํด์ ๊ฐ๋ฅํ ๊ธฐํธ์ ํ๋ ๊ณํ์ ํตํด ์ฅ์งํ์ ๋น์ ํ ์๋๋ฆฌ์ค์ ๊ฐ๊ฑดํ๊ฒ ๋์
How
Fig. 1.
- Ego-centric ์๊ฐ ์
๋ ฅ์ Vision-Language Model์ผ๋ก ์ฅ๋ฉด ์ค๋ช
์ผ๋ก ๋ณํํ๊ณ , ์ธ๊ฐ ์ง์์ ํจ๊ป ํ ํฐํ
- LLM์ object affordance analysis, region spatial reasoning, whole-body movement inference๋ฅผ ํฌํจํ๋ ๊ตฌ์กฐํ๋ ํ๋กฌํํธ ์ ๊ณต
- LLM์ด FIND, MOVE, ROTATE, STOP, GRASP, LIFT, PUT ๋ฑ์ ์์ ๋์์ ํฌํจํ ๊ธฐํธ์ ํ๋ ๊ณํ ์์ฑ
- ์์ฑ๋ ํ๋ ๊ณํ์ ์ ์์ค ๋ชจํฐ ์ ์ด ๋ช
๋ น์ผ๋ก groundingํ์ฌ ์ธํ๋ก๋ด ์คํ
- Affordance ๋ถ์์ผ๋ก ๊ฐ์ฒด ์กฐ์ ๊ฐ๋ฅ์ฑ ํ์
, ๊ณต๊ฐ ์ถ๋ก ์ผ๋ก ์๊ฐ์ ํ์ ์ ์จ๊ฒจ์ง ๊ฐ์ฒด ์์น ์ถ์ , ์ ์ ๋์ ์ถ๋ก ์ผ๋ก ์ด๋ํยท๋์ญํ ์ ์ฝ ๋ง์กฑ ํ์ธ
Originality
- COA Reasoning ๋ฉ์ปค๋์ฆ: Affordance ๋ถ์, ๊ณต๊ฐ ์ถ๋ก , ์ ์ ๋์ ์ถ๋ก ์ ํตํฉํ์ฌ ์์ฐ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๋์์ผ๋ก ๋ณํํ๋ ์๋ก์ด ์ถ๋ก ๊ตฌ์กฐ
- ์ธํ๋ก๋ด ์ ์ ์กฐ์จ์ ํตํฉ ์ ๊ทผ: ๊ธฐ์กด์ ๋ณดํ/์กฐ์ ๋ถ๋ฆฌ ํด๊ฒฐ์์ ๋ฒ์ด๋ LLM ์ถ๋ก ์ผ๋ก ์ ์ ํ์กฐ๋ฅผ ์์ ๋์ ์์ด๋ก ์ฒด๊ณํ
- ๊ณต๊ฐยทaffordance ์ถ๋ก ํตํฉ: Vision-Language Model๊ณผ LLM์ ๊ฒฐํฉํ์ฌ ๊ฐ๋ ค์ง ๊ฐ์ฒด์ ๋น์ ํ ํ๊ฒฝ ์ ์
Limitation & Further Study
- ์ค์ ์ธํ๋ก๋ด(Unitree H1-2, G1)์์๋ง ๊ฒ์ฆ๋์์ผ๋ฏ๋ก ๋ค์ํ ํ๋ซํผ์ ์ผ๋ฐํ ๋ฒ์ ๋ฏธํ์ธ
- LLM ์ถ๋ก ์ค๋ฅ์ ๋ํ ๊ฒฌ๊ณ ์ฑ๊ณผ ์คํจ ๋ณต๊ตฌ ๋ฉ์ปค๋์ฆ์ด ์ ํ์ ์ผ๋ก ๋ณด์ด๋ฉฐ, ์ฅ์๊ฐ ํ์คํฌ ๋์ ์ค๋ฅ์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ์คํ๋ผ์ธ foundation model ๊ธฐ๋ฐ์ด๋ฏ๋ก ๋์ ํ๊ฒฝ ๋ณํ์ ๋ํ ์จ๋ผ์ธ ์ ์ ๋ฅ๋ ฅ ์ ์ฝ
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ ์ธํ๋ก๋ด ํ๋ซํผ์์์ ์ผ๋ฐํ, ์คํจ ๊ฐ์ง ๋ฐ ๋ณต๊ตฌ ๋ฉ์ปค๋์ฆ ๊ฐํ, ์จ๋ผ์ธ ํ์ต์ ํตํ ํ๊ฒฝ ์ ์ ๋ฅ๋ ฅ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ Foundation model์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ธํ๋ก๋ด ๋ณดํ-์กฐ์์ ์ฒ์ ํตํฉํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ฉฐ, CoA Reasoning ๋ฉ์ปค๋์ฆ์ ํตํด ์์ฐ์ด ์ง์๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๋์ ์์ด๋ก ๋ณํํ๋ ์๋ก์ด ์ ๊ทผ์ ์ ์ํ๋ค. ์ค์ ์ธํ๋ก๋ด์์ ๊ฐ๊ฑดํ ์ ๋ก์ท ์ผ๋ฐํ๋ฅผ ์
์ฆํ ์ ์์ ๋์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ๊ฐ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์