Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning
์ ์: Wenlong Liang, Rui Zhou, Yang Ma, Bing Zhang, Songlin Li, Yijia Liao, Ping Kuang | ๋ ์ง: 2025-08-14 | URL: https://arxiv.org/abs/2508.10399 📄 PDF
Essence
Fig. 1. Organization of this survey.
๋๊ท๋ชจ ๋ชจ๋ธ์ด ๊ฐํ๋ embodied AI ์์คํ
์ ์์ฌ๊ฒฐ์ ๊ณผ ํ์ต ๋ฐฉ๋ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ ์ข
ํฉ ์๋ฒ ์ด๋ก, ๊ณ์ธต์ /end-to-end ์์ฌ๊ฒฐ์ ํจ๋ฌ๋ค์, imitation learning/reinforcement learning ๊ธฐ๋ฐ embodied learning, ๊ทธ๋ฆฌ๊ณ world model์ ์ญํ ์ ํตํฉ์ ์ผ๋ก ๋ถ์ํ๋ค.
Motivation
- Known: Embodied AI๋ ์์ญ ๋
๊ฐ ํ์๋์ด ์์ผ๋ฉฐ, ์ต๊ทผ LLM, VLM ๋ฑ ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ฐ์ ์ด perception, interaction, planning, learning ๋ฅ๋ ฅ์ ํฅ์์์ผฐ๋ค. ๊ธฐ์กด ์๋ฒ ์ด๋ ๋๊ท๋ชจ ๋ชจ๋ธ ์์ฒด ๋๋ planning, learning, simulator ๋ฑ ๊ฐ๋ณ ์ปดํฌ๋ํธ์ ์ด์ ์ ๋ง์ถ์๋ค.
- Gap: ๊ธฐ์กด ์๋ฒ ์ด๋ค์ ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ embodied agent์ ์๋์ง์ ๋ํ ์ฒด๊ณ์ ๋ถ์์ด ๋ถ์กฑํ๋ฉฐ, 2024๋
์ดํ ๋ฑ์ฅํ Vision-Language-Action (VLA) ๋ชจ๋ธ๊ณผ end-to-end ์์ฌ๊ฒฐ์ ์ ๋ํ ์ต์ ์ง์ ์ ๋ฐ์ํ์ง ๋ชปํ๋ค. ๋ํ world model์ embodied AI ์๋ฒ ์ด์ ํตํฉํ ์ฌ๋ก๊ฐ ์์๋ค.
- Why: Embodied AI๋ AGI๋ก ๊ฐ๋ ์ ๋งํ ๊ฒฝ๋ก๋ฅผ ์ ์ํ์ง๋ง, ๊ฐ๋ฐฉ์ ์ด๊ณ ๋์ ์ธ ํ๊ฒฝ์์ ์ผ๋ฐ์ ๋ชฉ์ ์ ์์
์ ์ํํ๋ ์ธ๊ฐ ์์ค์ ์ง๋ฅ ๋ฌ์ฑ์ด ์ฌ์ ํ ๋์ ์ ์ด๊ธฐ ๋๋ฌธ์, ๋๊ท๋ชจ ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์ด๋ฅผ ํด๊ฒฐํ๋์ง ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ํ์๊ฐ ์๋ค.
- Approach: hierarchical๊ณผ end-to-end ์์ฌ๊ฒฐ์ ํจ๋ฌ๋ค์์ ๋ถ๋ฅํ์ฌ ๊ฐ๊ฐ์ด ๋๊ท๋ชจ ๋ชจ๋ธ๋ก๋ถํฐ ์ด๋ป๊ฒ ํฅ์๋๋์ง ๋ถ์ํ๊ณ , imitation learning๊ณผ reinforcement learning์์ policy/reward ์ค๊ณ๊ฐ ๋๊ท๋ชจ ๋ชจ๋ธ์ผ๋ก ์ด๋ป๊ฒ ๊ฐ์ ๋๋์ง ๊ฒํ ํ๋ฉฐ, world model์ ์ค๊ณ ๋ฐฉ๋ฒ๊ณผ ์ญํ ์ ์ฒ์์ผ๋ก ํตํฉ์ ์ผ๋ก ์กฐ์ฌํ๋ค.
Achievement
Fig. 1. Organization of this survey.
- ํฌ๊ด์ ๋ถ๋ฅ ์ฒด๊ณ: hierarchical ์์ฌ๊ฒฐ์ (high-level planning, low-level execution, feedback)๊ณผ end-to-end ์์ฌ๊ฒฐ์ (VLA ๋ชจ๋ธ ๊ธฐ๋ฐ)์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ญํ ์ ๋ช
ํํ ํจ
- ํ์ต ๋ฐฉ๋ฒ๋ก ํตํฉ: imitation learning๊ณผ reinforcement learning์์ ๋๊ท๋ชจ ๋ชจ๋ธ์ด policy network์ reward function ์ค๊ณ๋ฅผ ์ด๋ป๊ฒ ๊ฐํํ๋์ง ์์ธํ ๋ถ์
- World model ํตํฉ: ์ฒ์์ผ๋ก world model์ embodied AI ์๋ฒ ์ด์ ํฌํจ์์ผ ์์ฌ๊ฒฐ์ ๊ณผ ํ์ต ํฅ์์์์ ์ญํ ์ ์
- ์ด์ค ๋ถ์ ๋ฐฉ๋ฒ๋ก : ์ํ์ ๋ถ์(๋ค์ํ ์ ๊ทผ๋ฒ ๋น๊ต)๊ณผ ์์ง์ ๋ถ์(ํต์ฌ ๋ชจ๋ธ์ ์งํ ์ถ์ )์ ๊ฒฐํฉํ์ฌ ๊ฑฐ์์ ๊ฐ์์ ์ฌ์ธต์ ํต์ฐฐ ๋์ ์ ๊ณต
- ์ต์ ์ง์ ๋ฐ์: VLA ๋ชจ๋ธ, end-to-end ์์ฌ๊ฒฐ์ , ์ต์ ๋๊ท๋ชจ ๋ชจ๋ธ ๋ฑ 2024-2025๋
์ ์ต์ ๋ฐ์ ์ ํฌํจ
How
Fig. 5. Hierarchical decision-making paradigm, consisting of perception and interaction, high-level planning,
- Hierarchical ํจ๋ฌ๋ค์์์ LLM/VLM์ ์ด์ฉํ high-level planning, vision-guided low-level execution, feedback-based iterative optimization์ ๊ตฌ์กฐ ๋ถ์
- VLA ๋ชจ๋ธ์ ๋ถํด ๋ฐ perception, action generation, deployment efficiency ์ธก๋ฉด์์์ ๋๊ท๋ชจ ๋ชจ๋ธ ๊ฐํ ๋ฐฉ์ ๊ฒํ
- Imitation learning์์ ๋๊ท๋ชจ ๋ชจ๋ธ ๊ธฐ๋ฐ behavior cloning, behavior abstraction, in-context learning ๋ฑ์ policy ๊ตฌ์ฑ ๋ฐฉ๋ฒ ๋ถ์
- Reinforcement learning์์ LLM ๊ธฐ๋ฐ reward function ์ค๊ณ, policy network ๊ตฌ์ฑ, exploration ์ ๋ต ํฅ์ ๋ฐฉ์ ๊ฒํ
- World model์ ์ค๊ณ ์๋ฆฌ(representation learning, predictive modeling, contrastive learning ๋ฑ)์ decision-making/learning ๊ฐ์ ๋ฉ์ปค๋์ฆ ๋ถ์
- Hierarchical๊ณผ end-to-end ํจ๋ฌ๋ค์์ ๋น๊ต ๋ถ์(์ฑ๋ฅ, ํด์์ฑ, ์ํ ํจ์จ์ฑ, ์ค์ ๋ฐฐํฌ ์ธก๋ฉด)
- Transfer learning, meta-learning ๋ฑ ์ถ๊ฐ embodied learning ๋ฐฉ๋ฒ๋ก ์ ๋๊ท๋ชจ ๋ชจ๋ธ ํ์ฉ ๋ฐฉ์ ๊ฒํ
Originality
- ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ embodied AI์ ์๋์ง์ ์ด์ ์ ๋ง์ถ ์ต์ด์ ์ข
ํฉ ์๋ฒ ์ด๋ก, ๊ธฐ์กด ์๋ฒ ์ด์ ๋จํธ์ ์ ๊ทผ์ ๋์ด ํตํฉ์ ๊ด์ ์ ์
- Hierarchical๊ณผ end-to-end ์์ฌ๊ฒฐ์ ์ ๋๋ฑํ๊ฒ ์์ธํ ๋น๊ต ๋ถ์ํ๊ณ ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ ๋ช
ํํ ํจ
- World model์ embodied AI ์๋ฒ ์ด์ ์ฒ์์ผ๋ก ํตํฉ์์ผ perception-action-learning์ ์์ ํ ๋ฃจํ ๋ถ์
- ์ด์ค ๋ถ์ ๋ฐฉ๋ฒ๋ก (์ํ์ /์์ง์ )์ ํตํด ๊ฐ๋ณ ๊ธฐ์ ์ ์งํ์ ๊ธฐ์ ๊ฐ ์ํธ์์ฉ์ ๋์์ ์ถ์
- 2024๋
์ดํ์ ์ต์ VLA ๋ชจ๋ธ, end-to-end ํจ๋ฌ๋ค์, ์ต์ ๋๊ท๋ชจ ๋ชจ๋ธ ๋ฐ์ ์ ์ฒด๊ณ์ ์ผ๋ก ํฌํจ
Limitation & Further Study
- ์ค์ ๋ก๋ด ์คํ ๊ฒฐ๊ณผ ์์ง ๋ฐ ๋น๊ต ๋ถ์ ๋ถ์กฑโ์ฃผ๋ก ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ฐ๊ตฌ ๊ฒํ ๋ก ์ค์ ๋ฐฐํฌ ๊ฒฉ์ฐจ ๋ฏธ๋ถ์
- ๊ณ์ฐ ๋น์ฉ, ๋ชจ๋ธ ํด์์ฑ, ์์ ์ฑ ๋ฑ ์ค๋ฌด์ ๊ณ ๋ ค์ฌํญ์ ๋ํ ์ฌ์ธต ๋ถ์ ๋ถ์กฑ
- ๋๊ท๋ชจ ๋ชจ๋ธ์ hallucination, ๋ถํฌ ์ธ(out-of-distribution) ์ํฉ ๋์ ๋ฑ์ ๋ฌธ์ ์ ์์ธ ๋
ผ์ ๋ฏธํก
- ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ(๋ฉํฐ์ผ์, ๋ค์ํ ํ๊ฒฝ) ํตํฉ ์ ๋ฐ์ํ๋ ์ผ์ฑ-์์ฌ๊ฒฐ์ -์คํ์ ๋๊ธฐ ์๊ฐ(latency) ๋ฐ ๋๊ธฐํ ๋ฌธ์ ๋
ผ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๋๊ท๋ชจ ๋ชจ๋ธ ์ ์ฉ ๊ฒ์ฆ, ์ ์์ ํ๊ฒฝ์์์ ํจ์จ์ ํ์ฉ, ์์ ์ฑ๊ณผ ์ ๋ขฐ๋ ๋ณด์ฆ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, ๋ฉํฐ ์์ด์ ํธ ํ๋ ฅ ์๋๋ฆฌ์ค๋ก์ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ์๋ฒ ์ด๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ด embodied AI์ ์์ฌ๊ฒฐ์ ๊ณผ ํ์ต์ ์ด๋ป๊ฒ ๊ฐํํ๋์ง๋ฅผ ์ฒด๊ณ์ ์ด๊ณ ํฌ๊ด์ ์ผ๋ก ๋ถ์ํ ๋งค์ฐ ์์์ ์ ํ ๋ฆฌ๋ทฐ๋ก, ํนํ VLA ๋ชจ๋ธ, end-to-end ํจ๋ฌ๋ค์, world model ํตํฉ์ ํตํด ๊ธฐ์กด ์๋ฒ ์ด๋ฅผ ํฌ๊ฒ ์ง์ ์์ผฐ๋ค. ๋ค๋ง ์ค์ ๋ฐฐํฌ ๋ฐ ์ค๋ฌด์ ๋์ ๊ณผ์ ์ ๋ํ ์ฌํ ๋ถ์๊ณผ ์คํ์ ๊ฒ์ฆ์ด ์ถ๊ฐ๋๋ฉด ๋์ฑ ๊ฐ์น ์๋ ์๋ฃ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์