Robot Learning in the Era of Foundation Models: A Survey
์ ์: Xuan Xiao, Jiahang Liu, Zhipeng Wang, Yanmin Zhou, Yong Qi, Qian Cheng, Bin He, Shuo Jiang | ๋ ์ง: 2023-11-24 | URL: https://arxiv.org/abs/2311.14379 📄 PDF
Essence
Fig.1. Overall structure of the survey.
์ด ๋
ผ๋ฌธ์ Large Language Models(LLMs)๊ณผ multimodal foundation models๋ฅผ ๋ก๋ด ํ์ต์ ์ ์ฉํ๋ ์ต์ ๊ธฐ์ ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ๋ survey์ด๋ฉฐ, manipulation, navigation, planning, reasoning์ ๋ค ๊ฐ์ง ์ฃผ์ ์์ญ์์ foundation model ๊ธฐ๋ฒ์ ์ ์ฉ ๋ฐฉ์์ ๋ถ์ํ๋ค.
Motivation
- Known: ์ ํต์ ๋ก๋ด ํ์ต์ imitation learning๊ณผ reinforcement learning์ผ๋ก ๋๋๋ฉฐ, ์ด๋ค์ ์ผ๋ฐํ ๋ถ์กฑ, ํ๊ฒฝ ์ ์์ฑ ๋ฎ์, ๊ณํ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ๋ถ์กฑ ๋ฑ์ ๋ฌธ์ ๊ฐ ์๋ค. ์ต๊ทผ ChatGPT์ ๋ฑ์ฅ๊ณผ ํจ๊ป LLMs์ด ๋ก๋ด ํ์ต์ ์ ์ฉ๋๊ธฐ ์์ํ๋ค.
- Gap: ๊ธฐ์กด ๋ก๋ด ํ์ต survey๋ ๋จ์ผ ์์
์ค์ฌ์ด๊ณ ์ ํต์ ๋ฐฉ๋ฒ์ ์์กดํ๊ณ ์์ผ๋ฉฐ, foundation models์ ํ์ฉํ ๋ฉํฐํ์คํฌ ๋ก๋ด ํ์ต์ ๋ํ ์ข
ํฉ์ ์ธ ๋ฌธํ ๋ฆฌ๋ทฐ๊ฐ ๋ถ์กฑํ๋ค.
- Why: LLMs๊ณผ multimodal foundation models๋ ๋ณต์กํ ์์
์ดํด, ์ง์์ ๋ํ, zero-shot ์ถ๋ก ๋ฅ๋ ฅ์ ์ ๊ณตํ์ฌ ๋ก๋ด์ด ์ผ๋ฐ์ embodied AI๋ก ์งํํ ์ ์๊ฒ ํ๋ฉฐ, ์ด๋ ์ฐ์
, ์๋ฃ, ์๋น์ค ๋ก๋ด ๋ฑ ์ค์ํ ์์ฉ์ ๋งค์ฐ ์ค์ํ๋ค.
- Approach: ๋
ผ๋ฌธ์ ๋ก๋ด ํ์ต์ ๊ธฐ์ ์งํ, foundation models์ ํ์ ์ค๋น ์์(simulator, dataset, framework), ๊ทธ๋ฆฌ๊ณ ๋ค ๊ฐ์ง ์ฃผ์ ๋ก๋ด ํ์ต ์์ญ์์์ foundation model ์ ์ฉ ์ฌ๋ก๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, ํ๋์จ์ด-์ํํธ์จ์ด ๋ถ๋ฆฌ, ๋์ ๋ฐ์ดํฐ, ์ธ๊ฐ๊ณผ์ ์ํธ์์ฉ ์ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฑ์ ๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฅผ ๋
ผ์ํ๋ค.
Achievement
Fig.1. Overall structure of the survey.
- ๊ธฐ์ ์งํ ์ฒด๊ณํ: Teaching programming(kinesthetic teaching, teleoperation), reinforcement learning, embodied imitation learning, AIGC ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ์ ๋ค ๋จ๊ณ๋ก ๋ก๋ด ํ์ต ๋ฐ์ ๊ณผ์ ์ ์ ๋ฆฌ
- Foundation model ์ ์ฉ ๋ฒ์ ํ๋: LLMs๊ณผ multimodal foundation models์ manipulation, navigation, planning, reasoning ๋ค ๊ฐ์ง ๋ก๋ด ํ์ต ์ฃผ์ ์์ญ์ ์ ์ฉํ๋ ๋ฐฉ์์ ๋ถ์
- ๋ฏธํด๊ฒฐ ๋ฌธ์ ๊ท๋ช
: ๋ก๋ด ํ๋์จ์ด-์ํํธ์จ์ด ๋ถ๋ฆฌ, ๋์ ๋ฐ์ดํฐ์ ์ค์์ฑ, ์ธ๊ฐ ์ํธ์์ฉ ์ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฑ ํ์กด ๋ฌธํ์์ ๊ฐ๊ณผ๋ ํต์ฌ ์ด์ ์ ์
- ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์: Multimodal interaction (ํนํ dynamics data), ๋ก๋ด ์ ์ฉ foundation models, AI alignment ๋ฑ ํฅํ ์ค์ ์ฐ๊ตฌ ์์ญ ์ ์
How
Fig.2. Technical Evolution[27-30].
- ๋ก๋ด ํ์ต์ ์ญ์ฌ์ ์งํ๋ฅผ ๋ค ๋จ๊ณ๋ก ๋ถ๋ฅํ์ฌ ๊ฐ ๋จ๊ณ์ ํน์ฑ, ์ฅ๋จ์ , ๊ธฐ์ ์ ํ๊ณ๋ฅผ ๋ถ์
- Simulator, dataset, foundation model framework ๋ฑ foundation models ๋์
์ ์ํ ํ์ ์ธํ๋ผ ์์ ๊ฒํ
- Manipulation(grasping, object manipulation), navigation(path planning, obstacle avoidance), planning(task decomposition), reasoning(common sense reasoning, commonsense knowledge)์ ๋ค ์์ญ๋ณ๋ก foundation model ์ ์ฉ ์ฌ๋ก ์กฐ์ฌ
- Multimodal data(2D&3D vision, LiDAR, voice, IMU ๋ฑ)๋ฅผ ํ์ฉํ perception-action loop ํ์ ์ ๋ต ๋ถ์
- ์ ์ฑ์ ๋ฆฌ๋ทฐ ๋ฐฉ์์ผ๋ก ์ ํ ์ฐ๊ตฌ์ ๊ฐ์ ๊ณผ ์ฝ์ ์ ๋น๊ต๋ถ์ํ๊ณ ํจํด ๋์ถ
Originality
- Foundation models ์๋๋ผ๋ ๋ช
ํํ ์๊ฐ์ ํ๋ ์์ ์ค์ ํ์ฌ LLMs ๋ฑ์ฅ ์ดํ์ ๋ก๋ด ํ์ต ๋ณํ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ ์ต์ด์ ์ข
ํฉ survey
- ์ ํต์ ๋ก๋ด ํ์ต๊ณผ foundation models์ ๊ฒฐํฉ ๋ฐฉ์์ ๋ค ๊ฐ์ง ์ฃผ์ ์์
์์ญ์ผ๋ก ๋ถ๋ฅํ์ฌ ๋ถ์ํจ์ผ๋ก์จ ์๋ก์ด ๋ถ๋ฅ์ฒด๊ณ ์ ์
- ํ๋์จ์ด-์ํํธ์จ์ด decoupling, dynamics data์ ์ค์์ฑ, ์ธ๊ฐ ์ํธ์์ฉ ์ ์ผ๋ฐํ ๋ฑ ๊ธฐ์กด ๋ก๋ด ํ์ต ๋
ผ๋ฌธ์์ ๊ฐ๊ณผ๋ ์ค์ ๋ฌธ์ ๋ค์ ๋ช
์์ ์ผ๋ก ๊ท๋ช
- Zero-shot ํ์ต๊ณผ embodied AI์ ๊ฒฐํฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํ์ฌ ๋ก๋ด ํ์ต์ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
Limitation & Further Study
- Survey ํ์์ด๋ฏ๋ก ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ด๋ ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ ์ ํด๋ฒ์ ์ ์ํ์ง ์์ผ๋ฉฐ, ๊ฐ ์์ญ๋ณ foundation model ์ ์ฉ์ ์ ๋์ ์ฑ๋ฅ ๋น๊ต๊ฐ ๋ถ์กฑ
- Hardware-software decoupling, dynamics data, generalization with human ๋ฑ ์ ์๋ ๋ฏธํด๊ฒฐ ๋ฌธ์ ์ ๋ํ ๊ตฌ์ฒด์ ์ธ ํด๊ฒฐ๋ฐฉ์์ด๋ ์คํ์ ๊ฒ์ฆ์ด ์์
- Simulator์ real world ๊ฐ์ sim-to-real transfer ๋ฌธ์ ์ ์ค์์ฑ์ ์ธ๊ธ๋์ง๋ง ์ด๋ฅผ ๊ทน๋ณตํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- ํ์์ฐ๊ตฌ ๋ฐฉํฅ: Foundation models ์์ฒด์ ์๋ ด, inference latency, real-time control ๊ฐ๋ฅ์ฑ ๋ฑ ๋ก๋ด ๋ฐฐํฌ ๊ด์ ์ ์ค์ฉ์ ๋ฌธ์ ํด๊ฒฐ ํ์; Multimodal data fusion๊ณผ dynamics modeling์ ์ํ ์๋ก์ด foundation model architecture ๊ฐ๋ฐ; Embodied AI์ ์์ ์ฑ๊ณผ AI alignment ํ๋ณด๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ก ์๋ฆฝ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ LLMs์ multimodal foundation models์ ๋ก๋ด ํ์ต ์ ์ฉ์ด๋ผ๋ ์๋ก์ด ํ์ ๊ฐ ๋ถ์ผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์ค์ํ survey๋ก์, ๊ธฐ์ ์งํ ๋จ๊ณํ, ๋ค ๊ฐ์ง ์ฃผ์ ์์
์์ญ ๋ถ๋ฅ, ๊ทธ๋ฆฌ๊ณ ๋ฏธํด๊ฒฐ ์ค์ ๋ฌธ์ ์ ๋ช
์์ ๊ท๋ช
์ ํตํด ํฅํ embodied AI ์ฐ๊ตฌ์ ๋ก๋๋งต์ ์ ์ํ๋ค. ๋ค๋ง ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ ์ ํด๋ฒ๊ณผ ์ ๋์ ์ฑ๋ฅ ๋น๊ต๊ฐ ๋ถ์กฑํ์ฌ ์ค์ ๊ตฌํ ๋จ๊ณ์ ์ฐ๊ตฌ์๋ค์ ์ํ ๊ฐ์ด๋๋ก์์ ์ญํ ์ ์ ํ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์