Foundation Models in Robotics: Applications, Challenges, and the Future
๐ง Audio Overview ์์ฑ
์ ์ : Roya Firoozi, Johnathan Tucker, Stephen Tian, Anirudha Majumdar, Jiankai Sun, Weiyu Liu, Yuke Zhu, Shuran Song, Ashish Kapoor, Karol Hausman, Brian Ichter, Danny Driess, Jiajun Wu, Cewu Lu, Mac Schwager | ๋ ์ง : 2023-12-13 | URL : https://arxiv.org/abs/2312.07843 📄 PDF
Essence
Fig. 1. Overview of Robotics Tasks Leveraging Foundation Models.
๋ณธ ๋
ผ๋ฌธ์ ๋ก๋ด ์๋ํ ์คํ์ ์ง๊ฐ, ์์ฌ๊ฒฐ์ , ์ ์ด ์ ๋ฐ์ ๊ฑธ์ณ foundation model์ ์์ฉ์ ํฌ๊ด์ ์ผ๋ก ์กฐ์ฌํ๋ฉฐ, ๋ก๋ด ๋๋ฉ์ธ ์ ์ฉ ์ ๋ฐ์ดํฐ ๋ถ์กฑ, ์ค์๊ฐ ์ฑ๋ฅ, ์์ ์ฑ ๋ณด์ฅ ๋ฑ์ ์ฃผ์ ๊ณผ์ ๋ฅผ ์ ์ํ๋ค.
Motivation
Known : Foundation model์ ๋๊ท๋ชจ ์ธํฐ๋ท ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ด๋ฉฐ, ๊ธฐ์กด ๋ก๋ด ํ์ต์ ํน์ ์์
๋ณ ์๊ท๋ชจ ๋ฐ์ดํฐ์
์ ์์กดํ๋ค. VLM๊ณผ LLM์ด ์๊ฐ-์ธ์ด ์ดํด์ ์์ ์ถ๋ก ์ ์ ๊ณตํ ์ ์๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์๋ค.
Gap : Foundation model์ ๋ก๋ด ๋ถ์ผ ์ ์ฉ์ ์์ง ์ด๊ธฐ ๋จ๊ณ๋ก, ๋ก๋ด ๊ด๋ จ ํ์ต ๋ฐ์ดํฐ์ ์ฌ๊ฐํ ๋ถ์กฑ, ๋ถํ์ค์ฑ ์ ๋ํ, ์ค์๊ฐ ์คํ ๊ฐ๋ฅ์ฑ, ๊ทธ๋ฆฌ๊ณ ์์ ์ฑ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ด ํ๋ฆฝ๋์ง ์์๋ค.
Why : Foundation model์ ์ ํ๋ ๋ฐ์ดํฐ ํ๊ฒฝ์์์ ๋ก๋ด ํ์ต ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ ์ ์์ผ๋ฉฐ, zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฏธ์ง์ ํ๊ฒฝ์์ ๋ก๋ด์ ์ ์์ฑ์ ํฌ๊ฒ ๋์ผ ์ ์๋ค.
Approach : ๋ณธ ๋
ผ๋ฌธ์ perception, decision-making, control ์์ญ์์ foundation model์ ํ์ฉํ๋ ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅ ๋ฐ ๋ถ์ํ๊ณ , ๋ก๋ด ์๋ํ ํตํฉ ์ ์ง๋ฉดํ๋ ๊ธฐ์ ์ , ์์ ์ฑ ๊ด๋ จ ๊ณผ์ ๋ค์ ์์ธํ ๋
ผ์ํ๋ค.
Achievement
Fig. 1. Overview of Robotics Tasks Leveraging Foundation Models.
Foundation Model ์์ฉ ๋ถ๋ฅ : Perception (open-vocabulary detection/segmentation, 3D ํํ ํ์ต), Decision-making (LLM ๊ธฐ๋ฐ ํ์คํฌ ํ๋๋, ์ธ์ด ์กฐ๊ฑด ๋ชจ๋ฐฉ ํ์ต), Control (Transformer ๊ธฐ๋ฐ ์ ์ฑ
, in-context learning) ์์ญ๋ณ๋ก ์ฒด๊ณํ
์ฃผ์ ๊ธฐ์ ๋ํฅ ์ ๋ฆฌ : Language-grounded 3D scene understanding, code generation์ ํตํ ํ์คํฌ ํ๋๋, vision-language model์ affordance ํ์ต ๋ฑ ์ ํฅ ๊ธฐ๋ฒ๋ค์ ์ฑ๊ณผ ์ ์
ํต์ฌ ๊ณผ์ ์๋ณ : ๋ฐ์ดํฐ ๋ถ์กฑ(๋ก๋ด ๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง ๋ฐฉ๋ฒ ๋ถ์ฌ), ๋ถํ์ค์ฑ ์ ๋ํ(instance/distribution ์์ค), ์ค์๊ฐ ์ฑ๋ฅ(inference latency), ์์ ์ฑ ํ๊ฐ(๋ฐฐํฌ ์ /์ค/ํ ๊ฒ์ฆ) ๋ฑ 5๊ฐ ์ฃผ์ ๋ถ์ผ์ ๊ตฌ์ฒด์ ๋ฌธ์ ์ ์
ํด๊ฒฐ ๋ฐฉ์ ์ ์ : ๋น๊ตฌ์กฐํ ํ๋ ์ด ๋ฐ์ดํฐ ํ์ฉ, synthetic data ์์ฑ, VLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ, ๋ถํ์ค์ฑ ์ ๋ํ ํ๋ ์์ํฌ, ๋ฐฐํฌ ์ ์์ ํ
์คํธ ๋ฐ OOD detection ๋ฐฉ์ ์ ์
How
Foundation model์ ์ ํ๋ณ ๋ถ๋ฅ: LLM, Vision Transformer, VLM(vision-language model), embodied multimodal LM, visual generative model ๋ฑ์ ํน์ฑ๊ณผ ๋ก๋ด ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋ถ์
๋ก๋ด ์์ฉ ๋๋ฉ์ธ๋ณ ์ฒด๊ณ์ ๋ฆฌ๋ทฐ: policy learning (language-conditioned imitation learning, language-assisted RL), task planning (language instruction, code generation), open-vocabulary navigation/manipulation, perception (object detection, semantic segmentation, 3D ํํ)
๋ฐ์ดํฐ ์ค์ผ์ผ๋ง ์ ๋ต ๊ฒํ : unlabeled video ๋ฐ human play data ํ์ฉ, inpainting ๊ธฐ๋ฐ data augmentation, simulation์ ํตํ synthetic data ์์ฑ, VLM์ ํ์ฉํ ์๋ ๋ผ๋ฒจ๋ง
๋ถํ์ค์ฑ ๋ฐ ์์ ์ฑ ํ๊ฐ ํ๋ ์์ํฌ: instance-level (์ธ์ด ambiguity, LLM hallucination), distribution-level uncertainty, distribution shift, calibration ๊ด์ ์ ๋ถ์
์ค์๊ฐ ์ฑ๋ฅ ๊ฐ์ ๊ฒฝ๋ก: ๋ชจ๋ธ ๊ฒฝ๋ํ, inference acceleration, ๊ตฌ์กฐํ๋ ์์ฑ(structured generation)์ ํตํ latency ๊ฐ์ ๋ฐฉ์ ๊ฒํ
Originality
๋ก๋ด ๋๋ฉ์ธ์ foundation model ์์ฉ์ ๋ํ ์ต์ด์ ํฌ๊ด์ ํ์ ์กฐ์ฌ(concurrent survey ์ ์ธ)๋ก, perception-decision making-control์ ํตํฉ ๊ด์ ์ ์
๊ธฐ์ ์ ์ฑ๊ณผ๋ฟ ์๋๋ผ ์ค์ ๋ฐฐํฌ๋ฅผ ์ํ ์์ ์ฑ, ๋ถํ์ค์ฑ ์ ๋ํ, ์ค์๊ฐ ์ฑ๋ฅ ๋ฑ ์ค๋ฌด์ ๊ณผ์ ๋ฅผ ๋๋ฑํ ๋น์ค์ผ๋ก ๋ค๋ฃฌ ์
๋ก๋ด ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๋ค์ธต์ ์ผ๋ก ์ ๊ทผํ๋ ํด๊ฒฐ์ฑ
(self-supervised learning, synthetic data, VLM ๊ธฐ๋ฐ augmentation ๋ฑ)์ ์ฒด๊ณํ
Limitation & Further Study
์กฐ์ฌ ๋
ผ๋ฌธ์ ํน์ฑ์ new empirical result๋ novel algorithm ์ ์ ๋ถ์ฌ
Foundation model ์์ฒด์ ๊ทผ๋ณธ์ ํ๊ณ(hallucination, OOD robustness ๋ฑ)์ ๋ํ ๊น์ด ์๋ ๋ถ์ ๋ถ์กฑ
์ค์ ๋ก๋ด ํ๋ซํผ์์์ end-to-end ํตํฉ ์ฌ๋ก ๋ฐ ์ฑ๋ฅ ๋น๊ต ๋ฐ์ดํฐ ์ ํ
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ก๋ด ํนํ foundation model ๊ฐ๋ฐ, (2) ์๊ฒฉํ ๋ถํ์ค์ฑ ์ ๋ํ ๋ฐฉ๋ฒ๋ก ์๋ฆฝ, (3) closed-loop ๋ฐฐํฌ ํ๊ฒฝ์์์ distribution shift ๋์, (4) ์์ ์ฑ ๊ฒ์ฆ ํ์คํ, (5) ์ค์๊ฐ ์คํ ๊ฐ๋ฅํ ๊ฒฝ๋ ๋ชจ๋ธ ๊ฐ๋ฐ
Evaluation
Novelty: 3/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ ๋ก๋ด ์๋ํ์์ foundation model์ ์ญํ ์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์ค์ํ ์กฐ์ฌ ๋
ผ๋ฌธ์ผ๋ก, ๊ธฐ์ ์ ์ฑ๊ณผ๋ฟ ์๋๋ผ ์์ ์ฑ๊ณผ ์ค์๊ฐ ์ฑ๋ฅ์ด๋ผ๋ ์ค๋ฌด์ ๊ณผ์ ๋ฅผ ๊ท ํ์๊ฒ ๋ค๋ฃจ์ด ํด๋น ๋ถ์ผ์ ๋์นจ๋ฐ ์ญํ ์ ํ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com