An Embodied Generalist Agent in 3D World
์ ์: Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang | ๋ ์ง: 2023-11-18 | URL: https://arxiv.org/abs/2311.12871 📄 PDF
Essence
Figure 1: The proposed embodied generalist agent LEO. It takes egocentric 2D images, 3D point clouds, and texts as input
LEO๋ egocentric 2D ์ด๋ฏธ์ง, 3D point cloud, ํ
์คํธ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ 3D ํ๊ฒฝ์์ ์ธ์, grounding, ์ถ๋ก , ๊ณํ, ํ๋์ ์ํํ ์ ์๋ ์ต์ด์ embodied generalist agent์ด๋ค. ํต์ผ๋ ๋ชจ๋ธ ์ํคํ
์ฒ์ ํ์ต ๋ชฉํ๋ก 3D vision-language alignment์ 3D vision-language-action instruction tuning์ ๋ ๋จ๊ณ๋ก ํ์ต๋๋ค.
Motivation
- Known: ์ต๊ทผ LLM ๊ธฐ๋ฐ generalist ๋ชจ๋ธ๋ค์ด ์ปดํจํฐ ๋น์ ๊ณผ ๋ก๋ด๊ณตํ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์์ ์ฑ๊ณผ๋ฅผ ๋ณด์๋ค. ํ์ง๋ง ๋๋ถ๋ถ์ ๋ชจ๋ธ๋ค์ 2D ์ด๋ฏธ์ง์ ์์กดํ๋ฉฐ 3D ์
๋ ฅ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๊ณ , 3D grounding, embodied reasoning, acting ๊ฐ์ 3D ์ธ๊ณ์ ๋ด์ฌ๋ ์์
์ ๊ฑฐ์ ํ์ํ์ง ์์๋ค.
- Gap: ๊ธฐ์กด์ 3D vision-language ๋ชจ๋ธ๋ค์ ๋๊ท๋ชจ ํต์ผ๋ pretraining๊ณผ ํจ์จ์ ์ธ fine-tuning์ ์ถฉ๋ถํ ํ์ํ์ง ์์์ผ๋ฉฐ, embodied ์์
(navigation, manipulation)์์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค. ๋ํ 3D ๋ฐ์ดํฐ ์์ง์ ๋์ ๋น์ฉ์ผ๋ก ์ธํด ๋๊ท๋ชจ 3D dataset์ด ๋ถ์กฑํ๋ค.
- Why: ํ์ค ์ธ๊ณ์ ์์
์ 3D ํ๊ฒฝ์์ ์ด๋ฃจ์ด์ง๋ฏ๋ก, 3D ์ธ๊ณ๋ฅผ ์ดํดํ๊ณ ์ํธ์์ฉํ ์ ์๋ generalist agent์ ๊ฐ๋ฐ์ ์ผ๋ฐ ์ธ๊ณต์ง๋ฅ์ ์ ๊ทผํ๊ธฐ ์ํด ํ์์ ์ด๋ค.
- Approach: object-centric 3D representation๊ณผ LLM์ ์ฐ๊ฒฐํ๋ ํต์ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , LLM-assisted pipeline์ผ๋ก ๊ณ ํ์ง 3D vision-language ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค. ๋ชจ๋ modality๋ฅผ token ์ํ์ค๋ก ๋ณํํ์ฌ GPT-style autoregressive language modeling์ผ๋ก ํ์ตํ๋ค.
Achievement
Figure 1: The proposed embodied generalist agent LEO. It takes egocentric 2D images, 3D point clouds, and texts as input
- ํต์ผ๋ embodied generalist agent: ๋จ์ผ ๋ชจ๋ธ์ผ๋ก 3D captioning, question answering, embodied reasoning, navigation, manipulation์ ํฌํจํ ๋ค์ํ ์์
์ ์ฒ๋ฆฌํ๋ฉฐ ๋๋ถ๋ถ์ ์์
์์ task-specific ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ค.
- ํจ์จ์ ์ธ 3D vision-language ๋ฐ์ดํฐ ์์ฑ: scene graph์ Object-centric Chain-of-Thought(O-CoT) ๋ฐฉ๋ฒ์ ํ์ฉํ LLM-assisted pipeline์ผ๋ก ๋๊ท๋ชจ ๊ณ ํ์ง 3D VL ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ , ์ ๊ท ํํ์ ๋งค์นญ๊ณผ scene graph retrieval์ ํตํด LLM hallucination์ ์ํํ๋ค.
- ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ: scene-grounded dialogue์ planning์์ ์ ์ฐํ๊ณ coherentํ ์๋ต์ ์์ฑํ๋ฉฐ, navigation๊ณผ manipulation ์์
์์ task-specific ๋ชจ๋ธ๊ณผ ๊ฒฌ์ค ์ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
- ํ์ฅ์ฑ ๊ฒ์ฆ: ๋ชจ๋ธ ํฌ๊ธฐ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ๋ฉฐ scaling law๋ฅผ ์
์ฆํ๋ค.
How
Figure 2: Our proposed LLM-assisted 3D-language data generation pipeline and data examples.. (Top-left) Messages with 3D
- 2๋จ๊ณ ํ์ต ์คํด: (1) 3D vision-language alignment - ๋๊ท๋ชจ 3D captioning ๋ฐ์ดํฐ๋ก visual-language ์ฐ๊ฒฐ ํ์ต, (2) 3D vision-language-action instruction tuning - action ํ ํฐ์ ํฌํจํ instruction tuning
- Multi-modal tokenization: egocentric 2D ์ด๋ฏธ์ง ํ ํฐ, object-centric 3D point cloud ํ ํฐ, ํ
์คํธ ํ ํฐ์ ํตํฉ ์ํ์ค๋ก ๋ณํํ์ฌ LLM์ ์
๋ ฅ
- Dual encoder ๊ตฌ์กฐ: egocentric 2D encoder๋ก embodied ์์ ์ ์ธ์ํ๊ณ 3D point cloud encoder๋ก third-person ์ ์ญ ์์ ์ ์ฒ๋ฆฌ
- LLM-assisted ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ: scene graph๋ฅผ LLM์ ์
๋ ฅํ๊ณ O-CoT ๋ฐฉ๋ฒ์ผ๋ก ๊ณ ํ์ง captioning ์์ฑ, ์ ๊ท ํํ์๊ณผ scene graph retrieval๋ก ํ์ฒ๋ฆฌ
- ํตํฉ ๋ชฉํ ํจ์: ๋ชจ๋ ์์
์ sequence prediction์ผ๋ก ๊ณต์ํํ์ฌ ๋์ผํ autoregressive ํ์ต ๋ชฉํ ์ ์ฉ
- LoRA ๊ธฐ๋ฐ ํจ์จ์ fine-tuning: ์ฌ์ ํ์ต๋ LLM์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ LoRA๋ฅผ ํตํด ์ ์
Originality
- ์ต์ด์ embodied generalist agent: egocentric 2D, 3D global, ํ
์คํธ ์
๋ ฅ์ ํต์ผ ์ํคํ
์ฒ๋ก ์ฒ๋ฆฌํ๋ฉด์ ๋์์ text response์ embodied action์ ์์ฑํ๋ ์ฒซ ์๋
- Object-centric 3D ํํ๊ณผ LLM์ ํจ์จ์ ์ฐ๊ฒฐ: point cloud์ object-centric ํน์ฑ์ ํ์ฉํ์ฌ 3D ์ดํด์ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ์์ฐ์ค๋ฝ๊ฒ ๊ฒฐํฉ
- LLM-assisted 3D VL ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ: scene graph ๊ธฐ๋ฐ ๊ตฌ์กฐํ๋ prompt์ O-CoT ๋ฐฉ๋ฒ์ผ๋ก ๋๊ท๋ชจ ๊ณ ํ์ง 3D ์ฃผ์์ ์์ฑํ๋ ์ค์ฉ์ ์๋ฃจ์
- ํฌ๊ด์ 3D ์์
๋ฒค์น๋งํฌ: object-level๊ณผ scene-level์ ๋ค์ํ 3D ์์
์ ํต์ผ๋ framework๋ก ํ๊ฐํ๊ณ ์์ธํ ablation study ์ ์
Limitation & Further Study
- 3D ๋ฐ์ดํฐ ๊ท๋ชจ: ์ฌ์ ํ ๋๊ท๋ชจ 3D ๋ฐ์ดํฐ ์์ง์ 2D์ ๋นํด ๋น์ฉ์ด ๋์ผ๋ฉฐ, ์ ์๋ ๋ฐ์ดํฐ์
์ ๊ท๋ชจ๊ฐ 2D foundation model ์์ค์ ๋ฏธ์น์ง ๋ชปํจ
- ์ค์ ๋ก๋ด ํ๊ฒฝ ๊ฒ์ฆ ๋ถ์กฑ: ๋๋ถ๋ถ์ ํ๊ฐ๊ฐ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ(3D scene benchmark)์์ ์ด๋ฃจ์ด์ก์ผ๋ฉฐ ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ์ฑ๋ฅ ๊ฒ์ฆ์ด ์ ํ์
- Action ํ ํฐ์ ํํ๋ ฅ: ๋ก๋ด ์กฐ์ ์์
์ precise control(์์น, ํ์ ์ขํ)์ ์ํด action tokenization ๋ฐฉ์์ ์ถ๊ฐ ๊ฐ์ ํ์
- Scene understanding์ ๋์ ํ๊ฒฝ ๋์: ์ ์ 3D scene ์ดํด์ ์ต์ ํ๋์ด ์์ผ๋ฉฐ ๋์ ํ๊ฒฝ ๋ณํ์ ๋ํ ์ ์ ๋ฅ๋ ฅ์ ๋ฏธํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ๋๊ท๋ชจ 3D ๋ฐ์ดํฐ ์์ง ๋ฐ ํฉ์ฑ ๋ฐ์ดํฐ ํ์ฉ, (2) ์ค์ embodied ํ๊ฒฝ์์์ closed-loop ํ๊ฐ, (3) ๋ค์ํ 3D encoder ์ํคํ
์ฒ ํ์, (4) few-shot adaptation ๋ฅ๋ ฅ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: LEO๋ 3D ํ๊ฒฝ์์์ embodied generalist agent ๊ฐ๋ฐ์ ์ค์ํ ์ด์ ํ๋ฅผ ์ ์ํ๋ฉฐ, ํต์ผ๋ ์ํคํ
์ฒ๋ก ๋ค์ํ 3D ์์
์ ์ฒ๋ฆฌํ ์ ์์์ ์
์ฆํ๋ค. LLM-assisted ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ 3D ๋ฐ์ดํฐ ์์ง์ ์ค์ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ค์ฉ์ ๊ธฐ์ฌ์ด๋ฉฐ, ๊ด๋ฒ์ํ ์คํ๊ณผ ablation study๊ฐ ์ฐ๊ตฌ์ ์ ๋ขฐ์ฑ์ ๋์ธ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์