Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
์ ์: Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang | ๋ ์ง: 2025-03-27 | URL: https://arxiv.org/abs/2503.21696 📄 PDF
Essence
Figure 1.
o1 ์คํ์ผ์ ์ฌ์ธต ์ถ๋ก ํจ๋ฌ๋ค์์ embodied ์ธํฐ๋ํฐ๋ธ ์์
์ผ๋ก ํ์ฅํ์ฌ, ์๊ฐ ํ์, ์ถ๋ก , ํ๋์ ํตํฉํ๋ Embodied-Reasoner ๋ชจ๋ธ์ ์ ์ํ๋ค. 9.3k๊ฐ์ Observation-Thought-Action ๊ถค์ ๊ณผ 3๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ ํตํด ๊ณต๊ฐ ์ดํด, ์๊ฐ ์ถ๋ก , ์๊ธฐ ๋ฐ์ฑ ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ค.
Motivation
- Known: o1, Gemini 2.0 Flash Thinking, DeepSeek R1 ๋ฑ์ ์ฌ์ธต ์ถ๋ก ๋ชจ๋ธ์ ์ํ๊ณผ ์ฝ๋ฉ ์์
์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ํ์ง๋ง ์ด๋ค ๋ชจ๋ธ์ embodied ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ, ํนํ ์ฅ๊ธฐ ์ํ์ ํ์คํฌ์์์ ํจ๊ณผ๋ ๊ฑฐ์ ํ๊ตฌ๋์ง ์์๋ค.
- Gap: ๊ธฐ์กด ์ถ๋ก ๋ชจ๋ธ๋ค์ ๋จ์ผ ํด ๋ํ์ ์ค์ ์ ๋๊ณ ์์ผ๋ฉฐ, ์ด๋ฏธ์ง-ํ๋ ์ธํฐ๋ฆฌ๋น๋ ์ฅ๊ธฐ์ ์ธํฐ๋์
๋งฅ๋ฝ์์ ์ผ๊ด๋ ๋ค์ํ ์ถ๋ก (๋ถ์, ๊ณต๊ฐ ์ถ๋ก , ๋ฐ์ฑ, ๊ณํ)์ ์์ฑํ์ง ๋ชปํ๋ค. ๋ํ embodied ์๋๋ฆฌ์ค์ ๋ค์ํ ์ถ๋ก ์์(์์ ์ถ๋ก , ๊ณต๊ฐ ๊ด๊ณ ์ดํด, ์๊ฐ ์ถ๋ก )์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ์ง ์๋๋ค.
- Why: Embodied AI๋ ์ค์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ์๊ตฌํ๋ ์ค์ฉ์ ์์ฉ(๋ก๋ด, ์์ด์ ํธ)์ ํ์์ ์ด๋ฉฐ, ์ฌ์ธต ์ถ๋ก ๋ฅ๋ ฅ์ ์ด๋ฌํ ์์ญ์ผ๋ก์ ํ์ฅ์ ์ฅ๊ธฐ ๊ณํ๊ณผ ๋ณต์กํ ์์
ํด๊ฒฐ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: 9.3k๊ฐ์ ์ผ๊ด๋ Observation-Thought-Action ๊ถค์ (64k๊ฐ ์ธํฐ๋ํฐ๋ธ ์ด๋ฏธ์ง, 90k๊ฐ ๋ค์ํ ์ฌ๊ณ ํ๋ก์ธ์ค)์ ํฉ์ฑํ๊ณ , imitation learning, rejection sampling ๊ธฐ๋ฐ ์๊ธฐ ํ์, reflection tuning์ ํฌํจํ 3๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค.
Achievement
Figure 2. Embodied-Reasoner exhibits spontaneous thinking behaviors, e.g., analyzing environmental states (#1,3), reflec
- ์ฑ๋ฅ ํฅ์: OpenAI o1, o3-mini, Claude-3.7์ ๊ฐ๊ฐ +9%, +24%, +13% ๋ฅ๊ฐ
- ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ ๊ฐ์ : ๋ฐ๋ณต ๊ฒ์๊ณผ ๋
ผ๋ฆฌ์ ๋ถ์ผ์น ๊ฐ์ ์์ฐ
- ์ฅ๊ธฐ ์์
๊ฐ์ : ๋ณต์กํ long-horizon ์์
์์ ํนํ ๋ฐ์ด๋ ์ฑ๋ฅ
- ์ค์ ํ๊ฒฝ ๊ฒ์ฆ: ์ค์ ํ๊ฒฝ์์๋ ์ฐ์์ฑ ํ์ธ ๋ฐ ํจ์จ์ ํ์ ํ๋ ์์ฐ
- ๋ค์ํ ์ฌ๊ณ ๋ฅ๋ ฅ: situation analysis, spatial reasoning, task planning, self-reflection, verification ๋ฑ 5๊ฐ์ง ์ฌ๊ณ ์ ํ ํตํฉ
How
Figure 3. Left: Data Engine for synthesis. First, we synthesize instructions from
- Data Engine์ ํตํด Observation-Thought-Action ๊ถค์ ์๋ ํฉ์ฑ
- Imitation learning์ผ๋ก ๊ธฐ๋ณธ ํ๋ ํ์ต
- Rejection sampling ๊ธฐ๋ฐ self-exploration์ผ๋ก ๋ค์ํ ํ์ ์ ๋ต ์ต๋
- Reflection tuning์ผ๋ก ์๊ธฐ ์ค๋ฅ ์์ ๋ฐ ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ ๊ฐํ
- Image-text interleaved ํํ๋ก ์๊ฐ ์
๋ ฅ๊ณผ ํ
์คํธ ์ฌ๊ณ ๋ฅผ ๊ต๋๋ก ์ฒ๋ฆฌ
- 5๊ฐ์ง ์ฌ๊ณ ์์(๋ถ์, ๊ณต๊ฐ ์ถ๋ก , ๋ฐ์ฑ, ๊ณํ, ๊ฒ์ฆ)์ ์ํฉ์ ๋ง๊ฒ ์์ฑ
Originality
- Deep thinking ํจ๋ฌ๋ค์์ embodied ๋๋ฉ์ธ ์ต์ด ์ฒด๊ณ์ ํ์ฅ
- Long-horizon interactive task๋ฅผ ์ํ ๋ค์ํ ์ฌ๊ณ ์์(analysis, spatial reasoning, reflection, planning, verification) ํตํฉ
- Interactive trajectory ํฉ์ฑ์ ์ํ ์๋ํ๋ Data Engine ๊ฐ๋ฐ
- Rejection sampling๊ณผ reflection tuning์ ์กฐํฉ์ ํตํ ๋จ๊ณ์ ์ญ๋ ๊ฐํ ํ์ดํ๋ผ์ธ
- Image-action interleaved context์์ ์ผ๊ด๋ ๋ค์ค๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ ๊ตฌํ
Limitation & Further Study
- ๋ฐ์ดํฐ์
๊ท๋ชจ์ ์ ํ์ฑ(9.3k ๊ถค์ )์ผ๋ก ์ธํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ถํ์ค์ฑ
- ํ๊ฐ๊ฐ ์ฃผ๋ก object search ๋ฑ ํน์ ์ ํ์ embodied ์์
์ ์ง์ค๋์ด ์์ผ๋ฉฐ, ๋ค๋ฅธ ์ ํ์ ์ํธ์์ฉ ์์
์ผ๋ก์ ํ๋ ๊ฒ์ฆ ๋ถ์กฑ
- ์ค์ ํ๊ฒฝ ์คํ์ ์ ํ๋ ๋ฒ์๋ก ์ธํ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ๊ณ์ฐ ๋น์ฉ๊ณผ ์๋ต ์๊ฐ์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ณต์กํ multi-agent embodied ์์
, ์ง์์ ํ์ต ๋ฉ์ปค๋์ฆ, ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์ ํ์ผ๋ก์ ํ์ฅ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ฌ์ธต ์ถ๋ก ๋ชจ๋ธ์ embodied AI ์์ญ์ผ๋ก ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ฅํ์ฌ ์ค์ํ ์ฐ๊ตฌ ๊ณต๋ฐฑ์ ์ฑ์ ์ผ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ ๋ช
ํํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ๋ฐ์ดํฐ์
๊ท๋ชจ์ ํ๊ฐ ๋ฒ์ ํ๋, ์ค์ ํ๊ฒฝ์์์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํฅํ ์ฐ๊ตฌ์์ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์