Robotic Control via Embodied Chain-of-Thought Reasoning
๐ง Audio Overview ์์ฑ
์ ์ : Michaล Zawalski, William Chen, Karl Pertsch, Oier Mees, Chelsea Finn, Sergey Levine | ๋ ์ง : 2024-07-11 | URL : https://arxiv.org/abs/2407.08693 📄 PDF
Essence
Figure 1:
Vision-language-action (VLA) ๋ชจ๋ธ์ embodied chain-of-thought ์ถ๋ก ์ ๋์
ํ์ฌ ๋ก๋ด ์ ์ฑ
์ด ํ๋ ์์ธก ์ ์ ๊ณํ, ๋ถ์์
, ์์ง์, ์๊ฐ์ ํน์ง์ ๋ํด ๋ค๋จ๊ณ ์ถ๋ก ์ ์ํํ๋๋ก ํ๋ จ์ํจ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ํตํด OpenVLA์ ์ ๋ ์ฑ๊ณต๋ฅ ์ 28% ํฅ์์์ผฐ๋ค.
Motivation
Known : VLA๋ ์ธํฐ๋ท ์ฌ์ ํ์ต vision-language ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ด ์ ์ฑ
์ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ ํ๋ค. ์ธ์ด ๋ชจ๋ธ์์ chain-of-thought ์ถ๋ก ์ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
Gap : ํ์ค VLA์ ๋จ์ํ CoT ํ๋กฌํ์ ์ ์ฉํ๋ฉด ํ๋ จ ์์ ๊ฐ ๋จ์ํด์ ํจ๊ณผ์ ์ด์ง ์๊ณ , ์๋ฏธ๋ก ์ ์ถ๋ก ๋ง์ผ๋ก๋ ๊ฐ๊ฐ ๊ด์ฐฐ๊ณผ ๋ก๋ด ์ํ์ ๊ทผ๊ฑฐํด์ผ ํ๋ ๋ก๋ด ์ ์ฑ
์ ๋ถ์ถฉ๋ถํ๋ค.
Why : ๋ก๋ด์ด ์๋ก์ด ์ํฉ์์ ๋จ์ ๋ฐ์ ์ ์ด๊ฐ ์๋ ์ ์คํ ์ถ๋ก ์ ํตํด ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์ผ ์ ์์ผ๋ฉฐ, ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์์ฐ์ธ์ด๋ฅผ ํตํ ์ ์ ๋ ๊ฐ๋ฅํด์ง๋ค.
Approach : Embodied Chain-of-Thought (ECoT)๋ VLA๊ฐ ๊ฐ์ฒด ๊ฒฝ๊ณ์์, ์๋์ดํํฐ ์์น ๋ฑ ์๊ฐ์ ์ผ๋ก ๊ทผ๊ฑฐ๋ ํน์ง๊ณผ ๋ถ์์
๊ณํ์ ํตํฉํ์ฌ ๋ค๋จ๊ณ ์ถ๋ก ์ ์ํํ๋๋ก ํ๋ จํ๋ค. ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์
์์ ํฉ์ฑ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ์ ์ค๊ณํ๋ค.
Achievement
Figure 5: Qualitative ECoT predictions from our model for two successful trajectories (left, middle) and
์ฑ๋ฅ ํฅ์ : ์ถ๊ฐ ๋ก๋ด ํ๋ จ ๋ฐ์ดํฐ ์์ด OpenVLA์ ์ ๋ ์ฑ๊ณต๋ฅ ์ 28% ์ฆ๊ฐ์์ผฐ์ผ๋ฉฐ, ์๋ก์ด ๊ฐ์ฒด, ์ฅ๋ฉด, ์์ , ์ง์์ฌํญ์ ๋ํ ์ผ๋ฐํ ์์
์์ ์
์ฆ๋จ
ํด์ ๊ฐ๋ฅ์ฑ ๋ฐ ์ํธ์์ฉ์ฑ : ์ ์ฑ
์คํจ๊ฐ ๋ ํด์ ๊ฐ๋ฅํด์ง๊ณ ์ธ๊ฐ์ด ์์ฐ์ธ์ด ํผ๋๋ฐฑ์ ํตํด ์ถ๋ก ์ฒด์ธ์ ์์ ํ์ฌ ํ๋์ ๋ํํ์ผ๋ก ์ ์ ํ ์ ์์
์ ์ด ํ์ต : ๋ชจ๋ธ์ด ๋ณด์ด์ง ์์ ๊ตฌ์ฒดํ(embodiments)์ ์์
์ ECoT ์ถ๋ก ์ ์ ์ดํ๋ ๋ฅ๋ ฅ์ ํ์ตํจ
How
Figure 4: Our pipeline for generating synthetic embodied chain-of-thought data at scale for a given robot
Pre-trained open-vocabulary object detector๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด ๊ฒฝ๊ณ์์ ์ถ๋ก ์์ฑ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ์์
๊ณํ๊ณผ ๋ถ์์
์ถ๋ก ์๋ ์์ฑ
VLA๋ฅผ ์๋ํ๊ท ๋ชจ๋ธ๋ก ํ๋ จํ์ฌ ์ง์์ฌํญ๊ณผ ๊ด์ฐฐ๊ฐ์ผ๋ก๋ถํฐ CoT์ ์ก์
์ ์์ฐจ์ ์ผ๋ก ์์ฑ
์๋ฏธ๋ก ์ ์ถ๋ก (๋ถ์์
๊ณํ, ๋ค์ ์์
)๊ณผ ๊ตฌ์ฒดํ๋ ์ถ๋ก (๊ฐ์ฒด ๊ฒฝ๊ณ์์, ๊ทธ๋ฆฌํผ ์์น, ์์ง์ ์์ํ)์ interleave
ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ์
์ผ๋ก๋ถํฐ ๊ฐ๋
์ ํธ ์๋ ์์ฑ
Originality
๋ก๋ด ์ ์ด์ ๋ง๊ฒ CoT๋ฅผ ๊ตฌ์ฒดํ(embodied)ํ์ฌ ์์ ์๋ฏธ๋ก ์ ์ถ๋ก ๋ง์ด ์๋ ์๊ฐ์ , ๊ณต๊ฐ์ ์ถ๋ก ์ ํตํฉํ ์๋ก์ด ์ ๊ทผ
VLA ์ ์ฑ
์ด ๊ณ ์์ค ๊ณํ๊ณผ ์ ์์ค ์ ์ด ๋ชจ๋์์ ์ถ๋ก ํ๋๋ก ํ๋ จํ๋ ์ต์ด์ ์ฒด๊ณ์ ๋ฐฉ๋ฒ
์ฝํ ์คํ์์ค LLM ๋ฐฑ๋ณธ์์๋ ํจ๊ณผ์ ์ธ embodied ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ
Limitation & Further Study
ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ์ ํ์ง์ด object detector์ LLM์ ์ฑ๋ฅ์ ์์กดํ๋ฏ๋ก, ์ด๋ค ๋๊ตฌ์ ํ๊ณ๊ฐ ์ ํ๋ ์ ์์
์คํ์ด ์ฃผ๋ก ์กฐ์ ์์
์ ๊ตญํ๋์ด ์์ผ๋ฉฐ ๋ ๋ค์ํ ๋ก๋ด ์์
์ ํ์ ๋ํ ํ๊ฐ ํ์
์ถ๋ก ๋จ๊ณ ์ถ๊ฐ๋ก ์ธํ ๊ณ์ฐ ๋น์ฉ ๋ฐ ์คํ ์๊ฐ ์ฆ๊ฐ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์ฌ
ํ์ ์ฐ๊ตฌ๋ก ECoT๊ฐ ๋ค์ค ๋ชจ๋ฌ(multi-modal) ์ถ๋ก ๊ณผ ๋ ๋ณต์กํ ์ฅ๊ธฐ ๊ณํ ์๋๋ฆฌ์ค์์ ํ์ฅ๋์ด์ผ ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ์ด ๋
ผ๋ฌธ์ ๋ก๋ด ์ ์ด์ chain-of-thought ์ถ๋ก ์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ๋ฉด์ ์๊ฐ์ ๊ทผ๊ฑฐํ๋ฅผ ํตํด ์ค์ ๋ก๋ด ์ ์ฑ
์ ์ผ๋ฐํ๋ฅผ ํ์ ํ ๊ฐ์ ํ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ ํจ๊ป ํด์ ๊ฐ๋ฅ์ฑ ํฅ์์ ์ค์ ๋ก๋ด ์์ฉ์ ํฐ ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com