Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
๐ง Audio Overview ์์ฑ
์ ์ : Lucy Xiaoyang Shi, Brian Ichter, Michael Equi, Liyiming Ke, Karl Pertsch, Quan Vuong, James Tanner, Anna Walling, Haohuan Wang, Niccolo Fusai, Adrian Li-Bell, Danny Driess, Lachy Groom, Sergey Levine, Chelsea Finn | ๋ ์ง : 2025-02-26 | URL : https://arxiv.org/abs/2502.19417 📄 PDF
Essence
Figure 1: Open-ended instruction following. Hi Robot enables robots to follow multi-stage instructions, adapt to real-ti
Hi Robot๋ ๊ณ์ธต์ vision-language model ๊ตฌ์กฐ๋ฅผ ํตํด ๋ก๋ด์ด ๋ณต์กํ ์์ฐ์ด ์ง์์ฌํญ๊ณผ ์ค์๊ฐ ํผ๋๋ฐฑ์ ์ฒ๋ฆฌํ์ฌ ๊ฐ๋ฐฉํ ๊ณผ์ ๋ฅผ ์ํํ ์ ์๋๋ก ํ๋ ์์คํ
์ด๋ค. ๊ณ ์์ค VLM์ด ๋ณต์กํ ํ๋กฌํํธ๋ฅผ ํด์ํ์ฌ ์์์ ๋ช
๋ น์ด๋ฅผ ์์ฑํ๊ณ , VLA ์ ์ฑ
์ด ์ด๋ฅผ ์คํํ๋ ๋ ๋จ๊ณ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค.
Motivation
Known : VLA ๋ชจ๋ธ๋ค์ ๋จ์ํ ์์์ ์ง์์ฌํญ('์ปต์ ๋ค์ด')์ ๋ฐ๋ฅผ ์ ์์ผ๋ฉฐ, ์ผ๋ถ LLM/VLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๋ค๋จ๊ณ ๊ณผ์ ๋ฅผ ๋ถํดํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ณต์กํ ํ๋กฌํํธ์ ์ค์๊ฐ ํผ๋๋ฐฑ์ ๋์์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๋ค.
Gap : ํ์ฌ ์ง์ ๋ฐ๋ฅด๊ธฐ ๋ฐฉ๋ฒ๋ค์ ์ฃผ๋ก System 1 ์์ค์ ๋จ์ ๋ช
๋ น ์คํ์ ์ง์คํ๋ฉฐ, System 2 ์์ค์ ๊ณ ์์ค ์ถ๋ก ์ด ํ์ํ '์ผ์ฑ ์๋์์น๋ฅผ ๋ง๋ค๋ ํ ๋งํ ๋ ๋นผ๋ฌ๋ผ'์ ๊ฐ์ ๋ณต์กํ ํ๋กฌํํธ์ ์ค์๊ฐ ์์ ('๊ทธ๊ฑด ์ฐ๋ ๊ธฐ๊ฐ ์๋์ผ')์ ํตํฉํ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค.
Why : ๊ฐ๋ฐฉํ ์ธ๊ฐ-์ค์ฌ ํ๊ฒฝ์์ ๋ก๋ด์ ์ ์ฐ์ฑ๊ณผ ์ ์์ฑ์ ํ์์ ์ด๋ฉฐ, ๋ณต์กํ ์์ฐ์ด ์ํธ์์ฉ์ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ์ ์ฌ์ฉ์๊ฐ ๋ก๋ด์ ์๋ก์ด ๊ณผ์ ๋ก ์๋ดํ๊ณ ์ค์๊ฐ์ผ๋ก ์์ ํ ์ ์๊ฒ ํจ์ผ๋ก์จ ๋ก๋ด์ ์ค์ฉ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ๋ค.
Approach : ๋์ ์์ค์ VLM๊ณผ ๋ฎ์ ์์ค์ VLA ์ ์ฑ
์ผ๋ก ๊ตฌ์ฑ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ๊ณ , ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ์
์ ๋ํด VLM์ ์ฌ์ฉํ์ฌ ํฉ์ฑ์ ์ผ๋ก ์์ฑํ ๋ณต์กํ ํ๋กฌํํธ์ ์ธ๊ฐ์ ๊ฐ์
์์๋ฅผ ์ถ๊ฐํ์ฌ ๊ณ ์์ค ์ ์ฑ
์ ํ์ต์ํจ๋ค.
Achievement
Figure 5: Comparisons to Prior Methods. Hi Robot outperforms GPT-4o and flat VLA on Table Bussing, Sandwich Making, and
๋ค์ํ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ : ๋จํ, ์ํ, ์ํ ๋ชจ๋ฐ์ผ ๋ก๋ด 3๊ฐ์ง ํ๋ซํผ์์ ํ
์ด๋ธ ์ ๋ฆฌ, ์๋์์น ๋ง๋ค๊ธฐ, ์๋ฃํ ์ผํ ๋ฑ ๋ค์ํ ๊ณผ์ ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํ
๋ณต์กํ ํ๋กฌํํธ ์ฒ๋ฆฌ : ๊ธฐ์กด VLA ์ ์ฑ
๋ณด๋ค ํจ์ฌ ๋ณต์กํ ๋ค๋จ๊ณ ์ง์์ฌํญ, ์กฐ๊ฑด๋ถ ๋ช
๋ น, ์ฌ์ฉ์ ์ ์ฝ์ ์ดํดํ๊ณ ์คํ
์ค์๊ฐ ํผ๋๋ฐฑ ํตํฉ : ๊ณผ์ ์คํ ์ค ์ฌ์ฉ์์ ์์ ์ฌํญ('๋ ๋๊ฒ!
๊ทธ๊ฑด ์ฐ๋ ๊ธฐ๊ฐ ์๋์ผ')์ ๋์ ์ผ๋ก ๋ฐ์ํ์ฌ ํ๋ ์์ ", 'GPT-4o ๋ฐ ํ๋ฉด VLA ์ ์ฑ
์ด๊ณผ : ๋น๊ต ์คํ์์ API ๊ธฐ๋ฐ VLM๊ณผ ํ๋ฉด VLA ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ธ๊ฐ ์๋ ์ ๋ ฌ ๋ฐ ๊ณผ์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
How
Figure 2: Overview of hierarchical VLA. The policy consists
๊ณ ์์ค VLM์ ํตํด ํ์ฌ ์๊ฐ ๊ด์ฐฐ๊ณผ ์ฌ์ฉ์ ๋ฐํ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ์ ์ ํ ์์์ ๋ช
๋ น์ด(์: 'grasp the cup')์ ์ธ์ด ์๋ต ์์ฑ", '์ ์์ค VLA ์ ์ฑ
์ ์์ฑ๋ ์์์ ๋ช
๋ น์ด๋ฅผ ๋ฐ์ ์ค์ ๋ก๋ด ์ ์ด ์ ํธ(๊ด์ ๊ฐ๋, ๊ทธ๋ฆฌํผ ๋ช
๋ น ๋ฑ)๋ก ๋ณํํ์ฌ ์คํ
ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ์: ๊ธฐ์กด ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ(๊ด์ฐฐ-ํ๋ ์)์ ๋ํด VLM์๊ฒ ๊ทธ ํ๋์ ์ ๋ํ์ ๋ฒํ ๋ณต์กํ ํ๋กฌํํธ์ ์ธ๊ฐ์ ๊ฐ์
์ ์ญ์์ฑํ๋๋ก ์ง์
์์ฑ๋ ํฉ์ฑ ๋ฐ์ดํฐ(์ํฉ์ ๋ง๋ ๋ณต์กํ ํ๋กฌํํธ-๋ช
๋ น์ด ์)๋ฅผ ๊ณ ์์ค VLM ์ ์ฑ
์ ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉํ์ฌ ๋ค์ํ ํ๋กฌํํธ์ ํผ๋๋ฐฑ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๋ณด
๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ํตํด ๊ณ ์์ค ์ถ๋ก ๊ณผ ์ ์์ค ์ ์ด๋ฅผ ๋ถ๋ฆฌํ๋, ๋ ๋ค VLM/VLA ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํ์ฌ ์๊ฐ ๊ด์ฐฐ์ ๋ํ ํ๋ถํ ์ํฉ ์ธ์ ์ ์ง
Originality
๊ณ์ธต์ VLM-VLA ๊ฒฐํฉ : ๊ณ ์์ค ๋ณต์ก ์ถ๋ก ๊ณผ ์ ์์ค ์ ํํ ์ ์ด๋ฅผ ํตํฉํ ์๋ก์ด ์ํคํ
์ฒ๋ก, ๊ธฐ์กด end-to-end VLA๋ ์์ฐจ์ LLM-๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ์ฐจ๋ณํ
ํฉ์ฑ ํ๋กฌํํธ ์์ฑ : ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ์ VLM์ ์ฌ์ฉํด ์ํฉ์ ๋ง๋ ๋ณต์กํ ํ๋กฌํํธ์ ์ธ๊ฐ์ ๊ฐ์
์ ์ญ์์ฑํ๋ ์ฐฝ์์ ์ธ ๋ฐ์ดํฐ ํ์ฅ ๊ธฐ๋ฒ
์ค์๊ฐ ํผ๋๋ฐฑ ํตํฉ : ๊ณผ์ ์ํ ์ค ์ฌ์ฉ์์ ์ธ์ด์ ์์ ์ ๋์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฉ์ปค๋์ฆ์ผ๋ก, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ ํ์ ๊ทน๋ณต
๋ค์ํ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ : ๋จ์ผ ํ, ์ํ, ๋ชจ๋ฐ์ผ ๋ก๋ด์ ๊ฑธ์ณ ์ผ๊ด๋๊ฒ ๋์ํ๋ ๋ฒ์ฉ ์์คํ
์ ์
Limitation & Further Study
ํฉ์ฑ ๋ฐ์ดํฐ์ ํ์ง ์์กด์ฑ : ์์ฑ๋ ํ๋กฌํํธ์ ๊ฐ์
์ ํ์ค์ฑ๊ณผ ๋ค์์ฑ์ด VLM์ ๋ฅ๋ ฅ์ ํฌ๊ฒ ์์กดํ๋ฉฐ, ์ค๋ฅ๊ฐ ํ์ต์ ์
์ํฅ์ ๋ฏธ์น ์ ์์
์ ์์ค VLA ์ ์ฑ
์ ํ๊ณ : ์์์ ๋ช
๋ น์ด๊ฐ ์ถฉ๋ถํ ์ ์ด ๊ฐ๋ฅํ๊ณ ์ ํํด์ผ ํ๋ฏ๋ก, VLA ์ ์ฑ
์ ์ฑ๋ฅ์ด ์ ์ฒด ์์คํ
์ฑ๋ฅ์ ์ ํํ ์ ์์
ํ๊ฐ ๋ฒ์์ ์ ์ฝ : ์ฃผ๋ก ์ ๋ฆฌ, ์์ ์ค๋น, ์ผํ ๋ฑ ํน์ ๋๋ฉ์ธ ๊ณผ์ ์๋ง ํ
์คํธ๋์์ผ๋ฉฐ, ๋ ๊ด๋ฒ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฏธ๊ฒ์ฆ
๊ณ์ฐ ๋น์ฉ : ๊ณ ์์ค VLM์ ๋งค ๋จ๊ณ๋ง๋ค ์คํํด์ผ ํ๋ฏ๋ก ์ค์๊ฐ์ฑ๊ณผ ์๋์ง ํจ์จ์ฑ ์ธก๋ฉด์์ ๊ฐ์ ํ์
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ : (1) ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ๊ณผ์ ์ ์๋ํ ๋ฐ ํ์ง ๋ณด์ฆ, (2) ์ ์์ค VLA์ ์ ํ๋ ํฅ์, (3) ์ค์๊ฐ ์ฑ๋ฅ ์ต์ ํ, (4) ๋ ๋ณต์กํ ๋ฉํฐํด ์ธ๊ฐ-๋ก๋ด ๋ํ ์ฒ๋ฆฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : Hi Robot์ ๊ณ์ธต์ VLM-VLA ๊ตฌ์กฐ์ ํฉ์ฑ ํ๋กฌํํธ ์์ฑ์ ํตํด ๋ก๋ด์ ๋ณต์กํ ์ง์ ๋ฐ๋ฅด๊ธฐ์ ์ค์๊ฐ ํผ๋๋ฐฑ ํตํฉ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํจ ์ค์ํ ๊ธฐ์ฌ์ด๋ค. ๋ค์ํ ํ๋ซํผ์์์ ์คํ ๊ฒ์ฆ๊ณผ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ํฉ์ฑ ๋ฐ์ดํฐ์ ํ์ง, ์ ์์ค ์ ์ฑ
์ ํ๊ณ, ๊ณ์ฐ ๋น์ฉ ๋ฑ์ ๋ํ ๊ฐ์ ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com