Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
์ ์: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu | ๋ ์ง: 2025-07-21 | URL: https://arxiv.org/abs/2507.15597 📄 PDF
Essence
Figure 1: Being-H0 acquires dexterous manipulation skills by learning from large-scale human videos in the
Being-H0๋ ๋๊ท๋ชจ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ํ์ตํ ๋ฏผ์ฒฉํ Vision-Language-Action ๋ชจ๋ธ๋ก, physical instruction tuning ํจ๋ฌ๋ค์์ ํตํด ์ธ๊ฐ์ ์ ๋์์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ๋ก๋ด ์กฐ์ ์์
์ผ๋ก ์ ์ดํ๋ค.
Motivation
- Known: Vision-Language-Action ๋ชจ๋ธ๋ค์ ๋ก๋ด ์กฐ์์ ์ํด ์ ์๋์์ผ๋, ํ
๋ ์กฐ์ข
๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ sim-to-real ๊ฐญ์ผ๋ก ์ธํด ๋ณต์กํ ๋ฏผ์ฒฉํ ์์
์์ ์ฑ๋ฅ์ด ์ ํ์ ์ด๋ค.
- Gap: ๊ธฐ์กด VLA๋ค์ ์ธ๊ฐ ๋น๋์ค์ ํ๋ถํ ๋ค์์ฑ์ ํ์ฉํ์ง ๋ชปํ๊ณ ์์ผ๋ฉฐ, 2D ์๊ฐ/ํ
์คํธ ์
๋ ฅ๊ณผ 3D ์ก์
๊ณต๊ฐ ๊ฐ์ ์ด์ง์ ๊ฐ๊ฒฉ์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃจ์ง ์๋๋ค.
- Why: ์ธ๊ฐ์ ์์ ์ต๊ณ ์ ๋ฏผ์ฒฉํ ์กฐ์ ํ์ค์ ์ ๊ณตํ๋ฉฐ, web-scale ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ฉด LLM/LMM์ ์ฑ๊ณต์ ๋ฐ๋ณตํ ์ ์๊ณ , ์ด๋ ๋ก๋ด ์กฐ์์ ํ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: Physical instruction tuning ํจ๋ฌ๋ค์์ ์ ์ํ์ฌ human video pretraining, physical space alignment, post-training adaptation์ ๊ฒฐํฉํ๊ณ , part-level motion tokenization์ผ๋ก ๋ฐ๋ฆฌ๋ฏธํฐ ์์ค์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค.
Achievement
Figure 2: Overview of Being-H0. The text tokenizer and visual encoder are shared by both pretraining
- Physical Instruction Tuning ํจ๋ฌ๋ค์: ์ธ๊ฐ ๋น๋์ค์ ๋ก๋ด ์กฐ์ ๊ฐ์ ์ด์ง์ฑ์ ํด๊ฒฐํ๋ ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์์ ์ ์
- Part-Level Motion Tokenization: ์ฐ์ ์ ๋์์ ๋ฐ๋ฆฌ๋ฏธํฐ ์์ค ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ autoregressive ์ํคํ
์ฒ์ ํธํ์ฑ์ ํ๋ณด
- UniHand ๋ฐ์ดํฐ์
: 1์ต 5์ฒ๋ง ๊ฐ ์ด์์ ์ํ์ ํฌํจํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ผ๋ก motion capture, VR, RGB-only ๋น๋์ค๋ฅผ ํตํฉ
- ๋ฏผ์ฒฉํ VLA ๋ชจ๋ธ: ๋ช
์์ ๋์ ๋ชจ๋ธ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ต์ด์ ๋๊ท๋ชจ human video ๊ธฐ๋ฐ ๋ฏผ์ฒฉํ VLA
How
Figure 3: Physical Instruction Tuning. Our training paradigm bridges human video datasets and robotic
- Grouped residual quantization (GRQ)๋ฅผ ํ์ฉํ ๋ถ๋ถ ์์ค ๋์ ํ ํฐํ๋ก ์๊ฐ๋ฝ ์์ง์์ ์ ๋ฐ๋ ๋ณด์กด
- Vision, language, motion ๊ฐ ๊ณต์ attention ๋ฉ์ปค๋์ฆ์ ๊ฐ์ถ unified autoregressive ์ํคํ
์ฒ ๊ตฌ์ฑ
- 3D ๊ณต๊ฐ ์ถ๋ก ์ ์ํ physical space alignment๋ฅผ ํตํด ์ด์ง์ ์นด๋ฉ๋ผ ์์คํ
๊ณผ ์ขํ๊ณ ํต์ผ
- Pretraining๊ณผ post-training ๋จ๊ณ ๊ตฌ๋ถ์ ํตํ ์์ฐจ์ ํ์ต: ์ธ๊ฐ ์ ๋์ ํ์ต ํ ๋ก๋ด ์ ์ด ์ ์
- Motion capture, VR, RGB-only ๋น๋์ค ๋ฑ ๋ค์ํ ์์ค๋ฅผ ํตํฉํ๋ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ํ๋ ์ด์
ํ์ดํ๋ผ์ธ
Originality
- LLM์ visual instruction tuning์ ๋ฌผ๋ฆฌ์ ์์ญ์ผ๋ก ํ์ฅํ physical instruction tuning ๊ฐ๋
๋์
- ์ธ๊ฐ ์์ ๋ช
์์ '๊ธฐ์ด ์กฐ์๊ธฐ(foundation manipulator)'๋ก ํ์ฉํ๋ ์ ๊ทผ๋ฒ - ๊ธฐ์กด implicit learning ๋ฐฉ์๊ณผ ์ฐจ๋ณํ", '๋๊ท๋ชจ human video ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ฏผ์ฒฉํ VLA๋ฅผ ํ์ตํ๋ ์ต์ด์ ์๋
- ์ด์ง์ ๋ฐ์ดํฐ ์์ค(motion capture, VR, RGB)๋ฅผ 3D space alignment๋ก ํตํฉํ๋ ํ์ดํ๋ผ์ธ
Limitation & Further Study
- ๋
ผ๋ฌธ์์ ์ค์ ๋ก๋ด ์กฐ์ ์คํ ๊ฒฐ๊ณผ์ ์ ๋์ ํ๊ฐ ์งํ๊ฐ ์์ธํ ์ ์๋์ง ์์ - ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ ์ฑ๋ฅ ๊ฒฉ์ฐจ ๊ฒ์ฆ ํ์
- ๋ก๋ด ํํ(morphology)๊ฐ ์ธ๊ฐ๊ณผ ํฌ๊ฒ ๋ค๋ฅธ ๊ฒฝ์ฐ ์ ์ด ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ ๋ฏธ๋ถ์
- Millimeter-level ์ ํ๋ ๋ฌ์ฑ์ ๊ณ์ฐ ๋น์ฉ๊ณผ inference latency์ ๋ํ ๋
ผ์ ๋ถ์กฑ
- ํ์์ฐ๊ตฌ: ๋ค์ํ ๋ก๋ด ํ๋ซํผ(6-finger hand, 4-finger gripper ๋ฑ)์์์ ์ฑ๋ฅ ํ๊ฐ ํ์
- ํ์์ฐ๊ตฌ: ๊ฐ์ฒด์ ๋ฌผ๋ฆฌ์ ํน์ฑ(fragility, texture)์ ๊ณ ๋ คํ ํ์ต ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Being-H0๋ ๋๊ท๋ชจ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ๋ฏผ์ฒฉํ ๋ก๋ด ์กฐ์์ ํ์ตํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ฉฐ, physical instruction tuning๊ณผ part-level motion tokenization์ ํตํด ๊ธฐ์กด VLA์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํ์ ์ ์ผ๋ก ํด๊ฒฐํ๋ค. ๋ช
์์ ๋์ ๋ชจ๋ธ๋ง ์ ๊ทผ๋ฒ๊ณผ UniHand ๋ฐ์ดํฐ์
์ ๋ก๋ด ๊ณตํ ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์