Human2Robot: Learning Robot Actions from Paired Human-Robot Videos
์ ์: Sicheng Xie, Haidong Cao, Zejia Weng, Zhen Xing, Haoran Chen, Shiwei Shen, Jiaqi Leng, Zuxuan Wu, Yu-Gang Jiang | ๋ ์ง: 2025-02-23 | URL: https://arxiv.org/abs/2502.16587 📄 PDF
Essence
Figure 1: HUMAN2ROBOT: An human-video-conditioned
VR ์๊ฒฉ์กฐ์ข
์ผ๋ก ์์งํ ์ ๋ฐํ๊ฒ ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ๋น๋์ค ์ ๋ฐ์ดํฐ์
H&R๊ณผ ์ด๋ฅผ ํ์ฉํ Human2Robot ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, Video Prediction Model์ ํตํด ์ธ๊ฐ ๋์์ผ๋ก๋ถํฐ ๋ก๋ด ๋์์ ํ๋ ์ ์์ค์์ ํ์ตํ๊ณ ๋ฏธํ์ต ํ์คํฌ์ ์ผ๋ฐํํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ธ๊ฐ-๋ก๋ด ํ์ต ๋ฐฉ๋ฒ๋ค์ ๋๋ต์ ์ผ๋ก ์ ๋ ฌ๋ ๋น๋์ค ์์ ์์กดํ์ฌ ํ์คํฌ ์์ค์ ์ ์ญ ํน์ง๋ง ํ์ตํ๊ณ , self-supervised ๋๋ contrastive learning์ ์ฌ์ฉํ์ฌ ์ ์ฒด ๋น๋์ค๋ฅผ ๊ณ ์ ๊ธธ์ด ์๋ฒ ๋ฉ์ผ๋ก ์์ถํ๋ค.
- Gap: ํ๋ ์ ์์ค์ ์ธ๋ฐํ ์ ๋ ฌ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ์ด๋ฅผ ํ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ๋ก ๊ฐ์ ์
์ํ์ผ๋ก ์ธํด, ๋ณต์กํ ์กฐ์๊ณผ ๋ฏธํ์ต ํ์คํฌ ์ผ๋ฐํ์ ํ์์ ์ธ ํ๋ ์ ๋ ๋ฒจ ์ญํ(frame-level dynamics)์ ํ์ตํ์ง ๋ชปํ๋ค.
- Why: ๋ก๋ด์ด ์ธ๊ฐ ์์ฐ์ ํตํด ํ์ตํ ํ ํ๋ จ ์ค ๋ณด์ง ๋ชปํ ์๋ก์ด ํ์คํฌ๋ฅผ ์ํํ ์ ์๊ฒ ํ๋ ค๋ฉด, ์ด๋ป๊ฒ ํ๋์ ์ํํ๋์ง์ ๋ํ ์ธ๋ฐํ ์๊ฐ์ ์ญํ์ ์ดํดํด์ผ ํ๋ค.
- Approach: VR ์๊ฒฉ์กฐ์ข
์์คํ
์ ํ์ฉํ์ฌ ์ธ๊ฐ ์๊ณผ ๋ก๋ด ํ์ ์ขํ๊ณ๋ฅผ ์ ๋ ฌํ๋ ๋ฐฉ์์ผ๋ก 2,600 ์ํผ์๋์ ์๋ฒฝํ๊ฒ ๋๊ธฐํ๋ H&R ๋ฐ์ดํฐ์
์ ์์งํ๊ณ , ์กฐ๊ฑด๋ถ video generation ๋ฌธ์ ๋ก fine-grained human-robot alignment๋ฅผ ๋ค๋ฃจ๋ Human2Robot ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Achievement
Figure 2: Dataset Overview. (L) The ratio of four basic task
- H&R ๋ฐ์ดํฐ์
: 4๊ฐ์ง ๊ธฐ๋ณธ ํ์คํฌ์ 6๊ฐ์ง ์ฅ์๊ฐ ํ์คํฌ์ ๊ฑธ์ณ ์ ๋ฐํ๊ฒ ๋๊ธฐํ๋ ์ธ๊ฐ ์๊ณผ ๋ก๋ด ํ์ ๋น๋์ค ์ 2,600 ์ํผ์๋ ์์ง
- Human2Robot ํ๋ ์์ํฌ: Stable Diffusion ๊ธฐ๋ฐ Video Prediction Model๊ณผ decoupled action decoder๋ฅผ ํ์ฉํ 2๋จ๊ณ ํ์ต ํ๋ก์ธ์ค๋ก ๋ฏธํ์ต ํฌ์ง์
, ๊ฐ์ฒด, ํ์คํฌ ์นดํ
๊ณ ๋ฆฌ์ ๋ํ ์ผ๋ฐํ ๋ฌ์ฑ
- ์ผ๋ฐํ ์ฑ๋ฅ: ๋ณด์ธ ํ์คํฌ์์ ๋์ ์ฑ๋ฅ๋ฟ ์๋๋ผ ์๋ก์ด ๊ฐ์ฒด ์์น, ์ธํ, ๋ฐฐ๊ฒฝ, ์ฌ์ง์ด ์์ ํ ์๋ก์ด ํ์คํฌ ์ ํ์ ๋ํ ์ผ๊ด(one-shot) ์ผ๋ฐํ ์์ฐ
- KNN ๊ธฐ๋ฐ ์ถ๋ก : ์ธ๊ฐ ๋น๋์ค ์
๋ ฅ ์์ด๋ ํ์ต๋ ํ์คํฌ๋ฅผ ์ํํ ์ ์๋ KNN+Human2Robot ๋ฐฉ๋ฒ์ผ๋ก ํ์ฅ์ฑ๊ณผ ์ ์ฐ์ฑ ํฅ์
How
Figure 3: Architecture overview of HUMAN2ROBOT. Our approach consists of two training stages. In the first stage, we tra
- VR ์๊ฒฉ์กฐ์ข
์์คํ
์ ์ขํ๊ณ ์ ๋ ฌ์ ํตํด ์ธ๊ฐ๊ณผ ๋ก๋ด์ 3D ์์ง์ ๋ฒ์๋ฅผ ์ผ์น์ํค๋ ์ ๋ฐํ ๋ฐ์ดํฐ ์์ง
- Spatial UNet์ ์ด์ฉํ ํน์ง ์ถ์ถ๊ณผ behavior extractor๋ก ๋์ ๋ฐ ์์น ์ธ์ฝ๋ฉ
- Spatial-temporal UNet ์ํคํ
์ฒ๋ก ๋์๊ณผ ์๊ฐ ์ญํ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ๋ฆฌ์นํ ์ ์ฌ ํํ(latent representation) ์์ฑ
- Video Prediction Model ํ์ต ํ ํด๋น ์์ธก ํํ์ ์กฐ๊ฑดํ๋ action decoder ํ์ต์ผ๋ก ํจ๊ณผ์ ์ธ human-robot alignment ์คํ
- KNN์ ํ์ฉํ์ฌ ํ
์คํธ ์๊ฐ์ ์ธ๊ฐ ๋น๋์ค ์์ด๋ ํ์ต๋ ํ์คํฌ ์ํ ๊ฐ๋ฅํ๋๋ก ๊ตฌ์ฑ
Originality
- VR ์๊ฒฉ์กฐ์ข
์ ๋ฐ์ดํฐ ์์ง์ด ์๋ ์๋ฒฝํ๊ฒ ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ ๋น๋์ค ์บก์ฒ์ ์ต์ด๋ก ํ์ฉ
- Conditional video generation์ human-robot alignment ๋ฌธ์ ์ ํต์ฌ ์๋ฃจ์
์ผ๋ก ์ ์ํ์ฌ ํ๋ ์ ๋ ๋ฒจ ๋์ญํ ํ์ต ๊ฐ๋ฅํ๊ฒ ํจ
- Diffusion model ๊ธฐ๋ฐ Video Prediction Model์ ๋ก๋ด ๋์ญํ ํ์ต์ ์ค๊ฐ ํํ ํ์ต ๋จ๊ณ๋ก ๋์
- ๋ฏธํ์ต ํ์คํฌ ์ผ๋ฐํ์ ์ธ๊ฐ ๋น๋์ค ์๋ ์ถ๋ก ์ ๋ชจ๋ ์ง์ํ๋ ํตํฉ ํ๋ ์์ํฌ ์ค๊ณ
Limitation & Further Study
- Embodiment gap(์ธ๊ฐ ์๊ณผ ๋ก๋ด ๊ทธ๋ฆฌํผ์ ์ ์ฒด์ ์ฐจ์ด)์ผ๋ก ์ธํด ๋์ ํ ์กฐ์ ๋ฑ ํน์ ํ์คํฌ๋ ์์ง ๋ถ๊ฐ๋ฅ - ํฅํ ์์
์ผ๋ก ๋ฏธ๋ฃจ์ด์ง
- ํ๊ฐ๊ฐ ์ ํด์ง 4๊ฐ์ง ๊ธฐ๋ณธ ํ์คํฌ์ 6๊ฐ์ง ์ฅ์๊ฐ ํ์คํฌ์ ์ ํ๋์ด ๋ ๋ค์ํ ํ์คํฌ์ ๋ํ ์ฑ๋ฅ์ ๋ถ๋ช
- Video Prediction Model์ ๊ณ์ฐ ๋น์ฉ๊ณผ ์ค์ ๋ก๋ด ์ ์ด ํ๊ฒฝ์์์ ์ง์ฐ์๊ฐ์ ๋ํ ๋
ผ์ ๋ถ์ฌ
- ํ ์ต์ ๋ฐฉ๋ฒ๋ค(์: ์ต๊ทผ์ end-to-end diffusion policy)๊ณผ์ ์ ๋์ ๋น๊ต ๊ฒฐ๊ณผ ์ ์ ํ์
- ๋ฐ์ดํฐ ํจ์จ์ฑ ๋ฐ ์ ์ ๋ฐ์ดํฐ ์์ญ์์์ ์ฑ๋ฅ์ ๋ํ ๋ถ์ ๋๋ฝ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VR ์๊ฒฉ์กฐ์ข
์ ํตํ ์ ๋ฐํ ๋ฐ์ดํฐ ์์ง๊ณผ conditional video generation ํจ๋ฌ๋ค์์ ๊ฒฐํฉ์ผ๋ก ์ธ๊ฐ-๋ก๋ด ํ์ต์ ๊ทผ๋ณธ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ ์ํฅ๋ ฅ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง embodiment gap ๋ฌธ์ ์ ๋ฏธํด๊ฒฐ๊ณผ ํ๊ฐ ๋ฒ์์ ์ ํ์ด ์ค์ ์ ์ฉ์ฑ์ ๋ค์ ์ ์ฝํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์