MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data
์ ์: Zifan Wang, Ziqing Chen, Junyu Chen, Jilong Wang, Yuxin Yang, Yunze Liu, Xueyi Liu, He Wang, Li Yi | ๋ ์ง: 2025-01-08 | URL: https://arxiv.org/abs/2501.04595 📄 PDF
Essence
Figure 1. The overview of MobileH2R. We propose a framework for generalizable human-to-mobile-robot handover, including
MobileH2R๋ ๋๊ท๋ชจ ๋ค์ํ ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ์ฌ ๋ชจ๋ฐ์ผ ๋ก๋ด์ด ์ธ๊ฐ์ผ๋ก๋ถํฐ ๋ฌผ์ฒด๋ฅผ ๋ฐ์ ์ ์๋๋ก ํ์ตํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ธ๊ฐ์ ์ ์ ๋์ ์์ฑ, ์์ ํ ์์ฐ ์๋ ์์ฑ, 4D imitation learning์ ํตํฉํ์ฌ ๋ฒ ์ด์ค-์ ํ์กฐ ์ ์ด๊ฐ ๊ฐ๋ฅํ ์ผ๋ฐํ๋ ์ ์ฑ
์ ํ์ตํ๋ค.
Motivation
- Known: Human-to-robot (H2R) handover๋ ์-๋ฌผ์ฒด ์ํธ์์ฉ ๋ฐ์ดํฐ์ ํ์ต ๊ธฐ๋ฐ ์ ์ฑ
์ ํตํด ๊ณ ์ ๊ธฐ๋ฐ ๋ก๋ด์์ ์ฐ๊ตฌ๋์๋ค. ๊ธฐ์กด HandoverSim, GenH2R ๋ฑ์ mocap ๋ฐ์ดํฐ๋ ํฉ์ฑ ์์ฐ์ ํ์ฉํ๋ ๋ชจ๋ฐ์ผ ๋ก๋ด์ ๋๊ท๋ชจ ์์
๊ณต๊ฐ์ ๊ณ ๋ คํ์ง ์๋๋ค.
- Gap: ๋ชจ๋ฐ์ผ ๋ก๋ด์ H2MR handover๋ ์์ ์ฑ ๋๋ฌธ์ ์ค์ ์ธ๊ฐ ์์ฐ ์์ง์ด ๋ถ๊ฐ๋ฅํ๊ณ , ๊ธฐ์กด ํฉ์ฑ ๋ฐ์ดํฐ ๋ฐฉ์์ ์ ํ๋ ๊ท๋ชจ(1000 ์ํ์ค)์ ๋ถ๋ถ์ ์ธ๊ฐ ๋ชจ์
๋ชจ๋ธ๋ง(์ ์ ์ค์ฒ๋ง)์ ๋จธ๋ฌผ๋ฌ ์๋ค. ์ ์ ๋์์ ๋๊ท๋ชจ ๋ค์ํ ํฉ์ฑ๊ณผ ๋ฒ ์ด์ค-์ ํ์กฐ ์ ์ด๋ฅผ ํจ๊ป ๋ค๋ฃจ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ชจ๋ฐ์ผ ๋ก๋ด์ ์ธ๊ฐ-๋ก๋ด ํ์
(healthcare, industrial assembly)์์ handover ๋ฅ๋ ฅ์ ํ์์ ์ด๋ฉฐ, ์ค์ ํ์ต์ ์์ /๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉด์๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๊ณ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ์ ํ์ฅ์ฑ์ด ์ค์ํ๋ค.
- Approach: ์ธ ๊ฐ์ง ์ฃผ์ ์ฑ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค: (1) ์ผ๋ฐ ๋์ ์์ฑ๊ณผ ๊ณผ์ ํนํ ํฉ์ฑ์ ๊ฒฐํฉํ ์ ์ ์ธ๊ฐ ๋์ ์์ฑ ํ์ดํ๋ผ์ธ, (2) ์ถฉ๋ ํํผ ๋ฐ ์๊ฐ์ ๋ช
ํ์ฑ์ ๋ณด์ฅํ๋ ๋์ ๊ณํ ๊ธฐ๋ฐ ์์ฐ ์๋ ์์ฑ, (3) ์ธ๊ฐ๊ณผ ๋ฌผ์ฒด ์ ๊ตฌ๋ฆ์ ๋ชจ๋ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ 4D imitation learning์ ํตํ ํ๋ฃจํ ์ ์ฑ
ํ์ต.
Achievement
Figure 4. Qualitative results. We compare different methods in detail in the simulated scene and the real-world scene.
- ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ: 100K ์ด์์ ์ธํฐ๋ํฐ๋ธ handover ์ฌ์ ํฌํจํ๋ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ ๊ตฌํ
- ์์ ์ฑ ๊ฐ์ : ์๋ ์์ฑ๋ ์์ฐ์ด ์ถฉ๋์ ์ฝ 1/3 ๊ฐ์์ํค๊ณ ์ฑ๊ณต๋ฅ ์ 11.6% ์ฆ๊ฐ
- ์ฑ๋ฅ ํฅ์: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ๊ธฐ์ค ๋ฐฉ๋ฒ ๋๋น ์ต์ +15% ์ฑ๊ณต๋ฅ ๊ฐ์
- Sim-to-Real ์ ์ด ๋ฌ์ฑ: ์ค์ ๋ชจ๋ฐ์ผ ๋ก๋ด ์์คํ
์ผ๋ก์ ํจ๊ณผ์ ์ธ ๊ธฐ์ ์ ์ด ์
์ฆ
- ์ค์ผ์ผ ํจ๊ณผ ๊ฒ์ฆ: ์์ฐ ๊ท๋ชจ ํ๋์ ์ฅ๋ฉด ๋ค์์ฑ ์ฆ๊ฐ๊ฐ ์ ์ฑ
์ผ๋ฐํ๋ฅผ ํ์ ํ ํฅ์
How
Figure 2. The overview of our framework. First, we propose an automatic pipeline to scale up synthetic and diverse full-
- ์ ์ ์ธ๊ฐ ๋์ ์์ฑ: AMASS ๋ฑ ๊ธฐ์กด ๋ฐ์ดํฐ์
์ ์ผ๋ฐ์ ๋์๊ณผ ๊ณผ์ ํนํ ํฉ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐํฉํ์ฌ handover ๋งฅ๋ฝ์์ ๋ค์ํ ํ/์ ๋์ ์์ฑ
- ์ธํฐ๋ํฐ๋ธ ์์ด์ ํธ: ๋ก๋ด ๊ทผ์ ์ฑ์ ์์ํ๋ ๋ํํ ์ธ๊ฐ ์์ด์ ํธ ์ค๊ณ๋ก ํ์ค์ ์ํธ์์ฉ ๋ชจ๋ธ๋ง
- ์์ ํ ์์ฐ ์์ฑ: ๋์ ๊ณํ ์ต์ ํ๋ฅผ ํตํด ์ธ๊ฐ ์ ์ฒด ์ถฉ๋ ํํผ, ์ฌ๊ฐ์ง๋ ์ง์
๋ฐฉ์ง, ๋ช
ํํ ๋ฌผ์ฒด ์ํ ์ถ์ ๋ณด์ฅ
- 4D Imitation Learning: ์ธ๊ฐ ์ ์ฒด/์/๋ฌผ์ฒด ์ ๊ตฌ๋ฆ์ ์
๋ ฅ์ผ๋ก ํ๊ณ , ๋ค์ํ ์ํ๋ง ๋ฐ๊ฒฝ์ set abstraction ๋ ์ด์ด๋ก ์ค์ผ์ผ ์ฐจ์ด ์ฒ๋ฆฌํ์ฌ ๋ฒ ์ด์ค-์ ํ์กฐ ๋์ ์ถ๋ ฅ
- ๋ฉํฐ ์นด๋ฉ๋ผ ๋น์ : ํค๋ ์นด๋ฉ๋ผ(์๊ฑฐ๋ฆฌ)์ ์๋ชฉ ์นด๋ฉ๋ผ(๊ทผ๊ฑฐ๋ฆฌ)๋ฅผ ์ํฉ์ ๋ฐ๋ผ ํ์ฉํ์ฌ ํ๋ฃจํ ์ ์ด ์คํ
Originality
- ๋ชจ๋ฐ์ผ ๋ก๋ด handover์ ์ ์ ๋ชจ๋ธ๋ง: ๊ธฐ์กด์ ์ ์ ์ค์ฒ๋ ๋ถ๋ถ ๋์ ์ค์ฌ ์ ๊ทผ์ ๋ฒ์ด๋ ์ ์ ์ธ๊ฐ ๋์์ ํตํฉํ ์ฒซ ๋ฒ์งธ ๋๊ท๋ชจ ํ๋ ์์ํฌ
- ์๋ํ๋ ์์ ์์ฐ ์์ฑ: ์ถฉ๋ ํํผ์ ์๊ฐ์ ๋ช
ํ์ฑ์ ๋ชจ๋ ๊ณ ๋ คํ ๋์ ๊ณํ ๊ธฐ๋ฐ ์์ฐ ์์ฑ ๋ฐฉ๋ฒ์ ์ฐฝ์์ ์ค๊ณ
- ๋ฒ ์ด์ค-์ ํ์กฐ ์ ์ด ํ์ต: ๋ชจ๋ฐ์ผ ๋ก๋ด์ ๊ธฐ์ ๋ถ์ ํ์ ํตํฉ ์ ์ด๋ฅผ 4D imitation learning์ผ๋ก ํ์ตํ๋ ์ฐจ๋ณํ๋ ์ ๊ทผ
- ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก์ ํ์ต: ์ค์ mocap ๋ฐ์ดํฐ๋ ์ธ๊ฐ ์์ฐ ์์ด ๊ณ ํ์ง ํฉ์ฑ ์์ฐ๋ง์ผ๋ก ์ผ๋ฐํ ๊ฐ๋ฅํ ์ ์ฑ
์ ์ป๋ ์ฑ๊ณผ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๊ฐ์ํ: ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ์ ํ๋ ํ๊ณ๋ก ์ธํ sim-to-real gap ๊ฐ๋ฅ์ฑ
- ์ ํ๋ ๋ก๋ด ํ๋ซํผ: ํน์ ๋ชจ๋ฐ์ผ ๋ก๋ด(base-arm ๊ตฌ์ฑ)์์๋ง ํ๊ฐ๋์ด ๋ค์ํ ๋ก๋ด ํํ๋ก์ ํ์ฅ์ฑ ๋ฏธ์ง์
- ์ธ๊ฐ ๋์ ๋ค์์ฑ: ํฉ์ฑ ํ์ดํ๋ผ์ธ์ด ํน์ ํค๋ค๋งํฑ ์ ์ฝ์ด๋ ์ ์ฒด ํ์
์ ํธํฅ์ ๊ฐ์ง ๊ฐ๋ฅ์ฑ
- ํ์ ์ฐ๊ตฌ: (1) ์ค์ ์ธ๊ฐ ์ํธ์์ฉ ๋ฐ์ดํฐ์์ ๋น๊ต๋ฅผ ํตํ ํฉ์ฑ ๋ฐ์ดํฐ ํ์ง ์ ๋ํ, (2) ๋์ ์ฅ์ ๋ฌผ์ด๋ ๋ณต์กํ ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ฐ, (3) ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ํ์ฅ์ฑ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MobileH2R๋ ๋ชจ๋ฐ์ผ ๋ก๋ด์ ์ธ๊ฐ-๋ก๋ด handover ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ํฌ๊ด์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ์ ์์ฑ, ์์ ํ ์์ฐ ์๋ ์์ฑ, ํตํฉ ํ์ต์ด๋ผ๋ ์ธ ์์๋ฅผ ์ ๊ตํ๊ฒ ์ค๊ณํ์ฌ +15% ์ด์์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ํจ๊ณผ๋ฅผ ์ค์ฆํ ์ ์์ ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์