H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation
๐ง Audio Overview ์์ฑ
์ ์ : Hongzhe Bi, Lingxuan Wu, Tianwei Lin, Hengkai Tan, Zhizhong Su, Hang Su, Jun Zhu | ๋ ์ง : 2025-07-31 | URL : https://arxiv.org/abs/2507.23523 📄 PDF
Essence
Figure 1: Overview of H-RDT. A human-to-robotics diffusion transformer with two-stage training.
H-RDT๋ ๋๊ท๋ชจ egocentric ์ธ๊ฐ ์กฐ์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ๊ณ ๋ชจ๋์ action encoder/decoder๋ฅผ ํตํด ๋ค์ํ ๋ก๋ด์ fine-tuningํ๋ ๋ ๋จ๊ณ diffusion transformer ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ผ๋ก, ๋ก๋ด ์กฐ์ ํ์ต์ ํฅ์์ํจ๋ค.
Motivation
Known : ์ต๊ทผ robotic foundation model๋ค์ cross-embodiment robot dataset์ผ๋ก ์ฌ์ ํ์ตํ์ฌ ๋ฐ์ดํฐ ๊ท๋ชจ๋ฅผ ์ฆ๊ฐ์ํค๊ณ ์์ผ๋, ์๋ก ๋ค๋ฅธ ๋ก๋ด embodiment์ diverse morphology์ action space๋ก ์ธํด unified training์ด ์ด๋ ต๋ค. ๋ก๋ด demonstration ๋ฐ์ดํฐ๋ teleopertion ์์กด์ผ๋ก ์ธํด ์์ง ๋น์ฉ์ด ๋๊ณ ํ์ฅ์ฑ์ด ์ ํ๋๋ค.
Gap : ๊ธฐ์กด cross-embodiment ์ฌ์ ํ์ต์ heterogeneous robot dataset์๋ง ์์กดํ์ฌ ๋ฐ์ดํฐ ๊ท๋ชจ์ ํ์ง์ด ์ ํ๋๋ฉฐ, ๋๊ท๋ชจ์ readily accessibleํ ์ธ๊ฐ ์กฐ์ ๋ฐ์ดํฐ(์: 829์๊ฐ์ EgoDex)์ ์ ์ฌ๋ ฅ์ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๊ณ ์๋ค. ์ด์ human-to-robot ์ฐ๊ตฌ๋ค๋ modest scale(2k~27k demos)์์๋ง ์๋ํ๋ค.
Why : ๋๊ท๋ชจ egocentric human manipulation ๋ฐ์ดํฐ๋ object affordances, ์์ฐ์ค๋ฌ์ด manipulation strategies, task decomposition patterns ๊ฐ์ ํ๋ถํ behavioral priors๋ฅผ ์ ๊ณตํ์ฌ, ๋ก๋ด policy learning์ data scarcity ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ cross-embodiment generalization์ ๊ฐ์ ํ ์ ์๋ค.
Approach : H-RDT๋ flow matching ๊ธฐ๋ฐ 2B parameter diffusion transformer๋ก 338k ์ธ๊ฐ ์กฐ์ ์ํผ์๋์์ ๋จผ์ ์ฌ์ ํ์ตํ๊ณ , ๋ชจ๋์ action encoder/decoder๋ฅผ ํตํด ๋ค์ํ ๋ก๋ด์ cross-embodiment fine-tuningํ๋ค. ์ด๋ฅผ ํตํด ํต์ผ๋ human embodiment์์ ํ์ตํ manipulation knowledge๋ฅผ diverse robot platform์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ์ด์ํจ๋ค.
Achievement
Figure 3: Cross-embodiment multi-task performance on
๋ฐ์ดํฐ ํจ์จ์ฑ : simulation์์ training from scratch ๋๋น 13.9%, real-world์์ 40.5% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ฌ ์ธ๊ฐ manipulation ์ฌ์ ํ์ต์ ํจ๊ณผ๋ฅผ ์
์ฆ
์ต์ ๊ธฐ์ ์ด๊ณผ : ฯ0์ RDT ํฌํจ ๊ธฐ์กด state-of-the-art ๋ฐฉ๋ฒ๋ค์ bimanual robotic manipulation์์ ๋ฅ๊ฐ
๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ : 338k ์ํผ์๋(829์๊ฐ)์ EgoDex ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ด์ ๋ฐฉ๋ฒ(2k~27k demos)์ ์์ญ ๋ฐฐ ๊ท๋ชจ๋ก ํ์ฅ
ํฌ๊ด์ ํ๊ฐ : simulation, real-world, single-task, multitask, few-shot learning, robustness๋ฅผ ํฌํจํ ๊ด๋ฒ์ํ ์คํ์ผ๋ก ๊ฐ๋ ฅํ ๊ฒ์ฆ
๋ชจ๋์ ์ ์ด ๊ตฌ์กฐ : ๋ชจ๋์ action encoder/decoder ์ค๊ณ๋ก humanoid-specific ๊ฐ์ ์์ด ์์์ ๋ก๋ด morphology๋ก ์ผ๋ฐํ
How
Figure 2: H-RDT framework. Our approach consists of two main stages: (1) pre-training on large-scale human manipulation
๋ ๋จ๊ณ ํ์ต : (1) ๋๊ท๋ชจ egocentric human manipulation video(EgoDex)์์ diffusion transformer ์ฌ์ ํ์ต, (2) ๋ชจ๋์ action encoder/decoder๋ฅผ ํตํ robot-specific cross-embodiment fine-tuning
Flow matching : ๊ธฐ์กด diffusion ๋๋น ํฅ์๋ ์์ ์ฑ๊ณผ ํจ์จ์ฑ์ ์ ๊ณตํ๋ training paradigm ์ ์ฉ
๋ฉํฐ๋ชจ๋ฌ ์
๋ ฅ : ๋ค์ํ RGB camera๋ก๋ถํฐ์ visual observation, proprioceptive robot state, language instruction์ ํตํฉ
Modular action adapters : human action space๋ฅผ ๊ฐ ๋ก๋ด์ ํน์ action space(์: joint positions, end-effector poses)๋ก ๋ณํํ๋ embodiment-specific encoder/decoder
Diffusion transformer ์ํคํ
์ฒ : 2B parameter transformer๋ก ๋ณต์กํ action distribution์ ๋ชจ๋ธ๋งํ์ฌ multimodal action generation ์ํ
Originality
๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ : ์ด์ ์ modest scale(2k~27k) ์ธ๊ฐ ๋ฐ์ดํฐ ์ฌ์ฉ๊ณผ ๋ฌ๋ฆฌ 338k ์ํผ์๋๋ก ํ์ฅํ์ฌ ์ฒด๊ณ์ ์ผ๋ก human behavioral prior์ ์ ์ฌ๋ ฅ ํ์ฉ
๋ชจ๋์ human-to-robot ์ ์ด : humanoid-specific ๊ฐ์ (EgoMimic์ co-training, HAT์ differentiable retargeting)์ ๋ฒ์ด๋ ์์์ ๋ก๋ด morphology๋ก generalize ๊ฐ๋ฅํ modular adapter ์ค๊ณ
๋ฐ์ดํฐ ๋ถ์ผ์น ํด๊ฒฐ : unified human embodiment์ behavioral prior๋ก heterogeneous robot dataset์ conflict ๋ฌธ์ ๋ฅผ ์ํํ๋ฉด์ ๋๊ท๋ชจ ์ฌ์ ํ์ต ์ด์ ํ๋ณด
Flow matching ๋์
: RDT ๊ธฐ๋ฐ ์ํคํ
์ฒ์ flow matching์ ์ ์ฉํ์ฌ training stability์ efficiency ๊ฐ์
Limitation & Further Study
embodiment ๊ฐ๊ทน : ์ธ๊ฐ๊ณผ ๋ก๋ด์ ์๊ฐ๋ฝ ๊ฐ์, end effector ํ์
, forward kinematics ์ฐจ์ด๋ ์ฌ์ ํ modular adapter์ ์ค๊ณ ๋ณต์ก๋๋ฅผ ์ฆ๊ฐ์ํค๋ฉฐ, ์ด๋ฌํ ๊ฐ๊ทน์ ์์ ํ ๊ทน๋ณตํ๋์ง ๋ถ๋ช
ํ
์ธ๊ฐ ๋ฐ์ดํฐ ํน์ฑ์ ์ํฅ : EgoDex ๋ฐ์ดํฐ์
์ ํน์ collection protocol, annotator skill, ํธํฅ์ด ํ์ต๋ policy์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์ ๋ถ์กฑ
ํ๊ฐ์ ์ ํ์ฑ : real-world ์คํ์ด ํน์ ๋ก๋ด embodiment(bimanual manipulation robot)์ ์ฃผ๋ก ์ง์ค๋์ด ์์ด diverse robot morphology์ ๋ํ generalization ๊ฒ์ฆ์ด ๋ฏธํก
few-shot ํ์ต ์์ธ ๋ถ์ ๋ถ์กฑ : few-shot ์ค์ ์์์ ๊ฐ์ ๋ฉ์ปค๋์ฆ(human prior์ initialization ํจ๊ณผ vs. in-context learning)์ ๋ํ ์ฌ์ธต ๋ถ์ ํ์
ํ์์ฐ๊ตฌ : (1) transformer architecture ์ด์ธ์ policy class์ ๋ํ human data transfer ๊ฐ๋ฅ์ฑ, (2) domain gap ๊ฐ์๋ฅผ ์ํ human-robot data ํผํฉ ๋น์จ ์ต์ ํ, (3) ์ค์๊ฐ ODE inference์ computational cost ๊ฐ์ ๋ฐฉ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : H-RDT๋ ๋๊ท๋ชจ egocentric human manipulation ๋ฐ์ดํฐ์ ๊ฐ์น๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๋ฉด์, ๋ชจ๋์ ์ ์ด ๊ตฌ์กฐ๋ฅผ ํตํด diverse robot platform์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ํ์ ์ ์ฐ๊ตฌ์ด๋ค. ๊ด๋ฒ์ํ ์คํ๊ณผ ๊ฐ๋ ฅํ empirical ๊ฒฐ๊ณผ๊ฐ robotic manipulation ํ์ต์ data scarcity ๋ฌธ์ ํด๊ฒฐ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ๊ณ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com