Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning
์ ์: Zhengyi Luo, Chen Tessler, Toru Lin, Ye Yuan, Tairan He, Wenli Xiao, Yunrong Guo, Gal Chechik, Kris Kitani, Linxi Fan, Yuke Zhu | ๋ ์ง: 2025-05-18 | URL: https://arxiv.org/abs/2505.12278 📄 PDF
Essence
Figure 1. Perceptive Dexterous Control (PDC) enables a humanoid equipped with egocentric vision to search for, reach, gr
๋ณธ ๋
ผ๋ฌธ์ egocentric vision๋ง์ ์ฌ์ฉํ์ฌ simulated humanoid๊ฐ ๋ณต์กํ household tasks๋ฅผ ์ํํ๋๋ก ํ๋ Perceptive Dexterous Control (PDC) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, visual perception์ task specification์ ์ธํฐํ์ด์ค๋ก ํ์ฉํ์ฌ active search ๋ฑ์ emergent behaviors๋ฅผ ์ ๋ํ๋ค.
Motivation
- Known: Humanoid loco-manipulation ์ ์ด์ visual dexterous manipulation์ ๊ฐ๊ฐ ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์์ผ๋, ๋๋ถ๋ถ์ ๊ธฐ์กด ์ฐ๊ตฌ๋ privileged state information (3D object pose/shape)์ ์์กดํ๊ฑฐ๋ fixed camera ๋ฑ์ ์ ์ฝ์ด ์๋ค.
- Gap: Egocentric vision๋ง์ผ๋ก humanoid์ whole-body dexterous control์ ๋ฌ์ฑํ๋ฉด์ ๋์์ human-like active search ๊ฐ์ emergent behaviors๋ฅผ ์ ๋ํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: Vision-driven humanoid control์ ๋ก๋ด๊ณตํ, embodied AI, animation ๋ถ์ผ์์ ์ค์ง์ ์์ฉ ๊ฐ์น๊ฐ ๋์ผ๋ฉฐ, perception-action loop์ ํ๊ณก์ ํ๋ real-world deployment์ ํต์ฌ ์์์ด๋ค.
- Approach: Control priors๋ฅผ motion capture data๋ก๋ถํฐ ํ์ตํ๊ณ , visual cues (object masks, 3D markers)๋ฅผ ํตํ perception-as-interface ํจ๋ฌ๋ค์์ผ๋ก task๋ฅผ ์ง์ ํ์ฌ RL์ ํตํด ๋จ์ผ ์ ์ฑ
์ผ๋ก ๋ค์ค tasks๋ฅผ ํ์ตํ๋ค.
Achievement
Figure 1. Perceptive Dexterous Control (PDC) enables a humanoid equipped with egocentric vision to search for, reach, gr
- Vision-driven whole-body dexterous control ์คํ: RGB, RGB-D, Stereo ๋ฑ ๋ค์ํ visual modalities์์ naturalistic household environments์์์ humanoid ์ ์ด ๋ฌ์ฑ
- Perception-based task specification: Predefined state variables ์์ด visual cues๋ง์ผ๋ก object selection, target placement, skill specification์ ๊ฐ๋ฅํ๊ฒ ํ๋ task-agnostic paradigm ์ ์
- Emergent human-like behaviors: Active search, whole-body coordination ๋ฑ์ behaviors๊ฐ vision-driven RL training์ผ๋ก๋ถํฐ ์์ฐ์ค๋ฝ๊ฒ emergence๋จ์ ์ค์ฆ
- Visual modality๋ณ ์ฑ๋ฅ ๋น๊ต: Stereo vision์ด RGB ๋๋น 9% ๋ ๋์ success rate ๋ฌ์ฑ ๋ฑ systematic evaluation ์ ์
How
Figure 2. Kitchens: Our agent is trained in parallel on a large set of (randomly) procedurally generated kitchens. Each
- Large-scale motion capture ๋ฐ์ดํฐ๋ก๋ถํฐ control priors ํ์ต์ ํตํ humanoid์ ๊ธฐ๋ณธ ์ด๋ ๋ฅ๋ ฅ ํ๋ณด
- Egocentric vision (RGB/RGB-D/Stereo)๊ณผ proprioception์ policy input์ผ๋ก ์ฌ์ฉ
- Object masks์ 3D markers๋ฅผ ํตํ visual perception-based task encoding์ผ๋ก perception-as-interface ๊ตฌํ
- Procedurally generated diverse kitchen scenes์์์ large-scale RL training์ผ๋ก generalization capability ํ๋ณด
- Hierarchical RL framework์ ํ์ฉ์ผ๋ก high-level task planning๊ณผ low-level motion execution ๋ถ๋ฆฌ
- Multiple household tasks (reaching, grasping, placing, articulated object manipulation)์ ๋ํ unified policy ํ์ต
Originality
- Egocentric vision๋ง์ผ๋ก full humanoid loco-manipulation์ handlingํ๋ ์ฒซ ์๋๋ก, privileged information ์ ๊ฑฐ๋ก ์ธํ partial observability ๋ฐ active perception ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐ
- Perception-as-interface ํจ๋ฌ๋ค์์ humanoid control์ ์ ์ฉํ์ฌ task-agnostic input representation ์ ์, ๊ธฐ์กด phase variables๋ predefined state variables์ ํ๊ณ ๊ทน๋ณต
- Visual cues๋ฅผ ํตํ task specification์ด lifelong learning๊ณผ fine-tuning์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ policy์ ์ฌํ์ต ์์ด ์๋ก์ด tasks ์ฒ๋ฆฌ ๊ฐ๋ฅ
- Emergent active search behaviors์ ๋ช
์์ ์
์ฆ์ผ๋ก, vision-driven RL์ ์ด์ ์ human-like behavior generation ์ธก๋ฉด์์ ์๋กญ๊ฒ ํด์
Limitation & Further Study
- Simulated ํ๊ฒฝ์์์ ๊ฒฐ๊ณผ์ด๋ฏ๋ก sim-to-real transfer์ ์คํ ๊ฐ๋ฅ์ฑ์ด ๊ฒ์ฆ๋์ง ์์
- Visual cues (object masks, 3D markers) ์ฌ์ฉ์ด real-world deployment์์ practicalํ์ง ์์ ์ ์์ผ๋ฉฐ, end-to-end natural language instructions์ผ๋ก์ ํ์ฅ์ด ๋ฏธ์ถฉ๋ถ
- Procedurally generated kitchens์ ๊ตญํ๋์ด ๋ค์ํ household ํ๊ฒฝ (living room, bathroom ๋ฑ)์ ๋ํ generalization ๋ฏธ๊ฒ์ฆ
- Computational cost์ training sample efficiency์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ๋ก real-world humanoid์ ๋ํ sim-to-real transfer, natural language grounding, long-horizon task planning์ ๊ฐ์ ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ egocentric vision์ ์ ์ผํ ์ ๋ณด์์ผ๋ก ํ๋ humanoid whole-body dexterous control์ ์คํ์ด๋ผ๋ ๋์ ์ ๋ฌธ์ ๋ฅผ perception-as-interface ํจ๋ฌ๋ค์๊ณผ hierarchical RL์ ํตํด ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, emergent active search behaviors์ ๋ช
์์ ์
์ฆ์ ํตํด vision-driven control์ ์ด์ ์ ์๋กญ๊ฒ ์กฐ๋ช
ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์