Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations
์ ์: Irmak Guzey, Haozhi Qi, Julen Urain, Changhao Wang, Jessica Yin, Krishna Bodduluri, Mike Lambeta, Lerrel Pinto, Akshara Rai, Jitendra Malik, Tingfan Wu, Akash Sharma, Homanga Bharadhwaj | ๋ ์ง: 2025-11-20 | URL: https://arxiv.org/abs/2511.16661 📄 PDF
Essence
Fig. 1: AINA is a framework for learning multi-fingered policies from in-the-wild human data collected with smart glasse
Aria Gen 2 ์ค๋งํธ ๊ธ๋์ค๋ก ์์งํ in-the-wild ์ธ๊ฐ ์์๋ง์ผ๋ก ๋ก๋ด์ฉ ๋ค์ค ์๊ฐ๋ฝ ์กฐ์ ์ ์ฑ
์ ํ์ตํ๋ AINA ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ ๋ก๋ด ๋ฐ์ดํฐ๋ ์๋ฎฌ๋ ์ด์
์์ด๋ ์ง์ ๋ฐฐํฌ ๊ฐ๋ฅํ 3D point-based ์ ์ฑ
์ ์์ฑํ๋ค.
Motivation
- Known: ์ธ๊ฐ ๋น๋์ค์์ ๋ก๋ด ์ ์ฑ
์ ํ์ตํ๋ ๊ฒ์ ์ค๋ซ๋์ ์ถ๊ตฌ๋์ด ์์ผ๋, embodiment gap๊ณผ ์ ๋ขฐํ ์ ์๋ 3D ์ฃผ์ ์ถ์ถ์ ์ด๋ ค์์ผ๋ก ์ธํด ๋ค์ค ์๊ฐ๋ฝ ์์ ๋ํด์๋ ์ฑ๊ณตํ์ง ๋ชปํ๋ค. ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ๊ตฌ์กฐํ๋ ํ๊ฒฝ์์์ ๋ฐ์ดํฐ ์์ง(ํ์ฅ์ฑ ๋ฎ์)์ด๊ฑฐ๋ ์น ๋น๋์ค ํ์ฉ(์ ๋ฐํ 3D ์ฃผ์ ๋ถ์กฑ)์ด์๋ค.
- Gap: ์ค๋งํธ ๊ธ๋์ค์ ๊ณ ๊ธ ์ผ์ฑ ๋ฅ๋ ฅ(๊ณ ํด์๋ RGB, ์ ํํ 3D ์ ์์ธ, ์คํ
๋ ์ค ๊น์ด)์ ํ์ฉํ์ฌ in-the-wild ๋ฐ์ดํฐ์ ํ์ฅ์ฑ๊ณผ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์ ์ ํ์ฑ์ ๋์์ ๋ฌ์ฑํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค. ํนํ ๋ค์ค ์๊ฐ๋ฝ ์์ ์ํ ํ๋ฃจํ ์ ์ฑ
์ ์์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ๋ ๊ฒ์ ๋ฏธํด๊ฒฐ ๊ณผ์ ์๋ค.
- Why: ๋ก๋ด์ด ์ผ์ ํ๊ฒฝ์์ ์ํ๋๋ ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ ํ๋์ ๋ชจ๋ฐฉํ์ฌ ์กฐ์ํ ์ ์๋ค๋ฉด, ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ๋ํ ์์กด๋๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์์ด ๋ก๋ด ์กฐ์์ ๋๊ท๋ชจ ๋ฐฐํฌ๊ฐ ๊ฐ๋ฅํด์ง๋ค. ์ค๋งํธ ๊ธ๋์ค๋ฅผ ํ์ฉํ ์ ๊ทผ์ ๋๊ตฌ๋, ์ด๋์๋ ์์ง ๊ฐ๋ฅํ๋ฏ๋ก ๋งค์ฐ ๋์ ์ค์ฉ์ ๊ฐ์น๊ฐ ์๋ค.
- Approach: ์ธ๊ฐ์ด ์ฐฉ์ฉํ Aria Gen 2 ๊ธ๋์ค๋ก๋ถํฐ ์ป์ 3D hand keypoint(์ง์ ์ ๊ณต), stereo depth estimation, 3D object pointcloud๋ฅผ ํตํด ์ธ๊ฐ ์์์ '๊ทผ์ฌ 4D'๋ก ๋ณํํ๋ค. ์ดํ 3D point-based policy learning ๋ฐฉ์์ ์ด์ฉํ์ฌ ๋ฏธ๋ ์๊ฐ๋ฝ ํคํฌ์ธํธ ์์ธก ์ ์ฑ
์ ํ์ตํ๊ณ , ๋ก๋ด ๋ฐฐํฌ ๊ณต๊ฐ์์์ ๋จ์ผ ์์ฐ๋ง์ผ๋ก ๋ก๋ด์ ์ง์ ์ ์ฉํ๋ค.
Achievement
Fig. 3: Comparison of AINAโs capabilities with some prior human-to-robot learning frameworks. In-The-Wild indicates whet
- ์ฒซ ๋ค์ค ์๊ฐ๋ฝ ์์ ์ํ ์์ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ต: ๋ก๋ด ๋ฐ์ดํฐ, ์จ๋ผ์ธ ๋ณด์ , reinforcement learning, ์๋ฎฌ๋ ์ด์
์ ์ ํ ์ฌ์ฉํ์ง ์์ผ๋ฉด์๋ ํ๋ฃจํ ์กฐ์ ์ ์ฑ
์ ํ์ตํ๋ ์ต์ด์ ํ๋ ์์ํฌ ๊ตฌํ
- 9๊ฐ ์ผ์ ์์
์์์ ์ค์ฆ์ ์ฑ๊ณต: ๋ค์ํ ์ผ์ ์กฐ์ ์์
์์ ๊ธฐ์กด human-to-robot learning ๋ฐฉ๋ฒ๋ค(Track2Act, PointPolicy, DemoDiffusion ๋ฑ)์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ฐฐ๊ฒฝ ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ: 3D point-based ํํ ๋๋ถ์ ๋ฐฐ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ๋ฉฐ, ๋ฐฐํฌ ๊ณต๊ฐ๊ณผ ๋ฐ์ดํฐ ์์ง ๊ณต๊ฐ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ์ผ๋ฐํ ๊ฐ๋ฅ
- ์ต์ํ์ ๋ฐ์ดํฐ๋ก ํจ์จ์ ํ์ต: ํ๊ท ์ฝ 15๋ถ์ ์ธ๊ฐ ์์ ์์ง ๋
ธ๋ ฅ๋ง์ผ๋ก ์์จ ๋ก๋ด ์ ์ฑ
ํ๋ จ ๊ฐ๋ฅ
How
Fig. 4: Illustration of our overall AINA framework. On the left, we show how the data is processed: the human hand pose
- Aria Gen 2 ๊ธ๋์ค์ on-board hand pose estimation์ผ๋ก 3D ์ keypoint๋ฅผ ์ง์ ์ถ์ถ
- SLAM camera ํ๋ ์์ผ๋ก๋ถํฐ FoundationStereo๋ฅผ ์ด์ฉํ stereo depth estimation ์ํ
- 2D object tracking๊ณผ depth ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ 3D object pointcloud ์์ฑ
- Vector Neuron MLP ๊ธฐ๋ฐ Transformer Encoder์ positional encoding์ ํฌํจํ 3D point-based policy ๋คํธ์ํฌ ์ค๊ณ
- ์ธ๊ฐ ์ ์์ธ์์ ๋ก๋ด ๊ด์ ๊ฐ๋๋ก์ ๋ณํ์ ์ํด inverse kinematics(IK) ์ ์ฉ
- ๋ก๋ด ๋ฐฐํฌ ๊ณต๊ฐ์์์ ๋จ์ผ ์์ฐ์ ํตํด ๋ฐฐํฌ ์์ ์ ํ๊ฒฝ ๋งฅ๋ฝ ๋ณด์
Originality
- ์ค๋งํธ ๊ธ๋์ค์ ์์ ํ ํ์ฉ: Aria Gen 2์ high-resolution RGB, on-board 3D hand pose, stereo vision์ ํตํฉํ์ฌ in-the-wild ๋ฐ์ดํฐ์์ ์ ๋ขฐํ ์ ์๋ 3D ์ฃผ์์ ์๋์ผ๋ก ์ถ์ถ
- ์์ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ต: ๋ก๋ด ๋ฐ์ดํฐ(์จ๋ผ์ธ ๋ณด์ , RL, ์๋ฎฌ๋ ์ด์
ํฌํจ)๋ฅผ ์ ํ ์ฌ์ฉํ์ง ์์ผ๋ฉด์๋ ๋ค์ค ์๊ฐ๋ฝ ์ ์กฐ์ ์ ์ฑ
ํ์ต์ด๋ผ๋ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
- 3D point-based ํํ์ ์ ์ ํ ์ ์ฉ: background clutter์ ๊ฐ๊ฑดํ ์ ๊ตฌ๋ฆ ํํ์ ์ด์ฉํ์ฌ in-the-wild ๋ฐ์ดํฐ์ ๊ฐ๋ณ์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌ
- ์ต์ํ์ ๋ฐฐํฌ ์ ์ ์: ๋ก๋ด ํ๊ฒฝ์์ ๋จ ํ ๋ฒ์ ์ธ๊ฐ ์์ฐ๋ง์ผ๋ก ๋ฐฐํฌ ๊ฐ๋ฅํ ์ค์ฉ์ ์ค๊ณ
Limitation & Further Study
- embodiment gap์ ์์ ํ ํด๊ฒฐ ๋ถ์ฌ: ์ ํฌ๊ธฐ์ ์ด๋ ๋ฒ์์ ์ธ๊ฐ-๋ก๋ด ์ฐจ์ด๋ฅผ IK ๋ณํ๋ง์ผ๋ก ์ฒ๋ฆฌํ๋ฏ๋ก, ๊ทน๋จ์ ์ผ๋ก ๋ค๋ฅธ embodiment์์๋ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ
- ๋จ์ผ ๋ก๋ด ํ๋ซํผ ํ๊ฐ: Aria Gen 2์ ํน์ ๋ค์ค ์๊ฐ๋ฝ ๋ก๋ด ์์ ๋ํด์๋ง ์ค์ฆํ์ผ๋ฉฐ, ๋ค๋ฅธ ๋ก๋ด embodiment๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์ฌ
- ๋ฐฐํฌ ๊ณต๊ฐ ์์ฐ์ ํ์์ฑ: ๊ฐ ์๋ก์ด ๋ฐฐํฌ ํ๊ฒฝ๋ง๋ค ๋จ์ผ ์์ฐ์ด ํ์ํ๋ฏ๋ก, ์์ ํ zero-shot ํ์ต์ ์๋
- ๋ณต์กํ ์-๋ฌผ์ฒด ์ํธ์์ฉ ์ฒ๋ฆฌ ํ๊ณ: ํ์๋ grasp๋ ๋งค์ฐ ์ฌ์ธํ ์กฐ์์ keypoint ๊ธฐ๋ฐ ํํ์ผ๋ก ์ถฉ๋ถํ์ง ์์ ์ ์์
- ํ์ ์ฐ๊ตฌ: Aria Gen 2 ์ด์ธ์ ๋ค๋ฅธ ์ค๋งํธ ๊ธ๋์ค๋ ์ ๋น์ฉ ์จ์ด๋ฌ๋ธ์ ์ ์ฉ ํ์, ์ฌ๋ฌ ๋ก๋ด embodiment์ ๋ํ ์ผ๋ฐํ ๋ฐฉ๋ฒ ์ฐ๊ตฌ, zero-shot ๋๋ few-shot ๋ฐฐํฌ ๋ฅ๋ ฅ ๊ฐํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ค๋งํธ ๊ธ๋์ค์ ๊ณ ๊ธ ์ผ์ฑ ๋ฅ๋ ฅ์ ์ฐฝ์์ ์ผ๋ก ํ์ฉํ์ฌ ์์ ์ธ๊ฐ ๋น๋์ค๋ง์ผ๋ก ๋ค์ค ์๊ฐ๋ฝ ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ํ์ตํ๋ ์ค์ง์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ํด๋ฒ์ ์ ์ํ๋ค. ๊ฐ๋ ฅํ ์ค์ฆ ๊ฒฐ๊ณผ์ ๋ช
ํํ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ธ๊ฐ-๋ก๋ด ๋ชจ๋ฐฉ ํ์ต ๋ถ์ผ์ ์๋นํ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ๋ก๋ด ์กฐ์์ ๋๊ท๋ชจ ์ค์ฉํ๋ฅผ ํฅํ ์ค์ํ ํ ๊ฑธ์์ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์