EgoMimic: Scaling Imitation Learning via Egocentric Video
์ ์: Simar Kareer, Dhruv Patel, Ryan Punamiya, Pranay Mathur, Shuo Cheng, Chen Wang, Judy Hoffman, Danfei Xu | ๋ ์ง: 2024-10-31 | URL: https://arxiv.org/abs/2410.24221 📄 PDF
Essence
Fig. 1: EgoMimic unlocks human embodiment dataโegocentric videos paired with 3D hand tracksโas a new scalable data sourc
EgoMimic์ Project Aria ์๊ฒฝ์ ํตํด ์์งํ ์ธ๊ฐ์ ์ผ์ธ์นญ ์์ ๋น๋์ค์ 3D ์ ์ถ์ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ์กฐ์ ํ์ต์ ํ์ฉํ๋ ์ ์ฒด ์คํ ํ๋ ์์ํฌ๋ก, ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋๋ฑํ embodied demonstration์ผ๋ก ์ทจ๊ธํ์ฌ ํตํฉ ์ ์ฑ
์ ํ์ตํ๋ค.
Motivation
- Known: Imitation learning์ ๊ฐ๋ ฅํ ์กฐ์ ์์
ํ์ต ๋ฐฉ๋ฒ์ด์ง๋ง ๋๊ท๋ชจ ๋ค์ํ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ณ , ์ธ๊ฐ ๋น๋์ค๋ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ค์ด๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ณ ์์ค ์๋ ์ถ์ถ์๋ง ํ์ฉ๋์๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ธ๊ฐ ๋น๋์ค๋ฅผ ๋ณด์กฐ ๋ฐ์ดํฐ๋ก๋ง ์ทจ๊ธํ๋ฉฐ ๋ณ๋ ์ฒ๋ฆฌ๋ฅผ ์๊ตฌํ๊ณ , ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ์ฌ์ด์ kinematic, distributional, appearance ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ํตํฉ ํ์ต ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ์๋์ ๋ฐ์ดํฐ ์์ง์ด ๊ฐ๋ฅํ ์ผ์ธ์นญ ์์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํ์ต์ ํ์ฉํ๋ฉด Internet ๊ท๋ชจ์ ๋ก๋ด ๋ฐ์ดํฐ ํ๋ณด๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ์ด๋ ๋ก๋ด ์กฐ์ ์ฑ๋ฅ์ ๋๊ท๋ชจ ํ์ฅ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: EgoMimic์ Project Aria ์๊ฒฝ์ผ๋ก ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , kinematic ๊ฐญ์ ์ต์ํํ๋ ์ ๋น์ฉ ์ด์กฑ ๋ก๋ด์ ์ค๊ณํ๋ฉฐ, cross-domain data alignment ๊ธฐ๋ฒ๊ณผ shared vision encoder๋ฅผ ํตํด ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํตํฉ ํ์ตํ๋ค.
Achievement
Fig. 5: We evaluate EgoMimic across three real world, long-horizon manipulation tasks. See Sec. IV-A for description.
- ์ฑ๋ฅ ํฅ์: ์ฐ์ object-in-bowl, ์ท ์ ๊ธฐ, ์๋ฃํ ํฌ์ฅ ๋ฑ ์ฅ๊ธฐ๊ฐ ์กฐ์ ์์
์์ ๋ก๋ด๋ง ์ฌ์ฉ ๋๋น 34-228% ์๋ ์ฑ๋ฅ ๊ฐ์
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ์ธ๊ฐ ๋ฐ์ดํฐ์์๋ง ๋ํ๋ ์๋ก์ด ๊ฐ์ฒด์ ์ฅ๋ฉด์ผ๋ก ์ผ๋ฐํ ๊ฐ๋ฅ
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ์ถ๊ฐ 1์๊ฐ์ hand ๋ฐ์ดํฐ๊ฐ 1์๊ฐ์ ๋ก๋ด ๋ฐ์ดํฐ๋ณด๋ค ํ์ ํ ๋ ๊ฐ์น ์์์ ์ค์ฆ
How
Fig. 2: Our human data system uses Aria glasses to capture Egocentric RGB and uses its side SLAM cameras to localize the
- Project Aria ์๊ฒฝ์ ์ด์ฉํ์ฌ ์ผ์ธ์น RGB ์์, 3D ์ ์ถ์ , ์ฅ์น SLAM์ ๋์ ์์ง
- Viper X follower arms์ WidowX leader arms๋ก ๊ตฌ์ฑ๋ ์ด์กฑ ๋ก๋ด ์ค๊ณ, ๋ก๋ด์ ๋ฉ์ธ ์ผ์๋ก๋ Aria ์๊ฒฝ ์ฌ์ฉํ์ฌ camera-to-camera ๊ฐญ ์ต์ํ
- Action distribution ์ ๊ทํ ๋ฐ ์ ๋ ฌ์ ํตํด ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ๊ฐ distributional ์ฐจ์ด ์ํ
- Visual masking์ ์ด์ฉํ์ฌ ์ธ๊ฐ ํ๊ณผ ๋ก๋ด ๋งค๋ํจ๋ ์ดํฐ ๊ฐ appearance ์ฐจ์ด ์ถ์
- ๊ณตํต vision encoder์ policy network๋ฅผ ์ฌ์ฉํ unified imitation learning architecture๋ก hand์ ๋ก๋ด ๋ฐ์ดํฐ co-training, ์๋ก ๋ค๋ฅธ action space์๋ shared representation ๊ฐ์
Originality
- ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ auxiliary source๊ฐ ์๋ first-class ๋ฐ์ดํฐ ์์ค๋ก ์ทจ๊ธํ๋ ์๋ก์ด ๊ด์
- ์ผ์ธ์นญ ์์ wearable ์ผ์(Aria glasses)๋ฅผ ํ์ฉํ passive data collection ์์คํ
- kinematic, distributional, appearance ๊ฐญ์ ๋์์ ํด๊ฒฐํ๋ ์ ์ฒด ์คํ ์ค๊ณ
- ์ธ๊ฐ๊ณผ ๋ก๋ด embodiment์ continuous spectrum์ ๋ฐ์ดํฐ ์์ค๋ก ํตํฉ ํ์ตํ๋ unified architecture
- scaling trend ๋ถ์์ ํตํด ์ธ๊ฐ ๋ฐ์ดํฐ์ ์๋์ ๊ฐ์น๋ฅผ ์ ๋ํ
Limitation & Further Study
- ํ์ฌ ํ๊ฐ๋ 3๊ฐ์ง ์ฅ๊ธฐ๊ฐ ์กฐ์ ์์
์ผ๋ก ์ ํ๋๋ฉฐ, ๋ค์ํ ๋๋ฉ์ธ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ ํ์
- Aria ์๊ฒฝ์ด๋ผ๋ ํน์ ํ๋์จ์ด์ ์์กดํ๋ฉฐ, ๋ค๋ฅธ consumer-grade ์ผ์ธ์นญ ์ผ์์์ ํธํ์ฑ ๋ฏธ๊ฒํ
- ์ธ๊ฐ ์์ฐ์์ skill ์์ค๊ณผ ๊ฐ์ธ์ฐจ๊ฐ ํ์ต์ ๋ฏธ์น๋ ์ํฅ ๋ถ์ ๋ถ์ฌ
- Cross-embodiment ํ์ต์์ ์ธ๊ฐ-๋ก๋ด ๊ฐ kinematic ์ฐจ์ด์ ๊ทผ๋ณธ์ ํ๊ณ(์: ์ธ๊ฐ์ ์ ์ฐ์ฑ์ด ๋ก๋ด์ ๊ตฌํ ๋ถ๊ฐ๋ฅ)์ ๋ํ ํด๊ฒฐ ๋ฐฉ์ ๋ฏธ์ ์
- ํ์์ฐ๊ตฌ: (1) ๋ ๋ง์ manipulation ๋๋ฉ์ธ ํ๊ฐ, (2) ๋ค์ํ ์ผ์ ํ๋ซํผ ํธํ์ฑ, (3) ์ธ๊ฐ skill diversity์ ์ํฅ ๋ถ์, (4) embodiment ์ฐจ์ด๋ฅผ ๋ฐ์ํ adaptive ์ ์ฑ
ํ์ต
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: EgoMimic์ ์ธ๊ฐ์ ์ผ์ธ์นญ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํ์ต์ ๋๋ฑํ๊ฒ ํ์ฉํ๋ ํ์ ์ ์ ๊ทผ์ผ๋ก, ์ค์ ์กฐ์ ์์
์์ ๋ฐ์ด๋ ์ฑ๋ฅ ๊ฐ์ ๊ณผ ์ผ๋ฐํ๋ฅผ ์
์ฆํ์ผ๋ฉฐ, ์๋์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ๊ฐ๋ฅ์ฑ์ ์ด์ด ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ ๋ฌธ์ ํด๊ฒฐ์ ํฌ๊ฒ ๊ธฐ์ฌํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์