Mobi-$ฯ$: Mobilizing Your Robot Learning Policy
์ ์: Jingyun Yang, Isabella Huang, Brandon Vu, Max Bajracharya, Rika Antonova, Jeannette Bohg | ๋ ์ง: 2025-05-29 | URL: https://arxiv.org/abs/2505.23692 📄 PDF
Essence
Figure 1: Introducing policy mobilization. (a) Assume a visuomotor policy ฯ trained from one or a set of limited camera
๋ณธ ๋
ผ๋ฌธ์ ์ ํ๋ ์นด๋ฉ๋ผ ๋ทฐํฌ์ธํธ์์ ํ์ต๋ visuomotor ์กฐ์ ์ ์ฑ
์ ๋ชจ๋ฐ์ผ ๋ก๋ด ํ๋ซํผ์์ ์คํ ๊ฐ๋ฅํ๊ฒ ํ๋ "policy mobilization" ๋ฌธ์ ๋ฅผ ์ ์ํ๊ณ , 3D Gaussian Splatting๊ณผ sampling-based optimization์ ํ์ฉํ์ฌ ์ต์ ์ ๋ก๋ด ๋ฒ ์ด์ค ํฌ์ฆ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์กฐ์ ์ ์ฑ
์ viewpoint robustness ๊ฐ์ ์ ์ํด ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ์์ง์ด๋ end-to-end ๋ชจ๋ฐ์ผ ์กฐ์ ํ์ต์ ์งํํ์ผ๋, ์ด๋ ๋ฐ์ดํฐ ๋น์ฉ์ด ํฌ๊ณ ๊ธฐ์กด์ stationary robot ๋ฐ์ดํฐ์
์ ์ฌํ์ฉํ๊ธฐ ์ด๋ ต๋ค.
- Gap: ๊ธฐ์กด navigation ๋ฐฉ๋ฒ๋ค์ ๊ฐ์ฒด ๊ฐ์์ฑ๊ณผ ๊ฑฐ๋ฆฌ๋ง ๊ณ ๋ คํ๊ณ ์ ์ฑ
์ training distribution๊ณผ์ ํธํ์ฑ์ ๋ฌด์ํ์ฌ, ์ ์ฑ
์ด out-of-distribution ์ํ์์ ์คํ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
- Why: ๊ธฐ์กด stationary robot ์ ์ฑ
๋ค์ ์ฌํ์ฉ์ฑ๊ณผ ๋ฐฐํฌ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ผ๋ฉฐ, ์ถ๊ฐ ๋ฐ์ดํฐ ์์ง ์์ด ๋ชจ๋ฐ์ผ ๋ก๋ด์์์ ์กฐ์ ์ฑ๊ณต๋ฅ ์ ๋์ผ ์ ์๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ค.
- Approach: 3D Gaussian Splatting์ ์ด์ฉํ scene representation, differentiable rendering์ ํตํ pose suitability ํ๊ฐ, sampling-based optimization์ผ๋ก ์ต์ ๋ก๋ด ๋ฒ ์ด์ค ํฌ์ฆ ํ์
Achievement
Figure 3: A suite of simulated tasks for benchmarking performance of policy mobilization methods. We pick five single-st
Mobi-ฯ ํ๋ ์์ํฌ ๊ฐ๋ฐ: policy mobilization ๋์ด๋๋ฅผ ์ ๋ํํ๋ ๋ฉํธ๋ฆญ, RoboCasa ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์
ํ์คํฌ ์ค์ํธ, ๋ถ์์ฉ ์๊ฐํ ๋๊ตฌ / ๋ฐฉ๋ฒ๋ก ์ ํจ๊ณผ์ฑ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ non-policy-aware baseline๊ณผ policy-aware baseline์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ ๋ฌ์ฑ / ๊ธฐ์กด ์ ์ฑ
ํ์ฉ ๊ฐ๋ฅ์ฑ: stationary robot ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต๋ ์กฐ์ ์ ์ฑ
์ ๋ชจ๋ฐ์ผ ํ๋ซํผ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐฐํฌ
How
Figure 2: Overview of our proposed proof-of-concept method. The goal of our method is to find a proper robot pose p for
- 3D Gaussian Splatting์ผ๋ก ์ฅ๋ฉด์ ์ฐ์์ ํํ์ผ๋ก ์ธ์ฝ๋ฉํ์ฌ ์์์ ์นด๋ฉ๋ผ ํฌ์ฆ์์ view synthesis ๊ฐ๋ฅ / - Score function์ผ๋ก (1) in-distribution likelihood, (2) task-relevant object ๊ฐ์์ฑ, (3) collision ํํผ๋ฅผ ํ๊ฐ / - Cross-entropy method ๊ฐ์ sampling-based optimizer๋ก score function์ ์ต๋ํํ๋ ๋ก๋ด ํฌ์ฆ ํ์ / - ๋ฐ๊ฒฌ๋ ์ต์ ํฌ์ฆ๋ก navigation ํ์ฌ ์กฐ์ ์ ์ฑ
์คํ
Originality
- Policy mobilization์ ์๋ก์ด ๋ฌธ์ ๋ก ๋ช
ํํ๊ฒ ์ ์: navigation๊ณผ manipulation์ decoupling ํ๋ฉด์๋ policy-awareํ๊ฒ ์ํ / - In-distribution detection์ ์๋์ ๋ถ๋ฅ๊ฐ ์๋ ๋ฅ๋์ pose optimization์ผ๋ก ์ ํ / - 3D Gaussian Splatting๊ณผ differentiable rendering์ ๋ก๋ด pose selection์ ํ์ฉํ๋ novel ์ ์ฉ
Limitation & Further Study
- ๋ฐฉ๋ฒ์ด ๊ธฐ์กด pre-trained ์กฐ์ ์ ์ฑ
์ด ํ์ํ๋ฏ๋ก, ์ ์ฑ
์์ฒด์ out-of-distribution ๋ฌธ์ ๋ ์์ ํ ํด๊ฒฐํ์ง ๋ชปํจ / - Score function ์ค๊ณ๊ฐ ํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ์ด๋ฉฐ, ๋ณต์กํ ๋ฉํฐ-ํ์คํฌ ํ๊ฒฝ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ / - Real-world ์คํ์ ๊ท๋ชจ ์ ํ์ผ๋ก ๊ด๋ฒ์ํ ์คํ๊ฒฝ ๊ฒ์ฆ ๋ถ์กฑ / ํ์ ์ฐ๊ตฌ: ๋ฉํฐ-ํ์คํฌ ์ ์ฑ
์ผ๋ก์ ํ์ฅ, ๋ ์ ๊ตํ in-distribution score ํจ์ ๊ฐ๋ฐ, ์๋ฎฌ๋ ์ด์
-ํ์ค ์ ์ด ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Policy mobilization์ ๋ช
ํํ ์ ์ํ๊ณ 3D Gaussian Splatting ๊ธฐ๋ฐ์ ์ค์ง์ ํด๊ฒฐ์ฑ
์ ์ ์ํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ๊ธฐ์กด stationary robot ์ ์ฑ
์ ๋ชจ๋ฐ์ผ ๋ก๋ด ๋ฐฐํฌ ๋ฌธ์ ๋ฅผ elegantํ๊ฒ ํด๊ฒฐํ๋ฉฐ, Mobi-ฯ ํ๋ ์์ํฌ๋ฅผ ํตํด ์ฒด๊ณ์ ํ๊ฐ๊ฐ ๊ฐ๋ฅํ๋๋ก ํ ์ ์ด ํนํ ๊ฐ์น์๋ค. ๋ค๋ง ์คํ๊ฒฝ ์คํ ๊ท๋ชจ ํ๋์ ๋ ์ ๊ตํ method ๊ฐ๋ฐ์ด ์ถ๊ฐ๋๋ฉด ์ํฅ๋ ฅ์ ๋์ฑ ๋์ผ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์