RGMP: Recurrent Geometric-prior Multimodal Policy for Generalizable Humanoid Robot Manipulation
์ ์: Xuetao Li, Wenke Huang, Nengyuan Pan, Kaiyan Zhao, Songhua Yang, Yiming Wang, Mengde Li, Mang Ye, Jifeng Xuan, Miao Li | ๋ ์ง: 2025-11-12 | URL: https://arxiv.org/abs/2511.09141 📄 PDF
Essence
Figure 2: Pipeline of RGMP. Upon receiving a speech command, the robot utilizes GSS to identify and localize the target
๊ธฐํํ์ ์ถ๋ก ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๊ฒฐํฉํ RGMP๋ humanoid robot ์กฐ์์ ์ํด Geometric-prior Skill Selector์ Adaptive Recursive Gaussian Network๋ฅผ ํตํฉํ์ฌ 87% ์ฑ๊ณต๋ฅ ๊ณผ 5๋ฐฐ ๋ฐ์ดํฐ ํจ์จ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Vision-Language Model์ ์๋ฏธ๋ก ์ ์์
๊ณํ์ ๋ฅํ์ง๋ง ๊ณต๊ฐ-๊ธฐํํ์ ์ถ๋ก ์ด ๋ถ์กฑํ๋ฉฐ, diffusion model๊ณผ transformer๋ ๋์ ๋ฐ์ดํฐ ์๊ตฌ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ์ธํด ์ค์ ๋ฐฐํฌ๊ฐ ์ ํ๋๋ค.
- Gap: ํ์ฌ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ unseen scenario์์์ ๊ธฐํํ์ ์ถ๋ก ์ ๋ฌด์ํ๊ณ robot-target ๊ด๊ณ๋ฅผ ๋นํจ์จ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ฉฐ, ์ ํ๋ ๋ฐ๋ชจ์์์ ๋ฐ์ดํฐ ํจ์จ์ ์ธ visuomotor ์ ์ด์ ๊ธฐํํ์ ์ผ๊ด์ฑ์ ๊ฐ์ถ skill ์ ํ์ด ๊ฒฐ์ฌ๋์ด ์๋ค.
- Why: Humanoid robot์ด ์ค์ ํ๊ฒฝ์์ diverseํ ์์
์ ํจ์จ์ ์ผ๋ก ์ํํ๋ ค๋ฉด ๊ธฐํํ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ sparse demonstration์ผ๋ก๋ถํฐ์ ํ์ต์ด ํ์์ ์ด๋ฉฐ, ์ด๋ ๋ฐ์ดํฐ ์์ง ๋น์ฉ ์ ๊ฐ๊ณผ cross-domain ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: GSS๋ geometric inductive bias๋ฅผ VLM์ ์ฃผ์
ํ์ฌ shape ๊ธฐ๋ฐ skill ์ ํ์ ์ํํ๊ณ , ARGN์ Rotary Position Embedding๊ณผ adaptive decay mechanism์ ํ์ฉํ์ฌ recursive global spatial relationship์ ๋ชจ๋ธ๋งํ๋ฉฐ GMM์ผ๋ก 6-DoF ๊ถค์ ์ compactํ๊ฒ ์ธ์ฝ๋ฉํ๋ค.
Achievement
Figure 1: Overview of our framework. By applying seman-
- Geometric-prior Skill Selector (GSS): 20๊ฐ์ ๊ท์น ๊ธฐ๋ฐ ๊ธฐํํ์ ์ ์ฝ๋ง์ผ๋ก VLM์ ๊ฐํํ์ฌ unseen scene์์ geometric consistency๋ฅผ ๋ง์กฑํ๋ ์ ์์ skill sequence๋ฅผ ์์ฑ
- Adaptive Recursive Gaussian Network (ARGN): Rotary Position Embedding๊ณผ adaptive decay mechanism์ ํตํด vanishing gradient ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ task-critical patch์ ๊ฐ์ค์น๋ฅผ ๋์ ์ผ๋ก ์ฆํญ
- ์ค์๊ฐ ์ฑ๋ฅ: Humanoid robot๊ณผ desktop dual-arm robot์์ 87% task success rate ๋ฌ์ฑ ๋ฐ state-of-the-art ๋๋น 5๋ฐฐ ๋์ ๋ฐ์ดํฐ ํจ์จ
- Cross-domain ์ผ๋ฐํ: Geometric-semantic reasoning๊ณผ recursive Gaussian adaptation์ ๊ฒฐํฉ์ผ๋ก unseen object์ ๋ํ robust generalization ์คํ
How
Figure 2: Pipeline of RGMP. Upon receiving a speech command, the robot utilizes GSS to identify and localize the target
- VLM์ low-rank geometric adapter๋ฅผ ํตํด object shape์ ์ขํ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก pretrained skill library์์ parameterized skill ์ ํ
- Spatial Mixing Block์์ RoPE๋ก ๊ฐ image patch์ ์ต์ข
action ๊ฐ์ implicit association์ ์ค์
- Recursive computation์ผ๋ก ์ฒซ ๋ฒ์งธ๋ถํฐ ๋ง์ง๋ง visual patch๊น์ง progressiveํ๊ฒ global spatial relationship ๋ชจ๋ธ๋ง
- Adaptive Decay Mechanism์ผ๋ก historical memory์ decay rate๋ฅผ ๋์ ์ผ๋ก ์ ์ดํ์ฌ vanishing gradient ์ํ
- Gaussian Mixture Model๋ก 6-DoF robotic arm์ 6๊ฐ joint๋ฅผ ๊ฐ๊ฐ ์ ์ดํ๋ distinct motion์ approximate
- Multi-scale visual cue๋ฅผ hierarchical fusion block์ผ๋ก retainingํ ํ GMM encoder์ ๊ณต๊ธํ์ฌ goal-conditional density modeling ์ํ
Originality
- ๊ธฐํํ์ ์ถ๋ก ๊ณผ ์๋ฏธ๋ก ์ task planning์ ๋ช
์์ ์ผ๋ก ์ฐ๊ฒฐํ๋ geometric-object decomposition mechanism์ด ์ฒ์ ์ ์๋จ
- Adaptive decay mechanism์ ํตํด recursive computation์ vanishing gradient ๋ฌธ์ ๋ฅผ ๋ก๋ด ํ์ต ๋งฅ๋ฝ์์ ํด๊ฒฐํ novel approach
- RoPE์ recursive computation์ ๊ฒฐํฉํ์ฌ directional spatial dependency๋ฅผ temporally-consistent latent space์์ ์บก์ฒํ๋ ๋
์ฐฝ์ ์ธ ์ค๊ณ
- GMM์ ํตํ hierarchical Gaussian process๋ก robot-object interaction์ compactํ๊ฒ parameterizeํ๋ ์๋ก์ด ํํ
Limitation & Further Study
- Geometric prior๊ฐ 20๊ฐ ๊ท์น ๊ธฐ๋ฐ ์ ์ฝ์ผ๋ก ๊ณ ์ ๋์ด ์์ด ๋ ๋ณต์กํ ๊ธฐํํ์ ์๋๋ฆฌ์ค๋ก์ ํ์ฅ์ฑ์ด ์ ํ๋ ์ ์์
- ํ๊ฐ๊ฐ ๋ ๊ฐ์ robotic platform์๋ง ์ ํ๋์ด ๋ค์ํ embodiment์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ ๋ถ์กฑ
- Sparse demonstration ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ณ์ (์: ์ต์ ๋ช ๊ฐ์ demo๊ฐ ํ์ํ์ง)์ด ๋ช
์๋์ง ์์
- ์ค์๊ฐ inference ์๋์ computational cost์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๋ถ์ ๋ถ์กฑ
- ๋ค๋ฅธ ์ต์ data-efficient ๋ฐฉ๋ฒ(์: meta-learning ๊ธฐ๋ฐ ์ ๊ทผ)๊ณผ์ ์ง์ ์ ์ธ ๋น๊ต ๋ฏธํก
- ํ์ ์ฐ๊ตฌ๋ก end-to-end learning์ ํตํ geometric prior์ ์๋ ๋ฐ๊ฒฌ, dynamic environment์์์ online adaptation, ๋ ๋ง์ robot morphology์ ๋ํ ํ์ฅ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RGMP๋ ๊ธฐํํ์ ์ถ๋ก ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๊ฒฐํฉ์ ํตํด humanoid robot ์กฐ์์ ์ค์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, GSS์ ARGN์ ์ค๊ณ๊ฐ ์ ๊ตํ๊ณ ์ค์ ๋ก๋ด์์ strong empirical result๋ฅผ ๋ฌ์ฑํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ๊ธฐํํ์ ์ ์ฝ์ ์๋ํ์ ๋ ๊ด๋ฒ์ํ ์ค์ฆ ํ๊ฐ๊ฐ ์ด๋ฃจ์ด์ง๋ค๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์