SafeHumanoid: VLM-RAG-driven Control of Upper Body Impedance for Humanoid Robot
์ ์: Yara Mahmoud, Jeffrin Sam, Nguyen Khang, Marcelino Fernando, Issatay Tokmurziyev, Miguel Altamirano Cabrera, Muhammad Haris Khan, Artem Lykov, Dzmitry Tsetserukou | ๋ ์ง: 2025-11-28 | URL: https://arxiv.org/abs/2511.23300 📄 PDF
Essence
Figure 1: Egocentric perception and semantic-to-safety
SafeHumanoid๋ Vision Language Model(VLM)๊ณผ Retrieval-Augmented Generation(RAG)์ ํ์ฉํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ํผ๋์ค์ ์๋๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ ์์คํ
์ผ๋ก, ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ์ ์์ ์ฑ๊ณผ ์์
์๋ฃ๋ฅผ ๋์์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ์ํผ๋์ค ์ ์ด๋ ์์ ํ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ์ํ ํ์ค ๋๊ตฌ์ด๋ฉฐ, VLM์ ๋ก๋ด ์์
์ํ์ค ์์ฑ ๋ฐ ๊ถค์ ์์ฑ์ ํ์ฉ๋๊ณ ์๋ค.
- Gap: ๊ธฐ์กด VLM/VLA ํ์ดํ๋ผ์ธ์ ์์
์๋ฃ์ ์์น ์ ์ด์ ์ค์ ์ ๋๋ฉฐ ์ํผ๋์ค ๊ฑฐ๋ ๋ณ์กฐ๋ฅผ ๊ณ ๋ คํ์ง ์์ผ๋ฉฐ, ์๋ฏธ๋ก ์ ์ถ๋ก ๊ณผ ์์ ์ํผ๋์ค ์ ์ด์ ํตํฉ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด์ด ๊ณต์ ๋ ์ธ๊ฐ ํ๊ฒฝ์์ ์๋ํ ๋ ๋จ์ํ ๊ธฐํํ์ ์์ ์ฅ์น๋ก๋ ๋ถ์กฑํ๋ฉฐ, ์์
๊ณผ ๋งฅ๋ฝ์ ์ดํดํ๊ณ ์ฌ์ ์ ์ ์ ํ ๊ฐ์ฑ๊ณผ ์๋๋ฅผ ์ ํํ๋ ๊ฒ์ด ์ฌ์ฉ์ ์์ ๊ณผ ์ ๋ขฐ๋๋ฅผ ํฅ์์ํจ๋ค.
- Approach: ์์ค์ฌ ๋น์ ์ผ๋ก ์ฅ๋ฉด์ ์บก์ฒํ๊ณ VLM ํ๋กฌํํธ๋ก ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ์ถ์ถํ ํ, FAISS ๊ธฐ๋ฐ RAG๋ฅผ ํตํด ๊ฒ์ฆ๋ ์๋๋ฆฌ์ค ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ํผ๋์ค ํ๋ผ๋ฏธํฐ(Kp, Kd, v)๋ฅผ ๊ฒ์ํ๊ณ ์ญ์ด๋ํ์ผ๋ก ๊ด์ ๋ช
๋ น์ผ๋ก ๋ณํํ๋ค.
Achievement
Figure 2: SafeHumanoid pipeline architecture. The onboard PC streams egocentric frames and executes impedance control at
- VLM-RAG ์ ์ด ํ์ดํ๋ผ์ธ: ์์ค์ฌ ๋น์ ๊ณผ ๊ตฌ์กฐํ๋ VLM ํ๋กฌํํธ๋ฅผ ํ์ฉํ์ฌ ์ค์๊ฐ์ผ๋ก ๋งฅ๋ฝ ์ธ์ ์ํผ๋์ค ๋ฐ ์๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ํ
- ์ค์ ์์คํ
ํตํฉ: Unitree G1 ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์ ๊ณ ์์ค ์๋ฏธ๋ก ์ ์ถ๋ก ๊ณผ ์ ์์ค ์์ฒด ์ ์ด์ ์์ ํ ํตํฉ ๋ฌ์ฑ
- ์ ์์ ๊ฑฐ๋: ํ
์ด๋ธ ๋ฆ์ด, ๋ฌผ์ฒด ์ธ์์ธ๊ณ, ์ก์ฒด ๋ถ๊ธฐ ์์
์์ ๊ณ ์ ๊ฒ์ธ ๊ธฐ์ค์ ๋๋น ๋ ์์ ํ๊ณ ๋งฅ๋ฝ ์ธ์์ ์ธ ๊ฑฐ๋์ ์ ์งํ๋ฉด์ ์์
์ฑ๊ณต๋ฅ ๋ณด์ฅ
- ํ์ค ์ค์: ISO/TS 15066๊ณผ ISO 13855 ๊ฐ์ ํ๋ ฅ ๋ก๋ด ์์ ํ์ค์ ๊ณ ๋ คํ ํ๋ผ๋ฏธํฐ ์ ํ
How
Figure 2: SafeHumanoid pipeline architecture. The onboard PC streams egocentric frames and executes impedance control at
- ์์ค์ฌ ์นด๋ฉ๋ผ์์ egocentric frames ํ๋
- ๊ตฌ์กฐํ๋ VLM ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ Molmo VLM์ผ๋ก ์ฅ๋ฉด ์๋ฏธ๋ก ์ ๋ถ์
- VLM ์๋ฒ ๋ฉ์ FAISS ๊ฒ์ ์์ง์ผ๋ก ๊ฒ์ฆ๋ ์๋๋ฆฌ์ค ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋งค์นญ
- ๊ฒ์๋ ํ๋ผ๋ฏธํฐ(Kp, Kd, v)๋ฅผ ์ญ์ด๋ํ๊ณผ ์ค๋ ฅ ๋ณด์์ ํตํด ๊ด์ ๋ช
๋ น{qref, qฬref, ฯff, Kp, Kd}์ผ๋ก ๋ณํ
- ์จ๋ณด๋ PC์์ 50 Hz๋ก ์ ์ด ์คํ, ์คํ๋ณด๋ ์ํฌ์คํ
์ด์
์์ VLM ๋ฐ RAG ์ฒ๋ฆฌ
Originality
- ์๋ฏธ๋ก ์ ์ถ๋ก ์ ์์ ์ํผ๋์ค ์ ์ด ๊ณ์ธต๊ณผ ์ง์ ํตํฉํ ์ต์ด ์๋
- ํด๋จธ๋
ธ์ด๋ HRI์์ VLM+RAG ํ์ดํ๋ผ์ธ์ ์ ์ฉํ ์ฒซ ๋ฒ์งธ ๊ตฌ์ฒด์ ๊ตฌํ
- ์์
๊ณผ ์ธ๊ฐ ๊ทผ์ ์ฑ ๋งฅ๋ฝ์์ ๋์ ์คํฐํ๋์ค, ๋ํ, ์๋ ์กฐ์ ์ ์๋ก์ด ์ ๊ทผ
- ๊ถค์ ์์ฑ ๋ฐฉ์๊ณผ ๋ฌด๊ดํ๊ฒ ์๋ํ๋ ๋ฒ์ฉ compliance layer ๊ฐ๋ฐ
Limitation & Further Study
- ํ์ฌ ์ถ๋ก ์ง์ฐ์๊ฐ(์ต๋ 1.4์ด)์ผ๋ก ์ธํด ๋งค์ฐ ๋์ ์ธ ํ๊ฒฝ์์ ์ฆ๊ฐ์ ๋์ ์ ํ
- ์๋๋ฆฌ์ค ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๊ท๋ชจ์ ๋ค์์ฑ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์์กด์ฑ
- ์คํ๋ณด๋ ์ฒ๋ฆฌ ํ์๋ก ์ธํ ์ค์๊ฐ์ฑ ์ ์ฝ ๋ฐ ํต์ ์ง์ฐ ์ํ
- ํ
์ด๋ธํ ์์
์ค์ฌ์ ํ๊ฐ๋ก ์ ์ ์ด๋ ์์
์ ๋ํ ๊ฒ์ฆ ๋ถ์กฑ
- ํ์์ฐ๊ตฌ: ์จ๋๋ฐ์ด์ค VLM ์ต์ ํ๋ก ์ง์ฐ์๊ฐ ๊ฐ์, ๋ ํฌ๊ด์ ์ธ ์๋๋ฆฌ์ค ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ตฌ์ถ, ๋์ ํ๊ฒฝ์์์ ์ค์๊ฐ ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: SafeHumanoid๋ ์๋ฏธ๋ก ์ ์ถ๋ก ๊ณผ ์ํผ๋์ค ์ ์ด์ ํ์ ์ ๊ฒฐํฉ์ผ๋ก ์ธ๊ฐ-๋ก๋ด ํ๋ ฅ์ ์์ ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ ์ ์์ด์ง๋ง, ์ถ๋ก ์ง์ฐ์๊ฐ๊ณผ ์ค์๊ฐ์ฑ์ ์ค์ ๋ฐฐํฌ๋ฅผ ์ํด ํด๊ฒฐํด์ผ ํ ์ฃผ์ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์