BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities
์ ์: Yunfan Jiang, Ruohan Zhang, Josiah Wong, Chen Wang, Yanjie Ze, Hang Yin, Cem Gokmen, Shuran Song, Jiajun Wu, Li Fei-Fei | ๋ ์ง: 2025-03-07 | URL: https://arxiv.org/abs/2503.05652 📄 PDF
Essence
Figure 1: Everyday household activities enabled by BEHAVIOR ROBOT SUITE (BRS), show-
BEHAVIOR Robot Suite (BRS)๋ ๊ฐ์ ์ฉ ์ผ์ ์์
์ ์ํํ๊ธฐ ์ํ ์ํ ํ๋ ฅ, ์์ ์ ๋ค๋น๊ฒ์ด์
, ๊ด๋ฒ์ํ ๋ง๋จ ์ฅ์น ๋๋ฌ์ฑ์ ๊ฐ์ถ ์ ์ ์กฐ์ ๋ก๋ด์ ์ํ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. JoyLo ์๊ฒฉ ์กฐ์ ์ธํฐํ์ด์ค์ WB-VIMA ์๊ฐ์ด๋ ์ ์ฑ
ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ค์ธ๊ณ ๊ฐ์ ์์
์ํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: Mobile ALOHA, TidyBot++ ๋ฑ์ ๊ธฐ์กด ๊ฐ์ ์ฉ ๋ก๋ด ์์คํ
๋ค์ด ์์ผ๋, ๋๋ถ๋ถ ์ํ ํ๋ ฅ, ๋ค๋น๊ฒ์ด์
, ๋๋ฌ์ฑ, ์๊ฒฉ ์กฐ์ ์ธํฐํ์ด์ค, ๋๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ ์ธก๋ฉด์์ ์ ์ฝ์ ๊ฐ๊ณ ์๋ค. BEHAVIOR-1K ๋ฒค์น๋งํฌ ๋ถ์์ ํตํด ๊ฐ์ ์์
์ ์ฑ๊ณต์ ํ์ํ ํต์ฌ ์ญ๋๋ค์ด ๊ท๋ช
๋์ด ์๋ค.
- Gap: ๊ธฐ์กด ์์คํ
๋ค์ ์ ์ ์กฐ์(ํ, ๋ชธํต, ๋ชจ๋ฐ์ผ ๋ฒ ์ด์ค์ ๋์ ์ ์ด)์ ํตํฉ์ ์ผ๋ก ๋ค๋ฃจ์ง ๋ชปํ๋ฉฐ, ๋น์ฉ ํจ์จ์ ์ด๋ฉด์๋ ์ง๊ด์ ์ธ ์๊ฒฉ ์กฐ์ ์ธํฐํ์ด์ค์ ๋ถ์กฑ๊ณผ ์ ์ ๋์์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ถ์ฌ๊ฐ ์๋ค.
- Why: ๊ฐ์ ์ฉ ์ผ์ ์์
์ ๋ค์ํ ๋์ด(0.09m, 0.49m, 0.94m, 1.43m)์ ๋ฌผ์ฒด ์ํธ์์ฉ, ์ฅ๊ฑฐ๋ฆฌ ๋ค๋น๊ฒ์ด์
, ํ๊ณก ๊ณต๊ฐ ์์
๋ฑ์ ์๊ตฌํ๋ฏ๋ก ์ง์ ํ ์๋ฏธ์ ์ ์ ์กฐ์ ๋ฅ๋ ฅ์ด ํ์์ ์ด๋ค. ์ด๋ ๋ก๋ด์ด ์ค์ ๊ฐ์ ํ๊ฒฝ์์ ์ ์ฉํ ๋ณด์กฐ ์ญํ ์ ์ํํ๊ธฐ ์ํด ์ค์ํ๋ค.
- Approach: JoyLo๋ Nintendo Joy-Con ์ปจํธ๋กค๋ฌ๋ฅผ ์ฅ์ฐฉํ ์ ๋น์ฉ ์ด๋ํ ์๋ฅ์ด ํ์ ์ด์ฉํด ์ง๊ด์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์๊ฒฉ ์กฐ์์ ๊ตฌํํ๋ค. WB-VIMA๋ Point-Cloud, Proprioceptive, Action ํ ํฐ์ ํ์ฉํ์ฌ Visuomotor Attention ๋ฉ์ปค๋์ฆ์ผ๋ก ๋ค์ค ๋ชจ๋ฌ ๊ด์ธก์ ๋์ ์ผ๋ก ํตํฉํ๊ณ ์ํ(14 DoF), ๋ชธํต(4 DoF), ๋ชจ๋ฐ์ผ ๋ฒ ์ด์ค(3 DoF)๋ฅผ ์๋ํ๊ท์ ์ผ๋ก ๋์ฝ๋ฉํ๋ค.
Achievement
Figure 1: Everyday household activities enabled by BEHAVIOR ROBOT SUITE (BRS), show-
- JoyLo ์ค๊ณ: ์ปดํฉํธํ๊ณ ์ ๋น์ฉ($500-$1000 ๋ฏธ๋ง)์ ์๊ฒฉ ์กฐ์ ์ธํฐํ์ด์ค๋ก, ์ํ, ๋ชธํต(์์ถ/๊ณจ๋ฐ), ๋ชจ๋ฐ์ผ ๋ฒ ์ด์ค๋ฅผ ๋จ์ผ ์คํผ๋ ์ดํฐ๊ฐ ๋์ ์ ์ด ๊ฐ๋ฅํ๋ฉฐ ์๋ฐฉํฅ ํผ๋๋ฐฑ์ ํตํด ์์ฐ์ค๋ฌ์ด ์กฐ์ ๊ฒฝํ ์ ๊ณต
- WB-VIMA ์๊ณ ๋ฆฌ์ฆ: ๊ณ์ธต์ ์ ์ฒด ๊ณต๊ฐ ์ํธ ์์กด์ฑ์ ํ์ฉํ ์๋ํ๊ท ์ ์ ๋์ ์์ธก์ผ๋ก 21 DoF ์ ์ฒด ์ ์ฒด ์ ์ด ๋ชจ๋ธ๋ง
- ์ค์ธ๊ณ ์ฑ๋ฅ: 5๊ฐ์ง ๊ฐ์ ์ฉ ์์
์์ ๋จ๊ธฐ ๋ถ๋ถ ์์
88% ์ฑ๊ณต๋ฅ , ์ฅ๊ธฐ ์ ์ฒด ์์
์ต๋ 93% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ํฌ๊ด์ ํ๋์จ์ด-์ํํธ์จ์ด ํตํฉ: ์ด์ ์์คํ
๋ค๊ณผ ๋ฌ๋ฆฌ ํ๋์จ์ด(dual-arm, 4-DoF torso, omnidirectional base), ์๊ฒฉ ์กฐ์, ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์์ ํ ์คํ์์คํ
How
- BEHAVIOR-1K ๋ฒค์น๋งํฌ๋ก๋ถํฐ 1,000๊ฐ ๊ฐ์ ์์
๋ถ์ํ์ฌ ๋ฌผ์ฒด ๋์ด ๋ถํฌ์ ๋ค์ค ๋ชจ๋ ํน์ฑ ํ์
(Fig. 2)
- JoyLo์ Puppeteering ์ ๊ทผ๋ฒ: Joy-Con ์ข์ธก ์คํฑ(๋ชจ๋ฐ์ผ ๋ฒ ์ด์ค ์๋), ์ฐ์ธก ์คํฑ(ํ๋ฆฌ/๊ณจ๋ฐ), ๋ฐฉํฅํค(๋ชธํต ๋์ด), ํธ๋ฆฌ๊ฑฐ(๊ทธ๋ฆฌํผ) ์ ์ด
- JoyLo ํ์ ์ด๋ํ ์ ์ฝ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋๋ ๋ฐฐํฌ ๋ถ๊ฐ๋ฅํ ๋์ ์๋ ์ฐจ๋จ
- ์๋ฐฉํฅ ํผ๋๋ฐฑ: ํ ํฌ ฯ = Kp(qrobot - qJoyLo) + Kd(qฬrobot - qฬJoyLo) - K ์์ผ๋ก ๋ก๋ด ์ํ๋ฅผ JoyLo ํ์ ๋ฐ์
- WB-VIMA ์ํคํ
์ฒ: Point-Cloud, Proprioceptive ํ ํฐ์ ์๊ธฐ-์ฃผ์(self-attention) ๊ธฐ๋ฐ ํตํฉ ํ, ์ธ ๊ฐ์ ๋
๋ฆฝ ๋์ฝ๋๋ก ๊ฐ ์ ์ฒด ๋ถ์์ ๋์ ์๋ํ๊ท ์์ฑ (Fig. 4)
- ์ ๊ตฐ(colored point cloud) ๊ธฐ๋ฐ ์๊ฐ ๊ด์ธก๊ณผ ์ํ/๋ชธํต/๋ฒ ์ด์ค ์ํ์ ์๊ธฐ ์์ฉ ์ ๋ณด ํ์ฉ
- Transformer ๋ฐฑ๋ณธ ์ํคํ
์ฒ ๊ธฐ๋ฐ ์ ์ฑ
๋ชจ๋ธ
Originality
- JoyLo์ ์ค๊ณ ํ์ : Nintendo Joy-Con์ ์ปดํฉํธํจ๊ณผ ๋ค์ค ๊ธฐ๋ฅ์ฑ์ ํ์ฉํ์ฌ ์ง์ ํ ๋จ์ผ ์คํผ๋ ์ดํฐ ์๋ฐฉํฅ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์ ์ ์๊ฒฉ ์กฐ์์ ์ ๋น์ฉ์ผ๋ก ๋ฌ์ฑ
- ๊ณ์ธต์ ์ ์ฒด ๊ณต๊ฐ ๊ธฐ๋ฐ ์๋ํ๊ท ๋์ฝ๋ฉ: ์ํโ๋ชธํตโ๋ฒ ์ด์ค ๋๋ ๋ค๋ฅธ ์์๋ก์ ๋์ ์์ฑ ์ ์ ์ฒด ๋ถ์ ๊ฐ ๊ณ์ธต์ ์์กด์ฑ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋ง
- ํฌ๊ด์ ๋ฒค์น๋งํน ์ ๊ทผ: ๊ธฐ์กด ํ๋ ์์ํฌ ๋น๊ตํ์์ BRS๊ฐ ์ฒ์์ผ๋ก ํ๋์จ์ด, ์๊ฒฉ ์กฐ์, ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ ์คํ์์คํํ๋ฉด์ ์ ์ ์ ์ด์ ๋ชจ๋ ์ธก๋ฉด์ ๋ค๋ฃธ
- ์ ์ฑ์ ๋ฐ์ดํฐ ๋ถ์: BEHAVIOR-1K๋ก๋ถํฐ ๋ฌผ์ฒด ๋์ด ๋ถํฌ์ ๋ค์ค ๋ชจ๋ ๊ตฌ์กฐ๋ฅผ ๋์ถํ์ฌ ๋ก๋ด ๋๋ฌ์ฑ ์ค๊ณ์ ์ ๋น์ฑ ์ ์
Limitation & Further Study
- ์ผ๋ฐํ ํ๊ณ: ํ๊ฐ๊ฐ 5๊ฐ์ง ๊ตฌ์ฒด์ ๊ฐ์ ์์
์๋ง ์ ํ๋์ด ๋ค์ํ ํ๊ฒฝ/์๋๋ฆฌ์ค์์์ ์ฑ๋ฅ ๋ณดํธ์ฑ ๋ฏธ์ค์ฆ
- ํ๋์จ์ด ํนํ์ฑ: JoyLo ์ค๊ณ๊ฐ Galaxea R1 ๋ก๋ด์ ๋ง์ถฐ์ ธ ์์ด ๋ค๋ฅธ ๋ชจ๋ฐ์ผ ์กฐ์ ํ๋ซํผ์ผ๋ก์ ์ง์ ์ด์ ์ฑ ๋ถ๋ช
ํ
- ์ฑ๊ณต๋ฅ ๋ถ์ ๋ถ์ฌ: ์คํจ ์ฌ๋ก์ ์ ์ฑ์ ๋ถ์์ด๋ ์คํจ ํจํด ๋ถ๋ฅ ๋ฏธ์ ์๋ก ํ๊ณ ์ดํด ๋ถ์กฑ
- ๋น๊ต ์คํ ์ ํ: ๊ธฐ์กด ์๊ฒฉ ์กฐ์ ๋ฐฉ์(motion retargeting, kinesthetic teaching ๋ฑ)๊ณผ์ ์ ๋์ ๋น๊ต ์คํ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ JoyLo ์์น ์ ์ฉ ๋ฐ ์ ์์ฑ ๊ฒ์ฆ, (2) ๋ ๋ณต์กํ ์ฅ๊ธฐ ์ํ์ค ์์
์ ๋ํ WB-VIMA์ ํ์ฅ์ฑ ํ๊ฐ, (3) ์๋ฎฌ๋ ์ด์
-ํ์ค ์ ์ด(sim-to-real) ํ์ต๊ณผ์ ํตํฉ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: BEHAVIOR Robot Suite๋ ๊ฐ์ ์ฉ ์ผ์ ์์
์ ์ํ ์ ์ ์กฐ์ ๋ก๋ด์ ์์ ํ ์ํ๊ณ๋ฅผ ์ ์ํ๋ ํฌ๊ด์ ์ฐ๊ตฌ๋ก, JoyLo์ ์ฐฝ์์ ์ธ ์ ๋น์ฉ ์ค๊ณ์ WB-VIMA์ ๊ณ์ธต์ ์๋ํ๊ท ์ ์ฑ
ํ์ต์ด ๊ฒฐํฉ๋์ด ์ค์ธ๊ณ ๊ฐ์ ๋ก๋ด์ ์ค์ง์ ์ง์ ์ ์ด๋ฃฌ๋ค. ํนํ ํ๋์จ์ด, ๋ฐ์ดํฐ ์์ง, ์๊ณ ๋ฆฌ์ฆ์ ์์ ํ ์คํ์์คํํจ์ผ๋ก์จ ์ปค๋ฎค๋ํฐ ํ์ฐ ๊ฐ๋ฅ์ฑ์ด ๋์ผ๋ฉฐ, ๋ค์ค ๋๋ฉ์ธ์ ์ฒด๊ณ์ ํตํฉ์ ํตํด ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์