A Survey of Embodied Learning for Object-Centric Robotic Manipulation
์ ์: Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang, Lap-Pui Chau | ๋ ์ง: 2024-08-21 | URL: https://arxiv.org/abs/2408.11537 📄 PDF
Essence
Fig. 1. An illustration of robotic manipulation system (left) and the typology of embodied learning methods for object-c
๋ณธ ๋
ผ๋ฌธ์ object-centric robotic manipulation์ ์ํ embodied learning์ ์ต์ ๋ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ๋ฉฐ, embodied perceptual learning, embodied policy learning, embodied task-oriented learning์ ์ธ ๊ฐ์ง ์ฃผ์ ๋ถ์ผ๋ก ๋ถ๋ฅํ์ฌ ์ข
ํฉ์ ์ธ ์๋ฒ ์ด๋ฅผ ์ ๊ณตํ๋ค.
Motivation
- Known: Deep learning์ ๋ฐ์ ์ผ๋ก computer vision๊ณผ NLP ๋ถ์ผ์์ ํฐ ์ฑ๊ณผ๋ฅผ ์ด๋ฃจ์์ผ๋, ์ ํต์ ์ธ machine learning์ ์ ์ ๋ฐ์ดํฐ์
์ ์์กดํ๋ค. ๋ก๋ด ์กฐ์์ ์ํ ๋ค์ํ embodied learning ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์ด ์๋ค.
- Gap: ๊ธฐ์กด ์๋ฒ ์ด๋ค(ํนํ Cong et al. 2021)์ 3D vision-based ๋ฐฉ๋ฒ์๋ง ๊ตญํ๋์ด ์์ผ๋ฉฐ, 2021๋
์ดํ์ ์ต์ ์ฐ๊ตฌ(LLMs, NeRFs, Diffusion Models, 3D Gaussian Splatting ๋ฑ)๋ฅผ ํฌํจํ์ง ์๋๋ค. ๋ํ policy learning๊ณผ task-oriented learning์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ ์ข
ํฉ ์๋ฒ ์ด๊ฐ ๋ถ์ฌํ๋ค.
- Why: Object-centric robotic manipulation์ ์ฐจ์ธ๋ ์ง๋ฅํ ๋ก๋ด ๊ฐ๋ฐ์ ํ์์ ์ด๋ฉฐ, embodied learning์ ํตํ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ๊ณผ ์ง๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ์ ํ์ต์ ์ ํต์ data-driven ๋ฐฉ์๋ณด๋ค ๋ก๋ด ์กฐ์์ ํนํ ์ ํฉํ๋ค.
- Approach: ๋
ผ๋ฌธ์ robotic manipulation ์์คํ
์ ์ธ ๊ฐ์ง ํต์ฌ ์ง๋ฅ ์ธก๋ฉด(advanced perception, precise policy generation, task-orientation)์ ๋ฐ๋ผ embodied learning ๋ฐฉ๋ฒ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ๊ณ , ์ต์ ๋ฅ๋ฌ๋ ๊ธฐ์ ๋ค์ ์์ฉ์ ํฌํจํ์ฌ ์ข
ํฉ์ ์ผ๋ก ๊ฒํ ํ๋ค.
Achievement
Fig. 1. An illustration of robotic manipulation system (left) and the typology of embodied learning methods for object-c
- ์ฒด๊ณ์ ๋ถ๋ฅ์ฒด๊ณ: Embodied learning์ 3๊ฐ ์ฃผ์ ๋ถ์ผ(perceptual, policy, task-oriented)์ 7๊ฐ ์ธ๋ถ ๋ฐฉํฅ(data representation, pose estimation, affordance learning, policy representation, policy learning, object grasping, object manipulation)์ผ๋ก ๊ณ์ธต์ ์ผ๋ก ๋ถ๋ฅ
- ์ต์ ๊ธฐ์ ํฌํจ: LLMs, NeRFs, Diffusion Models, 3D Gaussian Splatting ๋ฑ 2021๋
์ดํ์ ์ต์ AI ๊ธฐ์ ์ robotic manipulation์ ์ ์ฉํ ์ฐ๊ตฌ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌ
- ๋ค์ํ ๋ฐ์ดํฐ ํํ ๋ฐฉ์: Image-based, 3D-aware, tactile-based ์ธ ๊ฐ์ง representation ๋ฐฉ์์ ํฌ๊ด์ ์ผ๋ก ๋ค๋ฃจ๊ณ ๋น๊ต
- ํฌ๊ด์ ์๋ฃ ์ ๊ณต: Public datasets, evaluation metrics, representative applications, current challenges, future research directions์ ๋ชจ๋ ํฌํจํ๋ ์์ ํ ์๋ฒ ์ด ์ ๊ณต
- ์์ ์ฐ๊ตฌ์์ ๋น๊ต: ๊ธฐ์กด 41๊ฐ ๊ด๋ จ ์๋ฒ ์ด์์ ์ฐจ์ด์ ์ ๋ช
ํํ ํ๊ณ ๋ณธ ๋
ผ๋ฌธ์ ์ฐ์์ฑ ์
์ฆ
How
Fig. 1. An illustration of robotic manipulation system (left) and the typology of embodied learning methods for object-c
- Object-centric robotic manipulation์ ์์คํ
์ํคํ
์ฒ๋ฅผ ๋ก๋ด ์, ์ผ์, ๋ง๋จ ์ฅ์น(๊ทธ๋ฆฌํผ)๋ก ๊ตฌ์ฑํ์ฌ ์ค๋ช
- Embodied perceptual learning์์ image-based representation, 3D-aware representation(NeRF, 3D Gaussian Splatting ํฌํจ), tactile-based representation ๋ฐฉ์๋ค์ ๊ฒํ
- Object pose estimation์ instance-level, category-level, novel object ์ธ ๊ฐ์ง ์์ค์ผ๋ก ๊ตฌ๋ถํ์ฌ ๋ถ์
- Affordance learning์ supervised learning๊ณผ interaction-based learning์ผ๋ก ๋ถ๋ฅํ์ฌ ์ ๋ฆฌ
- Policy learning์ explicit policy, implicit policy, diffusion policy๋ก ๋ถ๋ฅ
- Policy learning ๋ฐฉ๋ฒ์ reinforcement learning, imitation learning ๋ฐ ๊ธฐํ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ๋ถ
- Task-oriented learning์ single-object grasping, multi-object grasping, non-dexterous manipulation, dexterous manipulation์ผ๋ก ์ธ๋ถํ
- ๊ฐ ์ธ๋ถ ๋ถ์ผ์ ๋ํด ๋ํ ๋
ผ๋ฌธ๋ค์ ์์ง, ๋ถ๋ฅํ๊ณ ๋ฐฉ๋ฒ๋ก , ์ฑ๋ฅ, ํ๊ณ๋ฅผ ๋น๊ต ๋ถ์
Originality
- ๊ธฐ์กด Cong et al. (2021)์ 3D vision-centric ์ ๊ทผ์ ๋ฒ์ด๋ image, 3D-aware, tactile ์ธ ๊ฐ์ง representation ๋ฐฉ์์ ๊ท ํ์๊ฒ ๋ค๋ฃฌ ์
- ์ต์ generative models(Diffusion Models), foundation models(LLMs), novel 3D representation(3D Gaussian Splatting) ๋ฑ์ robotic manipulation ๋งฅ๋ฝ์์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์
- Policy learning๊ณผ task-oriented learning์ perceptual learning๊ณผ ๋๋ฑํ ์์ค์ ์ฃผ์ ๋ถ์ผ๋ก ๊ฒฉ์ํ์ฌ embodied learning์ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ํตํฉ์ ์ผ๋ก ์ ์ํ ์
- Object-centric manipulation์ด๋ผ๋ ๋ช
ํํ ์ด์ ์ผ๋ก navigation, planning ๋ฑ ๋ค๋ฅธ embodied AI ๋ถ์ผ์ ๊ตฌ๋ถํ๊ณ ์ง์ค๋๋ฅผ ๋์ธ ์
Limitation & Further Study
- 2024๋
8์ ํ๋ฆฌํ๋ฆฐํธ ๊ธฐ์ค์ด๋ฏ๋ก ๊ทธ ์ดํ์ ์ต์ ๋ฐ์ (์: multimodal LLMs์ ๊ธ์ํ ๋ฐ์ )์ ์์ ํ ํฌํจํ์ง ๋ชปํ ์ ์์
- Real-world deployment์ ์ฑ๊ณต๋ฅ , ๊ฐ๊ฑด์ฑ, ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ํ ์ ๋์ ๋น๊ต๊ฐ ์ถฉ๋ถํ์ง ์์ ์ ์์
- Sim-to-real transfer์ ์ฑ๋ฅ ๊ฒฉ์ฐจ์ ํด๊ฒฐ ๋ฐฉ์์ ๋ํ ์ฌ์ธต ๋ถ์์ด ํ์ํจ
- ๋ค์ค ๋ชจ๋ฌ(vision + tactile + force feedback) ํตํฉ ํ์ต์ ์ต์ ๋ฐฉ๋ฒ์ ๋ํ ํฉ์๊ฐ ๋ถ์ฌํจ
- ํ์ ์ฐ๊ตฌ๋ (1) foundation models์ robot manipulation ์ ์ฉ, (2) ๋ณต์กํ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ ์๋๋ฆฌ์ค, (3) ์ค์๊ฐ ์ ์ฝ ํ๊ฒฝ์์์ ํจ์จ์ ํ์ต ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ ์ง์คํ ํ์๊ฐ ์์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ object-centric robotic manipulation์ ์ํ embodied learning์ ์ต์ ๋ํฅ์ ์ฒด๊ณ์ ์ด๊ณ ํฌ๊ด์ ์ผ๋ก ์ ๋ฆฌํ ์ฐ์ํ ์๋ฒ ์ด์ด๋ฉฐ, ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ ์ต์ generative/foundation models์ ํฌํจํ๊ณ perception-policy-task์ ํตํฉ์ ๊ด์ ์ ์ ์ํจ์ผ๋ก์จ ๋ก๋ด ์กฐ์ ๋ถ์ผ ์ฐ๊ตฌ์๋ค์๊ฒ ๋งค์ฐ ์ ์ฉํ ์ฐธ๊ณ ์๋ฃ๊ฐ ๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์