Generative Artificial Intelligence in Robotic Manipulation: A Survey
์ ์: Kun Zhang, Peng Yun, Jun Cen, Junhao Cai, Didi Zhu, Hangjie Yuan, Chao Zhao, Tao Feng, Michael Yu Wang, Qifeng Chen, Jia Pan, Wei Zhang, Bo Yang, Hua Chen | ๋ ์ง: 2025-03-05 | URL: https://arxiv.org/abs/2503.03464 📄 PDF
Essence
Fig. 1. Overview of this survey. Versatile generative models in robotic manipulation.
๋ก๋ด ์กฐ์(robotic manipulation) ๋ถ์ผ์์ ์์ฑํ AI ๋ชจ๋ธ๋ค(GAN, VAE, diffusion model ๋ฑ)์ ์ต๊ทผ ๋ฐ์ ์ ์ข
ํฉ์ ์ผ๋ก ๊ฒํ ํ๋ ์๋ฒ ์ด๋ก, ๋ฐ์ดํฐ ๋ถ์กฑ, ์ฅ๊ธฐ ํ์คํฌ ๊ณํ, ๋ค์ค ๋ชจ๋ ์ถ๋ก ์ด๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ๋์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
- Known: ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ก๋ด ์กฐ์ ๋ฐฉ๋ฒ๋ค(RL, IL)์ด ์ ์ง์ ์ผ๋ก ์ฃผ๋ฅ ๋ฐฉ๋ฒ๋ก ์ด ๋๊ณ ์์ผ๋ฉฐ, generative model๋ค์ด ์ด๋ฏธ์ง ์์ฑ, ๋ณด์ ํจ์ ์์ฑ, ํ๋ ์์ธก ๋ฑ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์๋ค.
- Gap: ๊ฐ๋ณ generative model ํจ๋ฌ๋ค์๋ค(GAN, VAE, diffusion model ๋ฑ)์ด ๋ก๋ด ์กฐ์์ ์ด๋ป๊ฒ ์์ฉ๋๋์ง, ๊ทธ๋ฆฌ๊ณ Foundation Layer์์ Policy Layer๊น์ง ์ด๋ป๊ฒ ๊ณ์ธตํ๋์ด ํ์ฉ๋๋์ง์ ๋ํ ์ฒด๊ณ์ ์ธ ๋ถ๋ฅ์ ์ข
ํฉ ๊ฒํ ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด ์กฐ์์ ์ฐ์
์๋ํ๋ถํฐ ๊ฐ์ ๋ด ๋ณด์กฐ ์์
๊น์ง ์ค์ ์ฌํ์ ์ํฅ์ด ํฐ ๋ถ์ผ์ด๋ฉฐ, ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ๋ณต์กํ ์ฅ๊ธฐ ๊ณํ์ด๋ผ๋ ๊ทผ๋ณธ์ ์ธ ๋ณ๋ชฉ์ ํด๊ฒฐํ๊ธฐ ์ํด์๋ generative model๋ค์ ๋ค์ํ ํ์ฉ ๋ฐฉ๋ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์ดํดํ ํ์๊ฐ ์๋ค.
- Approach: ์ด ์๋ฒ ์ด๋ ๋ค์ฏ ๊ฐ์ง ์ฃผ์ generative model ํจ๋ฌ๋ค์(GAN, VAE, diffusion model, probabilistic flow model, autoregressive model)์ ์๋ณํ๊ณ , ์ด๋ค์ Foundation Layer(๋ฐ์ดํฐ ๋ฐ ๋ณด์ ์์ฑ), Intermediate Layer(์ธ์ด, ์ฝ๋, ์๊ฐ, ์ํ ์์ฑ), Policy Layer(๊ทธ๋์ค ๋ฐ ๊ถค์ ์์ฑ)์ ์ธ ๊ณ์ธต์ผ๋ก ๋ถ๋ฅํ์ฌ ๋ถ์ํ๋ค.
Achievement
Fig. 1. Overview of this survey. Versatile generative models in robotic manipulation.
- ๊ณ์ธต์ ๋ถ๋ฅ ์ฒด๊ณ: generative model์ ๋ก๋ด ์กฐ์ ์์ฉ์ Foundation, Intermediate, Policy ์ธ ๊ณ์ธต์ผ๋ก ์ฒด๊ณํํ์ฌ ๊ฐ ๊ณ์ธต์ ์ญํ ๊ณผ ์ํธ์์ฉ์ ๋ช
ํํ ํจ
- ๋์ ๊ณผ์ ์ฐ๊ณ: ๋ฐ์ดํฐ ๋ถ์กฑ, ์ฅ๊ธฐ ํ์คํฌ ๊ณํ, ๋ค์ค ๋ชจ๋ ์ถ๋ก ์ด๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ๋์ ์ด generative model๋ค์ ํตํด ์ด๋ป๊ฒ ํด๊ฒฐ ๊ฐ๋ฅํ์ง ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช
- ๋ค์ํ ๋ชจ๋ธ ์ปค๋ฒ๋ฆฌ์ง: GAN, VAE, diffusion model, probabilistic flow model, autoregressive model ๋ฑ ํ์ฌ์ ์ฃผ์ generative ํจ๋ฌ๋ค์๋ค์ ๊ฐ์ ๊ณผ ํ๊ณ๋ฅผ ํจ๊ป ์ ์
- State-of-the-art ์์
์์ง: ๊ฐ ๋ถ์ผ์์ ์ต์ ์ฑ๊ณผ๋ฅผ ๋ธ ์ฐ๊ตฌ๋ค์ ์ข
ํฉํ๊ณ , GitHub ๋ฆฌ์์ค(AwesomeGAIManipulation)๋ฅผ ํตํด ์ปค๋ฎค๋ํฐ์ ๊ณต๊ฐ
How
Fig. 1. Overview of this survey. Versatile generative models in robotic manipulation.
- generative model ํจ๋ฌ๋ค์์ ๋ถ๋ฅ: ์์ฑ ๋ฐฉ์์ ๋ฐ๋ผ GAN, VAE, diffusion model, probabilistic flow model, autoregressive model๋ก ๊ตฌ๋ถ
- Foundation Layer ๋ถ์: synthetic image ์์ฑ(Stable Diffusion ๋ฑ)์ผ๋ก ๋ฐ์ดํฐ ๋ถ์กฑ ์ํ, ๋๊ท๋ชจ ์ฌ์ ํ์ต ์ธ์ด ๋ชจ๋ธ๋ก ๋ณด์ ์ ํธ ์์ฑ
- Intermediate Layer ๋ถ์: language generation๊ณผ code generation์ผ๋ก Chain-of-Thought ๊ธฐ๋ฐ ํ์คํฌ ๋ถํด, visual generation์ผ๋ก ๋ฏธ๋ ์ํ ์์ธก, state generation์ผ๋ก ๋์ญํ ํ์ต
- Policy Layer ๋ถ์: diffusion model ๊ธฐ๋ฐ Diffusion Policy๋ก ๊ทธ๋์ค ์์ฑ, trajectory generation์ผ๋ก ๋ณต์กํ ์กฐ์ ๊ฒฝ๋ก ๊ณํ
- ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ฒ๋ฆฌ: ํ๋์ ์ํ์ ๋์ํ๋ ์ฌ๋ฌ valid action/outcome์ ๋ค์์ฑ์ ์์ฑ ๋ชจ๋ธ์ ํ๋ฅ ์ ํน์ฑ์ผ๋ก ํฌ์ฐฉ
Originality
- ๋ก๋ด ์กฐ์์ ํนํ๋ generative model ์๋ฒ ์ด๋ก, ๊ธฐ์กด์ ์ผ๋ฐ์ ์ธ generative model ๋ฆฌ๋ทฐ๋ณด๋ค ๋๋ฉ์ธ ํนํ์ ์ธ ๋ถ์ ์ ๊ณต
- ์ธ ๊ณ์ธต ๊ตฌ์กฐ(Foundation-Intermediate-Policy)๋ผ๋ ์๋ก์ด ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํ์ฌ generative model๋ค์ ์ญํ ์ ์๊ณ์ ์ผ๋ก ์ ๋ฆฌ
- ๋ฐ์ดํฐ ๋ถ์กฑ, ์ฅ๊ธฐ ๊ณํ, ๋ค์ค ๋ชจ๋ ์ถ๋ก ์ด๋ผ๋ ๋ก๋ด ์กฐ์์ ๊ตฌ์ฒด์ ๋์ ๊ณผ์ ์ generative model ์๋ฃจ์
์ ๋ช
์์ ์ผ๋ก ์ฐ๊ฒฐ
- ์ฌ๋ฌ ๋ชจ๋ธ ํจ๋ฌ๋ค์(GAN, VAE, diffusion, flow, autoregressive)์ ๋์ผ ํ๋ ์์ํฌ ๋ด์์ ๋น๊ต ๋ถ์
Limitation & Further Study
- ํ์ฅ ์คํ ๋ฐ์ดํฐ ๋ถ์กฑ: ๋๋ถ๋ถ์ ๋ถ์์ด ๋
ผ๋ฌธ ๊ธฐ๋ฐ ๋ฌธํ ๊ฒํ ์ด๋ฏ๋ก, ์ค์ ๋ก๋ด ์์คํ
์์์ ์ฑ๋ฅ ๋น๊ต ๋ฐ์ดํฐ ๋ถ์กฑ
- ๊ณ์ฐ ํจ์จ์ฑ ๋
ผ์ ๋ฏธํก: generative model๋ค์ ์ถ๋ก ์๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๋ฑ ์ค์๊ฐ ๋ก๋ด ์ ์ด์ ํ์ํ ์ค์ฉ์ ๊ณ ๋ ค์ฌํญ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์ฌ
- ํฌ๋ก์ค ๋ชจ๋ฌ ํตํฉ ๋ฏธ์ฑ์: ์ฌ๋ฌ ๋ชจ๋(vision, language, code, tactile, depth)์ ํจ๊ณผ์ ํตํฉ ๋ฐฉ๋ฒ๋ก ์ด ์์ง ํ๋ฆฝ๋์ง ์์ ์ํ
- ์ผ๋ฐํ ๋ณด์ฆ ๋ถ์กฑ: ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์ ํ๊ฒฝ ๊ฐ domain gap, ์๋ก์ด ๊ฐ์ฒด๋ ํ๊ฒฝ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ณด์ฅ์ด ์์ง ์ถฉ๋ถํ์ง ์์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ฐ์ดํฐ ํจ์จ์ฑ ๊ฐ์ ์ ์ํ few-shot learning ๊ธฐ๋ฒ ๊ฐ๋ฐ, (2) long-horizon task์ ๊ณํ-์คํ ํผ๋๋ฐฑ ๋ฃจํ ๊ฐํ, (3) ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ํ๊ฒฝ์์์ ๊ฒ์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ์๋ฒ ์ด๋ ๋ก๋ด ์กฐ์์ด๋ผ๋ ์ค์ํ ์์ฉ ๋ถ์ผ์์ generative model๋ค์ ์ญํ ์ ์ฒด๊ณ์ ์ผ๋ก ์ข
ํฉํ ํฌ๊ด์ ๋ฆฌ๋ทฐ๋ก, ์ธ ๊ณ์ธต ๋ถ๋ฅ ์ฒด๊ณ์ ๋์ ๊ณผ์ ์ฐ๊ณ๋ฅผ ํตํด ํด๋น ๋ถ์ผ์ ์ข
์ฌ์๋ค์๊ฒ ๋ช
ํํ ๋ก๋๋งต์ ์ ๊ณตํ๋ฉฐ, ๊ทธ๋ํ์ ์๋ฃ๋ฅผ ํตํด ๊ณ ๋์ ๋ช
ํ์ฑ์ ๊ฐ์ถ๋ค. ๋ค๋ง ์ค์ ์์คํ
๊ตฌํ๊ณผ ์ฑ๋ฅ ๋น๊ต, ๊ณ์ฐ ํจ์จ์ฑ ๋ฑ ์ค์ฉ์ ์ธก๋ฉด์ ๋ํ ๊น์ด ์๋ ๋
ผ์๊ฐ ๋ณด์ถฉ๋๋ฉด ๋์ฑ ๊ฐ์น ์์ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์