EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning
์ ์: Peide Huang, Yuhan Hu, Nataliya Nechyporenko, Daehwa Kim, Walter Talbott, Jian Zhang | ๋ ์ง: 2024-10-30 | URL: https://arxiv.org/abs/2410.23234 📄 PDF
Essence
Fig. 1. Overview of the EMOTION framework.
EMOTION์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ฌธ๋งฅ ํ์ต ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ด ํ์ , ์ ์ค์ฒ, ์ ์ฒด ์์ง์ ๋ฑ ์์ฐ์ค๋ฌ์ด ๋น์ธ์ด์ ์์ฌ์ํต์ ์ํํ ์ ์๋๋ก ํ๋ ํ๋ ์์ํฌ์ด๋ค. ์จ๋ผ์ธ ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ํตํด ์์ฑ๋ ๋ชจ์
์ด ์ธ๊ฐ ์ํ์์ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํจ์ ์
์ฆํ๋ค.
Motivation
- Known: ๋ก๋ด์ ํํ์ ํ๋์ด ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ๊ฐ์ ํ ์ ์์ผ๋ฉฐ, ์ ํต์ ์ผ๋ก ์์์
์ผ๋ก ์ ์๋ ๋ชจ์
์ํ์ค๋ ์ฌ์ ๋
น์๋ ๊ถค์ ์ ์์กดํ๋ ๋ฐฉ๋ฒ์ด ์ฌ์ฉ๋์ด ์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ธ๊ฐ ๋น์ธ์ด ์์ฌ์ํต์ ๋ค์์ฑ๊ณผ ๋ฏธ๋ฌํจ์ ์ถฉ๋ถํ ๋ชจ๋ฐฉํ์ง ๋ชปํ๋ฉฐ, ๋ฌดํํ ์์ ๋ค์ํ ์ ์ค์ฒ๋ฅผ ์ํด ์ธ๊ฐ์ด ์ง์ ์์ง๋์ด๋งํ ๋ชจ์
ํ๋ฆฌ๋ฏธํฐ๋ธ๊ฐ ํ์ํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ์์ฐ์ค๋ฌ์ด ์ ์ค์ฒ ์์ฑ์ ์ฌ์ฉ์์ ๋ง์กฑ๋์ ๋ชฐ์
๋๋ฅผ ์ฆ๋์ํค๊ณ , ๋ก๋ด์ ์ฌํ์ ์์ฉ์ฑ์ ๋์ด๋ ๋ฐ ์ค์ํ๋ค.
- Approach: LLM๊ณผ vision-language model์ in-context learning ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ฌํ์ ๋งฅ๋ฝ์์ ํํ์ ๋ชจ์
์ํ์ค๋ฅผ ๋์ ์ผ๋ก ์์ฑํ๋ฉฐ, ์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํด ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ EMOTION++ ๋ฒ์ ๋ ์ ์ํ๋ค.
Achievement
Fig. 1. Overview of the EMOTION framework.
- ์ ์ค์ฒ ์์ฑ ๋ฅ๋ ฅ: 10๊ฐ์ ์๋ก ๋ค๋ฅธ ํํ์ ์ ์ค์ฒ(thumbs-up, wave, stop ๋ฑ)๋ฅผ ์๋์ผ๋ก ์์ฑํ ์ ์์ผ๋ฉฐ, ์ผ๋ถ ์ ์ค์ฒ์์๋ ์ธ๊ฐ ์ํ์๋ณด๋ค ์ฐ์ํ ์์ฐ์ค๋ฌ์๊ณผ ์ดํด๋๋ฅผ ๋ฌ์ฑํ๋ค.
- ์ธ๊ฐ ํผ๋๋ฐฑ ํตํฉ: EMOTION++๊ฐ EMOTION๋ณด๋ค ์์ฐ์ค๋ฌ์๊ณผ ์ดํด๋ ์ธก๋ฉด์์ ์ ์๋ฏธํ๊ฒ ์ฐ์ํจ์ ๋ณด์ฌ์ฃผ์๋ค.
- ์ค๊ณ ์์ฌ์ : ์ ์์น, ์์ง์ ํจํด, ํ๊ณผ ์ด๊นจ ๊ด์ , ์๊ฐ๋ฝ ์์ธ, ์๋ ๋ฑ ๋ก๋ด ์ ์ค์ฒ์ ์ธ๊ฐ ์ง๊ฐ์ ์ํฅ์ ๋ฏธ์น๋ ์ฃผ์ ๋ณ์๋ค์ ์๋ณํ๋ค.
How
Fig. 1. Overview of the EMOTION framework.
- ์ฌ์ฉ์ ์ธ์ด ์ง์, ๋ก๋ด ์ด๋ฏธ์ง ๊ด์ฐฐ์ ์
๋ ฅ์ผ๋ก ๋ฐ์ LLM์ด ์ฐ์๊ฐ ๋ชจ์
์ํ์ค(cartesian position, euler angle, finger state)๋ฅผ ํ
์คํธ๋ก ์์ฑ
- ์์ฑ๋ ๋ชจ์
์ํ์ค์ inverse kinematics๋ฅผ ์ ์ฉํ์ฌ ๋ก๋ด์ ๊ด์ ๋ช
๋ น์ผ๋ก ๋ณํ
- trajectory interpolation๊ณผ trajectory tracking์ ํตํด ๋ก๋ด์์ ์คํ
- ์ธ๊ฐ ํผ๋๋ฐฑ์ด ์ ๊ณต๋๋ฉด LLM์ ํด๋น ํผ๋๋ฐฑ์ ๋ฌธ๋งฅ์ผ๋ก ์ถ๊ฐํ์ฌ ๋ชจ์
์ํ์ค๋ฅผ ๋ฐ๋ณต ๊ฐ์
- skeleton detection, motion retargeting, down-sampling์ ํตํด ์ธ๊ฐ ๋ฐ๋ชจ๋ก๋ถํฐ ๋ชจ์
ํ์ต ์ง์
Originality
- ๊ธฐ์กด์ GenEM๊ณผ ๋ฌ๋ฆฌ, ์ฌ์ ์ ์๋ ๊ณ ์์ค ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์์ด LLM์ด ์ง์ ๋ณต์กํ ์๊ณผ ์๊ฐ๋ฝ ๊ถค์ ์ ์ต์ํ์ ์์ ๋ก ์์ฑํ๋ ์ ์ด ํ์ ์ ์ด๋ค.
- ์กฐ์(manipulation) ๋๋ ์ด๋(locomotion) ์ ์ฑ
์ด ์๋ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ์์ญ์ LLM ๊ธฐ๋ฐ ์ํ์ค ์์ฑ์ ์ ์ฉํ ์ ์ด ์ฐจ๋ณํ๋๋ค.
- ์์ฐ์ธ์ด ์ธ๊ฐ ํผ๋๋ฐฑ์ ์ง์ ์ ์ผ๋ก ๋ชจ์
์ํ์ค ๊ฐ์ ์ ํตํฉํ๋ ๋ฐ๋ณต์ ๊ฐ์ ๋ฐฉ์์ด ์๋กญ๋ค.
Limitation & Further Study
- ํ๊ฐ๋ ์ ์ค์ฒ๊ฐ 10๊ฐ๋ก ์ ํ์ ์ด๋ฉฐ, ์ผ๋ถ ์ ์ค์ฒ(listening, jazz-hands)๋ 3์ ๋ฏธ๋ง์ ๋ฎ์ ํ๊ฐ๋ฅผ ๋ฐ์ ๋ชจ๋ ์ ์ค์ฒ์์ ์ฑ๋ฅ์ด ์ผ์ ํ์ง ์๋ค.
- ์จ๋ผ์ธ ์ฌ์ฉ์ ์ฐ๊ตฌ๋ง ์ํ๋์์ผ๋ฉฐ, ์ค์ ๋ก๋ด-์ธ๊ฐ ์ํธ์์ฉ ์๋๋ฆฌ์ค์์์ ์ฑ๋ฅ ๊ฒ์ฆ์ด ๋ถ์กฑํ๋ค.
- LLM์ ์ถ๋ ฅ์ด ํญ์ ์ ํจํ ๋ชจ์
์ํ์ค๋ฅผ ์์ฑํ๋์ง, ๋๋ ์๋ฌ ์ฒ๋ฆฌ ๋ฉ์ปค๋์ฆ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง ๋ช
ํํ์ง ์๋ค.
- ํ์ ์ฐ๊ตฌ: ๋ ๊ด๋ฒ์ํ ์ ์ค์ฒ ์งํฉ์ ๋ํ ํ๊ฐ, ์ค์ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ํ๊ฒฝ์์์ ์ฅ์๊ฐ ํ๊ฐ, LLM์ ์ ๋ขฐ์ฑ ๋ฐ ์์ ์ฑ ๊ฐ์ , ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: EMOTION์ LLM์ in-context learning์ ์ฐฝ์์ ์ผ๋ก ํ์ฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ ํํ์ ๋ชจ์
์์ฑ์ ์๋ํํ ์ค์ง์ ์๋ฃจ์
์ ์ ์ํ๋ค. ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ํตํ ๊ฒ์ฆ๊ณผ ์ธ๊ฐ ํผ๋๋ฐฑ ํตํฉ ๋ฐฉ์์ ์ค์ฉ์ฑ์ ๋์ด๋, ๋ค์ํ ์ ์ค์ฒ์ ๋ํ ์ฑ๋ฅ ํธ์ฐจ์ ์ค์ ์ํธ์์ฉ ํ๊ฒฝ ํ
์คํธ์ ํ์์ฑ์ด ํฅํ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์