SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation
์ ์: Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu | ๋ ์ง: 2024-09-26 | URL: https://arxiv.org/abs/2409.18082 📄 PDF
Essence
Fig. 2.
๋ณธ ๋
ผ๋ฌธ์ Vision-Language Model(VLM)์ ํ์ฉํ State-aware Keypoint Trajectories(SKT)๋ฅผ ์ ์ํ์ฌ ๋ค์ํ ์๋ฅ ์ํ์์ ๋ก๋ด์ ์๋ฅ ์กฐ์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ์
์ ํตํด ๋จ์ผ ๋ชจ๋ธ๋ก ์ฌ๋ฌ ์๋ฅ ์ ํ์ ์ฒ๋ฆฌํ ์ ์๋ ํตํฉ ์ ๊ทผ๋ฒ์ ๊ตฌํํ๋ค.
Motivation
- Known: ๊ธฐ์กด์ ์๋ฅ ์กฐ์ ์ฐ๊ตฌ๋ ์๋ฅ์ ๋ณํ ๊ฐ๋ฅ์ฑ๊ณผ ๋ค์์ฑ์ผ๋ก ์ธํด ์๋ฅ ์ ํ๋ณ ๋ณ๋ ๋ชจ๋ธ์ด ํ์ํ์ผ๋ฉฐ, 3D ๋ฐ์ดํฐ์ ํด๋์ค๋ณ ํคํฌ์ธํธ ์ธ์ ๋ชจ๋ธ์ ์์กดํ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ๋ ๋ก๋ด ์๋ฅ ์กฐ์์์ ํ์ฐ๋๊ณ ์์ง๋ง ๊ณ ํ์ง 3D ์์ฐ ์์ฑ๊ณผ ์๋ฏธ๋ก ์ ์ฃผ์์ด ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํ๋ฉด ์๋ฅ์ ์ต์ ํ๋์ด ์ฃผ๋ฆ์ง ๋๋ ์ ํ ์๋ฅ ์ํ์์ ์ฑ๋ฅ์ด ์ ํ๋๋ฉฐ, ๋ค์ํ ์๋ฅ ์ํ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๋ค. ์๊ฐ ์ ๋ณด๋ง์ผ๋ก๋ ์๋ฅ์ ํ์ฌ ์ํ์ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ํด์ํ๋ ๋ฐ ๋ถ์กฑํ๋ค.
- Why: ๊ฐ์ ์๋ํ์ ๋
ธ์ธ ๋๋ด ๋ก๋ด ๋ฑ assistive robotics์์ ์๋ฅ ์กฐ์์ ์ผ์์ ์์
์ผ๋ก ์ค์ํ๋ฉฐ, ๋จ์ผ ๋ชจ๋ธ๋ก ๋ค์ํ ์๋ฅ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ํ์ฅ์ฑ ์๋ ์๋ฃจ์
์ด ํ์ํ๋ค. VLM์ ํตํ ์๊ฐ-์ธ์ด ํตํฉ์ ์๋ฅ์ ๋ณต์กํ ๋ณํ ์ํ๋ฅผ ๋ ์ ์ดํดํ ์ ์๊ฒ ํ๋ค.
- Approach: VLM์ ๋ฏธ์ธ์กฐ์ ํ์ฌ ์ํ ์ธ์ paired keypoint๋ฅผ ์์ธกํ๋ SKT ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ๊ณ , ๊ณ ๊ธ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํด ํ๋ฉด, ๋ณํ, ์ ํ ์ํ๋ฅผ ํฌํจํ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์
์ ์์ฑํ๋ค. ์๊ฐ ํน์ง๊ณผ ์ธ์ด ๊ธฐ๋ฐ ์ง์๋ฅผ ๊ฒฐํฉํ์ฌ reasoning-based vision-language ์์
์ ์ํํ๋ค.
Achievement
Fig. 1.
- ํตํฉ paired keypoint trajectories ๊ณต์ํ: ์๊ฐ ์ ๋ณด์ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ๋ค์ํ ์๋ฅ ์ํ์ ์ ์ํ ์ ์๋ VLM ๊ธฐ๋ฐ ํตํฉ ์ ๊ทผ๋ฒ ์ ์
- ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์
๊ตฌ์ถ: ๋ค์ํ ์๋ฅ ์ํ๋ฅผ ํฌํจํ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง ๋ถ๋ด์ ์ ๊ฑฐํ๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์
- Reasoning ๊ธฐ๋ฐ VLM ์์
: ์๋ฅ ์ํ๋ฅผ ์ถ๋ก ํ์ฌ ํคํฌ์ธํธ๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ ๋ฅ๋ ฅ์ผ๋ก ์ ํ์ฑ๊ณผ ์ ์์ฑ ๊ฐ์
- ์ฑ๋ฅ ํฅ์: ์ ์ ๋ฐฉ๋ฒ์ด ํคํฌ์ธํธ ๊ฐ์ง ์ ํ๋์ ์์
์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์ํด์ ์คํ์ผ๋ก ์
์ฆ
How
Fig. 2.
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ๋ ๋๋ง ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ํ๋ฉด, ๋ณํ, ์ ํ ์ํ์ ๋ค์ํ ์๋ฅ ๊ตฌ์ฑ์ ํฌํจํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ
- RGB ์ด๋ฏธ์ง๋ฅผ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๊น์ด ์ด๋ฏธ์ง๋ณด๋ค ํ๋ถํ ์๊ฐ ์ ๋ณด(ํจํด, ์๊ธฐ ๋ฑ) ํ์ฉ
- VLM์ ํ์ธํ๋ํ์ฌ ์๊ฐ ํน์ง๊ณผ ์๋ฅ ๋ถ์, ์กฐ์ ์์
์ ๋ํ ์ธ์ด ์ค๋ช
์ ํจ๊ป ์ฒ๋ฆฌ
- Paired keypoint trajectories๋ฅผ ์ํ ์ธ์์ ์ผ๋ก ์์ฑํ์ฌ ์๋ฅ์ ํ์ฌ ์ํ์ ๋ฐ๋ผ ์ ์ ํ ํคํฌ์ธํธ ์ถ๋ ฅ
- Action decoder๋ฅผ ํตํด ํคํฌ์ธํธ ์์ธก์์ ๋ก๋ด ์กฐ์ ํ๋ ์ํ์ค๋ก ๋ณํ
- Reasoning-based ์ ๊ทผ์ผ๋ก ๋ถ๋ถ์ ์ผ๋ก ์ ํ๊ฑฐ๋ ๋ณํ๋ ์๋ฅ์์ ๊ด๋ จ ํคํฌ์ธํธ๋ฅผ ์ถ๋ก ํ์ฌ ์กฐ์
Originality
- VLM์ ์๋ฅ ์กฐ์์ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ์ฌ ์๊ฐ-์ธ์ด ํตํฉ์ ํตํ ์ํ ์ธ์ ํคํฌ์ธํธ ์์ธก ์ ์
- State-aware paired keypoint trajectories๋ผ๋ ์๋ก์ด ํํ ๋ฐฉ์์ผ๋ก ๋ค์ํ ์๋ฅ ์ํ๋ฅผ ํตํฉ ์ฒ๋ฆฌ
- ์๋ฅ ์กฐ์ ๋ถ์ผ์์ reasoning-based vision-language ์์
์ ๋์
ํ์ฌ ๋์ ์ ์ ๋ฅ๋ ฅ ์ถ๊ฐ
- ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํตํ ํ์ฅ ๊ฐ๋ฅํ ํ์ต ํ์ดํ๋ผ์ธ์ผ๋ก ์ค์ธ๊ณ ์ฃผ์์ ๋ถ๋ด ์ ๊ฑฐ
Limitation & Further Study
- ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์ ์๋ฅ ๊ฐ์ ๋๋ฉ์ธ ๊ฐญ์ด ์กด์ฌํ ์ ์์ผ๋ฉฐ, ์ค์ธ๊ณ ์ฑ๋ฅ ๊ฒ์ฆ์ด ์ ํ์ ์ผ๋ก ์ ์๋จ
- VLM์ ๊ณ์ฐ ๋น์ฉ๊ณผ ์ถ๋ก ์๋์ ๋ํ ์์ธํ ๋ถ์์ด ๋ถ์กฑํจ
- ํน์ ์๋ฅ ์ ํ(์: ์ ์ถ์ฑ ๋์ ์๋ฅ, ํน์ ์ฌ์ง)์ ๋ํ ์ฑ๋ฅ์ด๋ ์คํจ ์ฌ๋ก ๋ถ์์ด ๋ฏธํกํจ
- ๋ค๋ฅธ ๋ณํ ๊ฐ์ฒด(๋กํ, ์ผ์ด๋ธ ๋ฑ) ์กฐ์ ์์
์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋
ผ์ ํ์
- ํ์ ์ฐ๊ตฌ์์๋ ์ค์๊ฐ ์ ์ ํ์ต(online learning) ๋ฉ์ปค๋์ฆ ์ถ๊ฐ์ ์ค๋ฌผ ๋ก๋ด ์์คํ
๊ณผ์ ํตํฉ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ VLM์ ์๋ฅ ์กฐ์์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ์ฌ ๋จ์ผ ๋ชจ๋ธ๋ก ๋ค์ํ ์๋ฅ ์ํ๋ฅผ ์ฒ๋ฆฌํ๋ ํ์ ์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ ํ์ฉ๊ณผ reasoning ๊ธฐ๋ฐ ์ค๊ณ๋ก ํ์ฅ์ฑ๊ณผ ์ ์์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ์ฌ assistive robotics ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์