Unified Human-Scene Interaction via Prompted Chain-of-Contacts
์ ์: Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai, Dahua Lin, Jiangmiao Pang | ๋ ์ง: 2023-09-14 | URL: https://arxiv.org/abs/2309.07918 📄 PDF
Essence
Figure 2: Comprehensive Overview of UniHSI. The entire pipeline comprises two principal com-
UniHSI๋ Large Language Model์ ํ์ฉํ์ฌ ์์ฐ์ด ๋ช
๋ น์ Chain of Contacts (CoC)๋ก ๋ณํํ๊ณ , ํตํฉ ์ปจํธ๋กค๋ฌ๋ฅผ ํตํด ๋ค์ํ ์ธ๊ฐ-์ฅ๋ฉด ์ํธ์์ฉ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ฒ ์ํํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด Human-Scene Interaction ์ฐ๊ตฌ๋ค์ ๋์ ํ์ง๊ณผ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ํฅ์์ ์ด์ ์ ๋ง์ถฐ์์ผ๋ฉฐ, ์ต๊ทผ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ด ๋ฌผ๋ฆฌ ์ ํ์ฑ์ ๋ณด์ฅํ๋ ค ์๋ํ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ ํ๋ ์ํธ์์ฉ๋ง ์ง์ํ๊ฑฐ๋ ๊ฐ ์์
๋ง๋ค ๋ณ๋์ ์ ์ฑ
๋คํธ์ํฌ๊ฐ ํ์ํ๋ฉฐ, ๋๊ท๋ชจ ์ฃผ์ ๋ฐ์ดํฐ๋ฅผ ์๊ตฌํ๊ณ ์ฅ๊ธฐ๊ฐ ์ํธ์์ฉ ์ ํ์ ์ง์ํ์ง ๋ชปํ๋ค.
- Why: embodied AI์ VR ๋ถ์ผ์์ ์ค์ ์ ์ฉ์ ์ํด์๋ ์์ฐ์ด๋ฅผ ํตํ ์ง๊ด์ ์ธ ์ ์ด, ๋ค์ํ ์ํธ์์ฉ์ ํตํฉ ์ฒ๋ฆฌ, ๊ทธ๋ฆฌ๊ณ ์ค์๊ฐ ์ฑ๋ฅ์ด ํ์์ ์ด๋ค.
- Approach: Chain of Contacts๋ผ๋ ์๋ก์ด ์ํธ์์ฉ ํํ ํ์์ ์ ์ํ์ฌ ์ํธ์์ฉ์ ์ธ๊ฐ-๊ฐ์ฒด ์ ์ด ์์ ์์์ด๋ก ๋ชจ๋ธ๋งํ๊ณ , LLM Planner์ Unified Controller๋ผ๋ ๋ ๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก ์์ฐ์ด ๋ช
๋ น์ ์คํ ๊ฐ๋ฅํ ๋์์ผ๋ก ๋ณํํ๋ค.
Achievement
Figure 1: UniHSI facilitates unified and long-horizon control in response to natural language com-
- ํตํฉ ํ๋ ์์ํฌ: ๋จ์ผ ์ปจํธ๋กค๋ฌ๋ก ๋ค์ํ ์ํธ์์ฉ์ ์ฒ๋ฆฌํ๊ณ 15๊ฐ ์ ์ ๊ด์ ์ ์ ์ดํ์ฌ ์ธ๋ฐํ ์ ์ด์ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ์ ์ง์
- ์๋ ๊ณํ ์์ฑ: ์ฃผ์ ์์ด LLM์ ํ์ฉํ ์ํธ์์ฉ ๊ณํ ์์ฑ์ผ๋ก annotation ๋น์ฉ ๋ํญ ์ ๊ฐ
- ์ฅ๊ธฐ ์ ์ด: ๋ค์ค ๋จ๊ณ CoC๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ์ฅ๊ธฐ๊ฐ ์ํธ์์ฉ ์ ํ ๊ฐ๋ฅ
- ์๋ก์ด ๋ฐ์ดํฐ์
: PartNet๊ณผ ScanNet ๊ธฐ๋ฐ ์์ฒ ๊ฐ์ ์ํธ์์ฉ ๊ณํ์ ํฌํจํ ScenePlan ๋ฐ์ดํฐ์
๊ตฌ์ถ
- ์ผ๋ฐํ ์ฑ๋ฅ: ์ค์ ์ค์บ๋ ์ฅ๋ฉด์ ๋ํ ์ข์ ์ผ๋ฐํ ์ฑ๋ฅ ์
์ฆ
How
Figure 3: The Procedure for Translating Language Commands into Chains of Contacts.
- Chain of Contacts (CoC)๋ฅผ S = {S1, S2, ...} ํํ๋ก ์ ์ํ๋, ๊ฐ ๋จ๊ณ Si๋ ์ธ๊ฐ ๊ด์ -๊ฐ์ฒด ๋ถ๋ถ ์์ ์ ์ด์ ํฌํจ
- LLM Planner์์ body joint ์ด๋ฆ, object part layout, ์ฅ๋ฉด ์ ๋ณด๋ฅผ ํฌํจํ prompt engineering์ผ๋ก LLM์ด ์์ฐ์ด๋ฅผ CoC๋ก ๋ณํํ๋๋ก ์ ๋
- TaskParser๊ฐ CoC๋ฅผ ํด์ํ์ฌ joint pose์ object point cloud ์ ๋ณด๋ฅผ ์์งํ ํ ๊ท ์ผํ task observation๊ณผ objective๋ก ๊ตฌ์ฑ
- Adversarial motion prior framework (motion discriminator)๋ฅผ ์ฌ์ฉํ ํ์ค์ ๋์ ํฉ์ฑ ๋ฐ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ํตํ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ๋ณด์ฅ
- TaskParser๊ฐ ํ์ฌ ๋จ๊ณ์ ์๋ฃ๋ฅผ ํ๊ฐํ๊ณ ์์ฐจ์ ์ผ๋ก ๋ค์ ๋จ๊ณ๋ฅผ ๊ฐ์ ธ์ค๋ ๋ฐฉ์์ผ๋ก ์ฅ๊ธฐ๊ฐ ์ํธ์์ฉ ์ ํ ๊ตฌํ
Originality
- CoC ํํ: ์ธ๊ฐ-๊ฐ์ฒด ์ ์ด ์์ญ๊ณผ ์ํธ์์ฉ ์ ํ์ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ํธ์์ฉ์ ์์์ด ์ ์ด ์์ผ๋ก ์ ์ํ๋ ์๋ก์ด ํ์ ์ ์
- LLM ๊ธฐ๋ฐ ๊ณํ: ์ํธ์์ฉ ๊ณํ ์์ฑ์ LLM์ ์ธ๊ณ ์ง์์ ํ์ฉํ์ฌ annotation ์๋ ํ์ต ์คํ
- ํตํฉ ์ปจํธ๋กค๋ฌ: ๋ค์ํ ์ํธ์์ฉ์ ๋จ์ผ ๋ชจ๋ธ์์ ์ฒ๋ฆฌํ๋ฉด์ ์ ์ ๊ด์ ๊ณผ ๋ค์ค ๊ฐ์ฒด๋ฅผ ์ง์ํ๋ ํตํฉ ์ ์ด ๋ฐฉ์
- ScenePlan ๋ฐ์ดํฐ์
: LLM ๊ธฐ๋ฐ ์๋ ์์ฑ ๊ณํ์ผ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ์ํธ์์ฉ ๊ณํ ๋ฐ์ดํฐ์
Limitation & Further Study
- LLM์ ๊ณํ ์์ฑ ํ์ง์ด ์ต์ข
์ฑ๋ฅ์ ํฌ๊ฒ ์์กดํ๋ฉฐ, ๋ณต์กํ ๋ค์ค ๋จ๊ณ ์์
์์์ ์ ํ์ฑ ํฅ์ ํ์
- ํ์ฌ ํ๊ฐ๊ฐ ์ฃผ๋ก ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ์งํ๋์์ผ๋ฉฐ, ์ค์ ๋ก๋ด ํ๊ฒฝ์ผ๋ก์ ์ค์ ์ ์ฉ ๊ฒ์ฆ ํ์
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ ๊ทผ์ผ๋ก ์ธํ ๊ณ์ฐ ๋น์ฉ์ด ๋์ ์ ์์ผ๋ฉฐ, ์ค์๊ฐ ์ฑ๋ฅ ์ต์ ํ ํ์
- ์์ฐ์ด ๋ช
๋ น์ ๋ชจํธ์ฑ์ด๋ ์ฅ๋ฉด๊ณผ์ ๋ถ์ ์ ํ ์ํฉ(์: ๋ถ๊ฐ๋ฅํ ์์
)์ ๋ํ ์ฒ๋ฆฌ ๋ฐฉ์ ์ถ๊ฐ ํ์
- ํ์ ์ฐ๊ตฌ๋ก ์ค์ ๋ก๋ด/XR ํ๋ซํผ ํตํฉ, ๋ ๋ณต์กํ ์ํธ์์ฉ ์๋๋ฆฌ์ค ์ง์, LLM ๊ณํ์ ์์ ์ฑ ๊ฐ์ ๊ธฐ๋
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: UniHSI๋ Chain of Contacts๋ผ๋ ์๋ก์ด ์ํธ์์ฉ ํํ๊ณผ LLM ๊ธฐ๋ฐ ๊ณํ ์์ฑ์ผ๋ก ์์ฐ์ด ๋ช
๋ น ๊ธฐ๋ฐ์ ๋ค์ํ๊ณ ์ฅ๊ธฐ๊ฐ์ ์ธ๊ฐ-์ฅ๋ฉด ์ํธ์์ฉ์ ํตํฉ์ ์ผ๋ก ์ ์ดํ๋ ํ์ ์ ํ๋ ์์ํฌ์ด๋ฉฐ, ICLR 2024 ๋ฐํ ๋
ผ๋ฌธ์ผ๋ก์ embodied AI ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์