Statler: State-Maintaining Language Models for Embodied Reasoning
์ ์: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter | ๋ ์ง: 2023-06-30 | URL: https://arxiv.org/abs/2306.17840 📄 PDF
Essence
Fig. 1: Our Statler framework enables robots to carry out complex tasks specified in natural language that require reaso
Statler๋ ๋ก๋ด ๊ณํ ์์
์์ LLM์ด ์ธ๊ณ ์ํ๋ฅผ ๋ช
์์ ์ผ๋ก ์ ์งํ๊ณ ์ถ์ ํ๋๋ก ํ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ก, ์ํ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ์ ํตํด ์ฅ๊ธฐ ๊ณํ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค.
Motivation
- Known: ๊ธฐ์กด LLM ๊ธฐ๋ฐ ๋ก๋ณดํฑ์ค ์ฐ๊ตฌ๋ LLM์ ์ ์ฑ
ํจ์๋ก ์ฌ์ฉํ์ฌ ๊ณผ๊ฑฐ ํ๋๊ณผ ๊ด์ฐฐ๋ง์ ์กฐ๊ฑด์ผ๋ก ๋ฏธ๋ ํ๋์ ์์ฑํ๋ ๋ชจ๋ธ ํ๋ฆฌ ์ ๊ทผ๋ฒ์ ์ด์ ์ ๋ง์ถ์ด์๋ค.
- Gap: LLM์ด ์ฅ๊ธฐ ๊ณํ ์์
์์ ์๋ฌต์ ์ผ๋ก ์ธ๊ณ ์ํ๋ฅผ ์ ์งํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ์, ๊ด์ฐฐ ๋ถ๊ฐ๋ฅํ ์ ์ฌ ๋์ญํ์ ๋ค๋ฃจ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ช
์์ ์ธ๊ณ ์ํ ์ถ์ ์ ๋ถ๋ถ ๊ด์ฐฐ์ฑ ๋ฌธ์ ํด๊ฒฐ, ์ฅ๊ธฐ ๊ณํ ์ค์ผ์ผ๋ง, ๊ทธ๋ฆฌ๊ณ ๋ ์ ๋ณด์ ๊ธฐ๋ฐํ ์์ฌ๊ฒฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ๋ก๋ด์ ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ํญ ํฅ์์ํจ๋ค.
- Approach: Statler๋ world-state reader์ world-state writer ๋ ๊ฐ์ prompted LLM์ผ๋ก ๊ตฌ์ฑ๋์ด, reader๊ฐ ํ์ฌ ์ํ๋ฅผ ์ฝ๊ณ ํ๋์ ์์ฑํ๋ฉด writer๊ฐ ํ๋์ ๋ฐ๋ฅธ ์ํ ์ ์ด๋ฅผ ์
๋ฐ์ดํธํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค.
Achievement
Fig. 2: Model accuracies on the three-cups-and-a-ball shell
- ์ธ๊ณ ์ํ ์ ์ง์ ํจ๊ณผ์ฑ: ์ผ๊ฐ-์ปต-๊ณต ๊ฒ์์์ LLM+State ๋ฐฉ์์ด ๊ธฐ์กด LLM๊ณผ Chain-of-Thought ๋ฐฉ๋ฒ๋ณด๋ค ํ์ ํ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์ค์ ํ์๊ฐ ์ฆ๊ฐํ ์๋ก ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ํ๋๋จ
- Code-as-Policies ๋๋น ์ฑ๋ฅ ํฅ์: ๋ก๋ด ์๋ฎฌ๋ ์ด์
์์
์์ Statler๊ฐ Code-as-Policies ๊ฐ์ ๊ฐ๋ ฅํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํจ
- ํ์ฅ ๊ฐ๋ฅ์ฑ: ๋ช
์์ ์ํ ์ ์ง๋ก ์ธํด ์ฅ๊ธฐ ๊ณํ ์์
์ผ๋ก์ ํ์ฅ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค
- ์ผ๋ฐ์ฑ: ํ๋กฌํํธ๊ฐ ๋๋ฉ์ธ ๋ถ๊ฐ์ง๋ก ์ (domain-agnostic)์ผ๋ก ์ค๊ณ๋์ด ๋ค์ํ ๋ถ์ผ์ ์ ์ฉ ๊ฐ๋ฅ
How
Fig. 1: Our Statler framework enables robots to carry out complex tasks specified in natural language that require reaso
- ์ด๊ธฐ ์ํ๋ฅผ JSON ํ์์ ๊ฐ์ฒด ์งํฅ ํํ์ผ๋ก ์ ์
- world-state reader๊ฐ ์ฌ์ฉ์ ์ฟผ๋ฆฌ์ ํ์ฌ ์ํ๋ฅผ ์
๋ ฅ๋ฐ์ ์คํ ๊ฐ๋ฅํ ์ฝ๋(์: ํ์ด์ฌ ์ค๋ํซ) ์์ฑ
- ์์ฑ๋ ์ฝ๋์ update_wm ํจ์ ํธ์ถ์ ํฌํจ์์ผ ์ํ ์
๋ฐ์ดํธ ํ์ ์ ํธ
- world-state writer๊ฐ ์ํ๋ ํ๋ ์ ๋ณด๋ฅผ ์
๋ ฅ๋ฐ์ ์๋ก์ด ์ธ๊ณ ์ํ๋ก ์
๋ฐ์ดํธ
- ๊ฐ ๊ตฌ์ฑ์์์ ๋ํด ์์ฐ(demonstration) ๊ธฐ๋ฐ ํ๋กฌํํ
์ผ๋ก LLM ์ ๋
- Code-as-Policies์ ๊ณ์ธต์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ ์ํ ์ถ์ ๋ฉ์ปค๋์ฆ ์ถ๊ฐ
Originality
- ๊ธฐ์กด ๋ชจ๋ธ ํ๋ฆฌ ์ ๊ทผ๋ฒ๊ณผ ๋ฌ๋ฆฌ LLM ๊ธฐ๋ฐ ๋ก๋ณดํฑ์ค์ ๋ชจ๋ธ ๊ธฐ๋ฐ ํจ๋ฌ๋ค์ ๋์
- ๊ณ ์ ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ต์ ๊ฐ๋
์ LLM์ ์์ ์ง์๊ณผ ๊ฒฐํฉํ ์๋ก์ด ํ๋ ์์ํฌ
- LLM์ ํ๊ฒฝ ๋ชจ๋ธ๋ก ํ์ฉํ์ฌ ์๋ฌต์ ์ํ ์ ์ง ์ด๋ ค์์ ๋ช
์์ ์ํ ์ถ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฐฝ์์ ์ค๊ณ
- symbolic world state tracking๊ณผ LLM์ ์ ์ฐ์ฑ์ ๊ฒฐํฉํ hybrid ์ ๊ทผ
Limitation & Further Study
- ์ธ๊ณ ์ํ ์ถ์ ์ด ์๋ฒฝํ์ง ์์ ์ ์์ผ๋ฉฐ, ๋ณต์กํ ํ๊ฒฝ์์ ์ํ ํํ์ ์ ํ์ฑ ๊ฒ์ฆ ๋ถ์กฑ
- JSON ๊ธฐ๋ฐ ์ํ ํํ์ด ๋ชจ๋ ๋๋ฉ์ธ์ ์ ํฉํ์ง์ ๋ํ ๋ช
ํํ ๋
ผ์ ๋ฏธํก
- ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ฐ (ํ์ฌ๋ ์ฃผ๋ก ์๋ฎฌ๋ ์ด์
์ ๊ธฐ๋ฐ)
- ๋๊ท๋ชจ ๋ณต์ก ๋๋ฉ์ธ์์ ํ๋กฌํํธ ์ค๊ณ ๋ฐ ๊ด๋ฆฌ ์์
๋์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ๋ก ๋ ํํ๋ ฅ ์๋ ์ํ ํํ ๋ฐฉ์ ํ์, ๋ถ๋ถ ๊ด์ฐฐ์ฑ์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃจ๋ ํ๋ฅ ์ ์ํ ์ถ์ , ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ ๊ฒ์ฆ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Statler๋ LLM ๊ธฐ๋ฐ ๋ก๋ด ๊ณํ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ์ ๋์
ํ ์ฐธ์ ํ ํ๋ ์์ํฌ๋ก, ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ์ค๊ณ๋ก ์ฅ๊ธฐ ๊ณํ ๋ฌธ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ฒ์ฆ๊ณผ ๋ณต์ก ๋๋ฉ์ธ ์ ์์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์