RT-H: Action Hierarchies Using Language
์ ์: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh | ๋ ์ง: 2024-03-04 | URL: https://arxiv.org/abs/2403.01823 📄 PDF
Essence
Fig. 1: Given a task in language like โclose the pistachio jarโ and an image of the scene, RT-H utilizes a Vision Langua
RT-H๋ ๋ก๋ด ๋ชจ๋ฐฉ ํ์ต์์ ์ธ์ด ๊ธฐ๋ฐ ํ๋ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ ์ํ์ฌ, ๊ณ ์์ค ์์
์ค๋ช
๊ณผ ์ ์์ค ๋ก๋ด ์ก์
์ฌ์ด์ ์ค๊ฐ ๋จ๊ณ๋ก '์ธ์ด ๋ชจ์
(language motion)'์ ์์ธกํจ์ผ๋ก์จ ๋ค์ํ ์์
๊ฐ ๋ฐ์ดํฐ ๊ณต์ ๋ฅผ ๊ฐ์ ํ๋ค.
Motivation
- Known: ์ต๊ทผ ๋ก๋ด ๋ชจ๋ฐฉ ํ์ต์์ ์ธ์ด ์กฐ๊ฑด๋ถ ์ ์ฑ
(language-conditioned policies)์ด ์๊ฐ์ ๊ด์ฐฐ๊ณผ ๊ณ ์์ค ์์
์ค๋ช
์ผ๋ก๋ถํฐ ์ก์
์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋๊ณ ์์ผ๋ฉฐ, ์๋ฏธ์ ์ผ๋ก ์ ์ฌํ ์์
๋ค ๊ฐ ๋ฐ์ดํฐ ๊ณต์ ๋ฅผ ํตํด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
- Gap: ์์
์ด ์๋ฏธ์ ์ผ๋ก ๋ ๋ค์ํด์ง์๋ก(์: '์ฝ๋ผ ์บ ์ง๊ธฐ' vs '์ปต ๋ถ๊ธฐ') ์์
์ค๋ช
๊ฐ ๋ฐ์ดํฐ ๊ณต์ ๊ฐ ์ด๋ ค์์ ธ ๋ง์ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฉฐ, ์ด๋ ํ์ต ํจ์จ์ฑ์ ์ ํํ๋ค.
- Why: ๋ค์ํ ๋ฉํฐํ์คํฌ ๋ฐ์ดํฐ์
์์ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ๊ณต์ ๋ฉ์ปค๋์ฆ์ ๊ฐ๋ฐํ๋ฉด ๋ก๋ด์ ์ํ ํจ์จ์ฑ๊ณผ ๊ฐ๊ฑด์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ผ๋ฉฐ, ๋ ๋์๊ฐ ๋ฐํ์ ์ค ์ธ๊ฐ์ ์ธ์ด ๊ธฐ๋ฐ ํผ๋๋ฐฑ์ ํตํ ์ ์ ์ด ๊ฐ๋ฅํด์ง๋ค.
- Approach: RT-H๋ vision-language model(VLM) ๊ธฐ๋ฐ์ ๋ ๋จ๊ณ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋์
ํ์ฌ, ๋จผ์ ๊ณ ์์ค ์์
๊ณผ ์๊ฐ ๊ด์ฐฐ๋ก๋ถํฐ fine-grainedํ ์ธ์ด ๋ชจ์
์ ์์ธกํ๊ณ , ์ด ์ธ์ด ๋ชจ์
์ ์ถ๊ฐ ์กฐ๊ฑด์ผ๋ก ํ์ฌ ์ต์ข
๋ก๋ด ์ก์
์ ์์ธกํ๋ค.
Achievement
Fig. 3: Results on Diverse+Kitchen multi-task dataset, consisting of eight challenging evaluation tasks. 95% Wilson Scor
- ๋ค์ํ ๋ฉํฐํ์คํฌ ๋ฐ์ดํฐ์
์์ ์ฑ๋ฅ ๊ฐ์ : RT-2 ๋๋น 15% ํฅ์๋ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ธ์ด ๋ชจ์
๊ธฐ๋ฐ ์ ์ ์ ๋์ ํจ์จ์ฑ: ์ธ์ด ๋ชจ์
๋ณด์ ๋ง์ผ๋ก๋ ๊ฑฐ์ ์๋ฒฝํ ์ฑ๊ณต๋ฅ (near perfect success rates) ๋ฌ์ฑ
- ๋ํํ ํ์ต์ ์ฐ์์ฑ: IWR ๋ฑ ๊ธฐ์กด interactive imitation learning ๋ฐฉ๋ฒ ๋๋น 50% ํฅ์๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ์ฅ๋ฉด ๋ฐ ๊ฐ์ฒด ๋ณ๋์ ๋ํ ์ฐ์ํ ์ผ๋ฐํ: RT-2๋ณด๋ค ๋ณํ๋ ํ๊ฒฝ์ ๋ํ ๋ ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
- ์๋ ์ธ์ด ๋ชจ์
์ถ์ถ: ๋ก๋ด ๊ณ ์ ๊ฐ๊ฐ(proprioception)์ผ๋ก๋ถํฐ 2500๊ฐ ์ด์์ ์ธ์ด ๋ชจ์
์ ์๋ ์ฃผ์ ์์ด ์๋ ์ถ์ถ
How
Fig. 2: RT-H Overview. Left: Our method leverages language to create an action hierarchy for policy learning. We separat
- RT-2 VLM ๋ฐฑ๋ณธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ end-to-end ํ๋ ์์ํฌ ๊ตฌ์ถ
- ๋จ์ผ ๋ชจ๋ธ์ ํตํด ์ธ์ด ๋ชจ์
์ฟผ๋ฆฌ์ ์ก์
์ฟผ๋ฆฌ ๋ชจ๋ ์ํํ์ฌ ์ธํฐ๋ท ๊ท๋ชจ ์ง์ ํ์ฉ
- ๋ก๋ด proprioception ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ํ๋ ์ธ์ด ๋ชจ์
์ถ์ถ ๋ฐฉ์ ๊ฐ๋ฐ
- ๊ฐ ๋จ๊ณ์์ ๊ด์ฐฐ, ๊ณ ์์ค ์์
์ค๋ช
, ์์ธก๋ ์ธ์ด ๋ชจ์
์ ๋ชจ๋ ์กฐ๊ฑด์ผ๋ก ํ์ฌ ์ก์
์์ธก
- ์ธ๊ฐ ๊ฐ์
์ ์ธ์ด ๋ชจ์
์์ค์์ ์ ์ ์ ๋ฐ๊ณ ์ด๋ฅผ ํ์ตํ๋ ๋ฉ์ปค๋์ฆ ๊ตฌํ
Originality
- ๊ณ์ธต ๊ตฌ์กฐ์ ์ธ๋ฐ์ฑ: ๊ธฐ์กด ์์
-์ก์
์ง์ ๋งคํ์์ ๋ฒ์ด๋ ์ค๊ฐ ๋จ๊ณ์ธ ์ธ์ด ๋ชจ์
๋์
์ผ๋ก ๋ ์ธ๋ฐํ ๋ฐ์ดํฐ ๊ณต์ ๊ตฌ์กฐ ์ ์
- ๋ฌธ๋งฅ ์์กด์ ์ธ์ด ๋ชจ์
: ๊ณ ์ ๋ ํ๋ฆฌ๋ฏธํฐ๋ธ๊ฐ ์๋ ํ์ฌ ์์
๊ณผ ์ฅ๋ฉด์ ๋ฐ๋ผ ํ์ต๋๋ ๋์ ์ธ์ด ๋ชจ์
๊ฐ๋
์ ์
- ์ธ๊ฐ ํผ๋๋ฐฑ์ ์๋ก์ด ํจ๋ฌ๋ค์: ์ ์์ค ์ก์
์ ์ ์ด ์๋ ์ธ์ด ๋ชจ์
์์ค์ ์ ์ ์ ํตํด ๋ ์ง๊ด์ ์ด๊ณ ํ์ตํ๊ธฐ ์ฌ์ด ์ํธ์์ฉ ๊ฐ๋ฅ
- ์๋ ์ธ์ด ๋ชจ์
์ถ์ถ: ์๋ ์ฃผ์ ์์ด proprioception ๋ฐ์ดํฐ๋ก๋ถํฐ ๋๊ท๋ชจ ์ธ์ด ๋ชจ์
๋ผ์ด๋ธ๋ฌ๋ฆฌ ์๋ ์์ฑ
Limitation & Further Study
- ์ธ์ด ๋ชจ์
์ถ์ถ ๋ฐฉ์์ด proprioception ๋ฐ์ดํฐ์ ์์กดํ๋ฏ๋ก, ๋ค๋ฅธ ์ ํ์ ๋ก๋ด์ด๋ ์ผ์ ๊ตฌ์ฑ์ ๋ํ ํ์ฅ์ฑ ์ ํ ๊ฐ๋ฅ์ฑ
- ์๋ ์ถ์ถ๋ ์ธ์ด ๋ชจ์
์ ํ์ง๊ณผ ์๋ฏธ์ ์ผ๊ด์ฑ์ ๋ํ ์์ธํ ๋ถ์ ๋ฐ ํ๊ฐ ๋ถ์กฑ
- ์ธ๊ฐ ๊ฐ์
ํ์ต์ ์์ด ๋ค์ํ ์ฌ์ฉ์ ๊ทธ๋ฃน(์ ๋ฌธ๊ฐ vs ๋น์ ๋ฌธ๊ฐ)์ ๋ํ ๊ด๋ฒ์ํ ํ๊ฐ ๋ฏธํก
- ์ธ์ด ๋ชจ์
๊ณ์ธต์ ์ถ๊ฐ์ ๋ฐ๋ฅธ ๊ณ์ฐ ์ค๋ฒํค๋ ๋ถ์ ๋ฐ ์ค์๊ฐ ์ ์ด ํ๊ฒฝ์์์ ์ค์ฉ์ฑ ํ๊ฐ ํ์
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ํ์ฅ, ์ธ์ด ๋ชจ์
์ ์๋ ์ถ์ถ ์ ํ๋ ๊ฐ์ , ์ฅ๊ธฐ ์ํ ์์
์ ๋ํ ๊ณ์ธต ๊ตฌ์กฐ ํ๋ ๊ฒํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RT-H๋ ์ธ์ด๋ฅผ ํ์ฉํ ํ๋ ๊ณ์ธต ๊ตฌ์กฐ๋ผ๋ ์ฐ์ํ ์์ด๋์ด๋ฅผ ํตํด ๋ฉํฐํ์คํฌ ๋ก๋ด ํ์ต์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ์ธ๊ฐ ๊ฐ์
์ ์๋ก์ด ํจ๋ฌ๋ค์๊น์ง ์ ์ํ์ฌ ์ค์ ๋ก๋ด ์์คํ
์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์