TidyBot: Personalized Robot Assistance with Large Language Models
๐ง Audio Overview ์์ฑ
์ ์ : Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser | ๋ ์ง : 2023-05-09 | URL : https://arxiv.org/abs/2305.05658 📄 PDF
Essence
Fig. 1 We study the task of household cleanup, where each
์ด ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ์์ฝ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ก๋ด์ด ์ ์ ์์ ์์๋ก๋ถํฐ ์ฌ์ฉ์์ ๊ฐ์ธํ๋ ๋ฌผ๊ฑด ์ ๋ฆฌ ์ ํธ๋๋ฅผ ํ์ตํ๊ณ ์ผ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค๋ค. TidyBot์ด๋ผ๋ ์ค์ ๋ชจ๋ฐ์ผ ๋งค๋ํจ๋ ์ดํฐ์์ 91.2% ๋ฒค์น๋งํฌ ์ ํ๋์ 85.0% ์ค์ ํ๊ฒฝ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค.
Motivation
Known : ๋ก๋ด ๊ฐ๊ตฌ์ ๋ฆฌ๋ ์ค๋๋ ์ฐ๊ตฌ ์ฃผ์ ์ด๋ฉฐ, ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ์ฌ์ฉ์ ์ ํธ๋๋ฅผ ๋ช
์์ ์ผ๋ก ์ง์ ํ๊ฑฐ๋ ๋๊ท๋ชจ ํฌ๋ผ์ฐ๋์์ฑ ๋ฐ์ดํฐ๋ฅผ ์๊ตฌํ๋ค. ์ต๊ทผ LLM์ ์์ ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ก๋ด ์์คํ
์ ํ์ฉ๋๊ณ ์๋ค.
Gap : ๊ธฐ์กด ๊ฐ์ธํ๋ ๋ฌผ๊ฑด ์ ๋ฆฌ ๋ฐฉ๋ฒ๋ค์ ๋ง์ ์ฌ์ฉ์ ๋ฐ์ดํฐ ์์ง์ด ํ์ํ๊ฑฐ๋ ์๋ก์ด ์ฌ์ฉ์์๊ฒ ์ ์ํ๊ธฐ ์ด๋ ค์ ๋ค. ์ ์ ์์ ์์๋ก๋ถํฐ ์ผ๋ฐํ ๊ฐ๋ฅํ ๊ฐ์ธํ ์ ํธ๋๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
Why : ๊ฐ์ธ์ ์ํ ๋ฐฉ์๊ณผ ๋ฌธํ์ ๋ฐฐ๊ฒฝ์ ๋ฐ๋ผ ๋ฌผ๊ฑด ์ ๋ฆฌ ์ ํธ๋๊ฐ ํฌ๊ฒ ๋ค๋ฅด๋ฏ๋ก, ๊ฐ์ธํ๋ ๋ก๋ด ์ด์์คํดํธ๋ ์ผ์์ ๊ฐ์ฌ์
๋ฌด ์๋ํ์ ํ์์ ์ด๋ค. ์ ์ํ ํ์ต์ ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์์ ๋ก๋ด ์ ์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
Approach : ์ฌ์ฉ์๊ฐ ์ ๊ณตํ ์ ์ ์์ ๋ฌผ๊ฑด ๋ฐฐ์น ์์๋ฅผ LLM์ ์
๋ ฅํ์ฌ ์ผ๋ฐํ๋ ์ ํธ๋ ๊ท์น์ผ๋ก ์์ฝํ๊ฒ ํ๊ณ , ์คํ ์ดํ ์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ๋ก ๋ฐ๋ฅ์ ๋ฌผ๊ฑด์ ์ธ์ํ์ฌ ํ์ต๋ ๊ท์น์ ๋ฐ๋ผ ๋ฐฐ์นํ๋ค.
Achievement
Fig. 2 System overview. Once the userโs preferences have been summarized with an LLM, TidyBot will localize the closest
๋ฒค์น๋งํฌ ์ฑ๋ฅ : ๋ฏธ๊ณต๊ฐ ๋ฌผ๊ฑด์ ๋ํด 91.2% ์ ํ๋ ๋ฌ์ฑ
์ค์ ํ๊ฒฝ ์ฑ๋ฅ : TidyBot์ด ์ค์ ํ
์คํธ ์๋๋ฆฌ์ค์์ 85.0%์ ๋ฌผ๊ฑด์ ์ฑ๊ณต์ ์ผ๋ก ์ ๋ฆฌ
๋ฐ์ดํฐ ํจ์จ์ฑ : ์ถ๊ฐ ํ์ต์ด๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง ์์ด ๊ธฐ์กด LLM ํ์ฉ
ํ์ฅ์ฑ : ๋ฌผ๊ฑด ๋ฐฐ์น๋ฟ๋ง ์๋๋ผ ์กฐ์ ์์ ์์
(pick and place vs pick and toss) ์ ํ๊น์ง ํ์ฅ ๊ฐ๋ฅ
ํด์ ๊ฐ๋ฅ์ฑ : ํ
์คํธ ๊ธฐ๋ฐ์ ์ธ๊ฐ ์ดํด ๊ฐ๋ฅํ ๊ท์น ํํ๋ก ์ ํธ๋ ํํ
How
Fig. 2 System overview. Once the userโs preferences have been summarized with an LLM, TidyBot will localize the closest
์ฌ์ฉ์๊ฐ ์์ฐ์ด๋ก ๋ฌผ๊ฑด ๋ฐฐ์น ์์ ์ ๊ณต (์: '๋
ธ๋ ์
์ธ ๋ ์๋์, ์งํ ๋ณด๋ผ์ ์
์ธ ๋ ์ท์ฅ์')", "LLM์ few-shot ํ๋กฌํํ
์ผ๋ก ์์๋ค์ ์ผ๋ฐํ๋ ๊ท์น์ผ๋ก ์์ฝ (์: '๋ฐ์์ ์ท์ ์๋์, ์ด๋์ด์ ์ท์ ์ท์ฅ์')", '์์ฝ๋ ๊ท์น์ ๋ช
์ฌ๋ค์ CLIP ๋ฑ ์คํ ์ดํ ์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ๋ก ๊ทธ๋ผ์ด๋ฉํ์ฌ ์ด๋ฏธ์ง์์ ํ์ง ๊ฐ๋ฅํ๊ฒ ๋ณํ
๋ก๋ด์ด ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๋ฅ์ ๋ฌผ๊ฑด์ ๊ฐ์ง, ๋ถ๋ฅ, ๋ชฉํ ์์ฉํจ์ ๋ฐฐ์นํ๋ ๊ณผ์ ์ํ
๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์ ๋์ ํ๊ฐ ์ค์
Originality
LLM์ ํ
์คํธ ์์ฝ ๋ฅ๋ ฅ์ ๋ก๋ด ์ผ๋ฐํ ๋ฌธ์ ์ ํต์ฌ์ผ๋ก ํ์ฉํ ์๋ก์ด ๊ด์ ์ ์
๊ธฐ์กด ํ์
ํํฐ๋ง, ๊ณต๊ฐ ๊ด๊ณ, ์ ์ฌ ๋ฒกํฐ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ ์ถ๊ฐ ํ์ต ์์ด ๊ธฐ์กด LLM ์ง์ ํ์ฉ
๊ฐ์ธํ๋ ๋ฌผ๊ฑด ์ ๋ฆฌ ์ ํธ๋ ํ๊ฐ๋ฅผ ์ํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
๊ณต๊ฐ
์ค์ ๋ชจ๋ฐ์ผ ๋งค๋ํจ๋ ์ดํฐ ์์คํ
๊ตฌํ ๋ฐ ํ๊ฐ๋ก ์ค์ฉ์ฑ ์
์ฆ
์ธ๊ฐ ์ ํธ๋ ํ๊ฐ ์ฐ๊ตฌ๋ก LLM ์์ฑ ๊ท์น๊ณผ ์ธ๊ฐ ํ๊ฐ ๊ฐ ์ผ๊ด์ฑ ๊ฒ์ฆ
Limitation & Further Study
LLM ์ฑ๋ฅ์ ๋ชจ๋ธ ์ ํ๊ณผ ํ๋กฌํํธ ์ค๊ณ์ ์์กดํ๋ฉฐ, ๋ค์ํ ๋ฌธํ์ ๋ฐฐ๊ฒฝ์ ์ ํธ๋ ํ์ต ๋ฅ๋ ฅ์ ๋ํ ์ฐ๊ตฌ ๋ถ์กฑ
์ค์ ํ๊ฒฝ์์ 85% ์ฑ๊ณต๋ฅ ์ ์ธ์ ์ค๋ฅ(๋ฌผ๊ฑด ๊ฐ์ง ์คํจ)์ ์กฐ์ ์ค๋ฅ(ํฝ ์คํจ, ๋ฐฐ์น ์คํจ) ๋์ ์ ์ํฅ
๋ฒค์น๋งํฌ๋ ํ
์คํธ ๊ธฐ๋ฐ์ด๊ณ ์ค์ ํ๊ฒฝ์ ๋ณต์ก์ฑ(๊ฐ๋ฆผ, ๋ถ๊ท์นํ ๋ฐฐ์น, ๋ค์ํ ํ๋ฉด)์ ์์ ํ ๋ฐ์ํ์ง ๋ชปํจ
ํ์ ์ฐ๊ตฌ: ์๊ฐ์ ํน์ฑ์ด ์๋ ์๋ฏธ์ ์์ฑ ๊ธฐ๋ฐ ๋ถ๋ฅ ๋ฅ๋ ฅ ๊ฐํ, ๋ก๋ด ์กฐ์ ์์ ์ฑ ๊ฐ์ , ๋ค๋ฌธํ ์ ํธ๋ ํ์ต ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ์ด ๋
ผ๋ฌธ์ LLM์ ์์ฝ ๋ฅ๋ ฅ์ ๋ก๋ด ๊ฐ์ธํ ๋ฌธ์ ์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ์ฌ ๋ฐ์ดํฐ ํจ์จ์ ์ด๊ณ ํด์ ๊ฐ๋ฅํ ์๋ฃจ์
์ ์ ์ํ๋ค. ์ค์ ๋ก๋ด ์์คํ
์์์ ๊ฒ์ฆ๊ณผ ๊ณต๊ฐ ๋ฐ์ด์
์ ๊ณต์ผ๋ก ์ค์ฉ์ฑ๊ณผ ์ฌํ์ฑ์ ๋ด๋ณดํ์์ผ๋ฉฐ, ์๋น์ค ๋ก๋ด ๊ฐ์ธํ ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com