CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction
์ ์: Suhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu | ๋ ์ง: 2024-10-02 | URL: https://arxiv.org/abs/2410.01273 📄 PDF
Essence
Fig. 1: Humans often give abstract navigation directions using simple instruction, relying on the recipientโs commonsens
CANVAS๋ ๋ชจํธํ๊ฑฐ๋ ์ก์์ด ์๋ ์ธ๊ฐ์ ์ธ์ด ๋ฐ ์๊ฐ์ ์ง์(์ค์ผ์น, ํ
์คํธ)๋ฅผ ๋ค์ค๋ชจ๋ ์
๋ ฅ์ผ๋ก ๋ฐ์ ์์์ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ๋ก๋ด์ด ์ธ๊ฐ์ ๊ธฐ๋์ ๋ง๊ฒ ๋ค๋น๊ฒ์ด์
์ ์ํํ๋๋ก ํ๋ ์๋ฒ ๋ฉ ๋ฌ๋ ๊ธฐ๋ฐ ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ๋ชฉ์ ์ง ๋๋ฌ์ ๋์ด ์๋๋ฆฌ์ค๋ณ ๋ชฉํ ์ต์ ํ๊ฐ ํ์ํ๋ฉฐ, ๊ธฐ์กด ROS NavStack ๊ฐ์ ๊ท์น ๊ธฐ๋ฐ ์์คํ
์ด๋ ViNT, GNM ๊ฐ์ ๋น์ ๋ค๋น๊ฒ์ด์
๋ชจ๋ธ๋ค์ด ์กด์ฌํ๋ค. ์๋ฒ ๋ฉ ๋ฌ๋์ ๋ก๋ด์ด ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ํ์ตํ๊ฒ ํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ์์ด๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์์ ํ๊ฑฐ๋ ์ ํํ ์ง์์ ์์กดํ๊ฑฐ๋ ๋ค์ํ ํ๊ฒฝ๋ณํ์ ๋ฏผ๊ฐํ๋ฉฐ, ์๋ฒ ๋ฉ ๋ฌ๋์ ํ์ฉํ ์์ ๊ธฐ๋ฐ ๋ค์ค๋ชจ๋ ๋ค๋น๊ฒ์ด์
์์คํ
๊ณผ ์ด๋ฅผ ํ๋ จํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ด ๋ถ์กฑํ๋ค.
- Why: ํ์ค์ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ์ธ๊ฐ์ด ์ฃผ๋ ์ถ์์ ์ด๊ณ ๋ถ์์ ํ ์ง์๋ฅผ ํด์ํด์ผ ํ๋๋ฐ, ์ด๋ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ์์ฐ์ฑ๊ณผ ์ฌ์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค. ๋ํ Sim2Real ์ ์ด์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค์ผ๋ก์จ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์์ ํ์ต์ด ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ํ์ฉ๋ ์ ์์์ ์
์ฆํ๋ค.
- Approach: CANVAS๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ์์ ์ง์์ ํ์ฉํ์ฌ ์๊ฐ(์ค์ผ์น)๊ณผ ์ธ์ด ์ง์๋ฅผ ์ ์ง์ ๋ค๋น๊ฒ์ด์
๋ชฉํ๋ก ๋ณํํ๋ฉฐ, ์๋ฒ ๋ฉ ๋ฌ๋์ ํตํด ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ํ์ตํ๋ค. ๋์์ COMMAND ๋ฐ์ดํฐ์
(48์๊ฐ, 219km์ ์ธ๊ฐ ์ฃผ์ ๋ค๋น๊ฒ์ด์
๋ฐ์ดํฐ)์ ์ ์ํ์ฌ ๋ชจ๋ธ ํ๋ จ์ ์ง์ํ๋ค.
Achievement
Fig. 2: Data collection pipeline for COMMAND dataset. (a) First, we create diverse navigation environments and extract m
ROS NavStack ๋๋น ์ฑ๋ฅ ์ฐ์: ๋ชจ๋ ํ๊ฒฝ์์ ROS NavStack์ ๋ฅ๊ฐํ๋ฉฐ, ํนํ ๊ณผ์์ ํ๊ฒฝ์์ ROS NavStack์ด 0% ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ ๋ 67% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์
: COMMAND๋ 48์๊ฐ์ ์ฃผํ ๋ฐ์ดํฐ๋ก GoStanford์ ์ฝ 3๋ฐฐ ๊ท๋ชจ์ด๋ฉฐ 3๊ฐ ํ๊ฒฝ(์ฌ๋ฌด์ค, ๊ฑฐ๋ฆฌ, ๊ณผ์์)์์ 3,343๊ฐ์ ์ธ๊ฐ ์ฃผ์ ๋ค๋น๊ฒ์ด์
๊ฒฐ๊ณผ ์ ๊ณต
๊ฐ๋ ฅํ Sim2Real ์ ์ด: ์๋ฎฌ๋ ์ด์
๋ง์ผ๋ก ํ๋ จ๋์์ผ๋ ์ค์ ๋ก๋ด ๋ฐฐํฌ์์ 69% ์ฑ๊ณต๋ฅ ๋ก ์ฐ์ํ ์ฑ๋ฅ ์
์ฆ
์์ ์ ์ฝ ์ค์: ์ธ๊ฐ ์์ฐ๊ณผ ์ ์ฌํ ๊ถค์ ์ ๋ฐ๋ฅด๋ฉฐ ์์ ์ ์ฝ ์๋ฐ์ด ์ ์์ ์ ๋์ ์ผ๋ก ์
์ฆ
How
Fig. 2: Data collection pipeline for COMMAND dataset. (a) First, we create diverse navigation environments and extract m
- K-means clustering์ ์ด์ฉํ์ฌ ์ฐ์ ์จ์ดํฌ์ธํธ๋ฅผ 128๊ฐ์ ์ด์ฐ ์จ์ดํฌ์ธํธ ํ ํฐ์ผ๋ก ์์ํํ์ฌ ๋ค์ค๋ชจ๋ ๋์ ๋ถํฌ ๋ชจ๋ธ๋ง ๊ฐํ
- ๋น์ -์ธ์ด ๋ชจ๋ธ์ ํตํด ์ค์ผ์น(์ด๋ฏธ์ง ์์ ๊ถค์ )์ ํ
์คํธ ์ค๋ช
์ ์
๋ ฅ์ผ๋ก ํ์ฌ ์ ์ง์ ๋ค๋น๊ฒ์ด์
๋ชฉํ ์์ฑ
- ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ํ
๋ ์คํผ๋ ์ด์
์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ์๋ฒ ๋ฉ ๋ฌ๋ ํ๋ จ
- ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ํ๊ฒฝ(์ค๋ด ์ฌ๋ฌด์ค, ์ค์ธ ๊ฑฐ๋ฆฌ, ๊ณผ์์)์์ ๋ฐ์ดํฐ ์์งํ์ฌ ํ๊ฒฝ ๋ค์์ฑ ํ๋ณด
- Trajectory Deviation Distance(TDD)์ Instruction Violation Rate(IVR) ๋ ๊ฐ์ง ํ๊ฐ ์งํ ์ ์
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ๋ จํ๊ณ ์ค์ ๋ก๋ด์ ๋ฐฐํฌํ์ฌ Sim2Real ์ ์ด ๊ฒ์ฆ
Originality
- ๋ชจํธํ๊ฑฐ๋ ์ก์์ด ๋ง์ ์ธ๊ฐ ์ง์๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ์์ ๊ธฐ๋ฐ ๋ค์ค๋ชจ๋ ๋ค๋น๊ฒ์ด์
ํ๋ ์์ํฌ ์ ์
- ์ค์ผ์น์ ํ
์คํธ๋ผ๋ ์ง๊ด์ ์ธ ์ธํฐํ์ด์ค๋ฅผ ๊ฒฐํฉํ ์๋ก์ด ๋ค๋น๊ฒ์ด์
์
๋ ฅ ๋ฐฉ์
- ๊ธฐ์กด ViNT, GNM๊ณผ ๋ฌ๋ฆฌ ๋ฏธ๋ฐฉ๋ฌธ ์์น์ ํ๊ฒฝ ๋ณํ์ ๋ ๊ฐ๊ฑดํ ์ ๊ทผ
- ์์ ์ค์๋๋ฅผ ์ ๋ํํ๊ธฐ ์ํ ์๋ก์ด ํ๊ฐ ์งํ(TDD, IVR) ๋์
- ์๋ฒ ๋ฉ ๋ฌ๋์ ํตํด ๋ณด์ ํจ์ ์ค๊ณ์ ์ด๋ ค์์ ์ฐํํ๋ ์ค์ฉ์ ํด๊ฒฐ์ฑ
Limitation & Further Study
- ๋ฐ์ดํฐ์
์ด ์ธ ๊ฐ์ง ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ผ๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ์ค์ ๋ฐฐํฌ ํ
์คํธ๋ ์ ํ์
- ์ธ๊ฐ ์ฃผ์ ๋ฐ์ดํฐ์ ์ง๊ณผ ์ฃผ์์ ๊ฐ ํธํฅ์ด ์ต์ข
์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น ์ ์์
- ๋น์ -์ธ์ด ๋ชจ๋ธ์ ์์ ์ง์์ด ์ถฉ๋ถํ์ง ์๊ฑฐ๋ ์๋ก์ด ํ๊ฒฝ์ ํน์ํ ์์์ ์ปค๋ฒํ์ง ๋ชปํ ์ ์์
- K-means ์์ํ์ ํ ํฐ ์(128)๊ฐ ์ต์ ์ธ์ง, ๋ค๋ฅธ ์์ํ ๊ธฐ๋ฒ์ด ๋ ๋์ ์ ์๋์ง ๊ฒํ ํ์
- ํ์์ฐ๊ตฌ๋ก๋ ๋ ๋ค์ํ ์ค์ ํ๊ฒฝ์์์ ๋๊ท๋ชจ ๋ฐฐํฌ ์คํ, ์จ๋ผ์ธ ํ์ต์ ํตํ ์ ์์ฑ ๊ฐ์ , ๋ค๊ตญ์ด ์ง์ ์ฒ๋ฆฌ ๋ฑ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: CANVAS๋ ์ถ์์ ์ด๊ณ ์ก์์ด ์๋ ์ธ๊ฐ ์ง์๋ฅผ ์์ ๊ธฐ๋ฐ์ผ๋ก ํด์ํ์ฌ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ์ํํ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ์ด๋ฉฐ, ๋๊ท๋ชจ COMMAND ๋ฐ์ดํฐ์
๊ณผ ํจ๊ป ๊ฐ๋ ฅํ ์ฑ๋ฅ(ํนํ ์ด๋ ค์ด ํ๊ฒฝ์์ 67% vs 0%), ๊ทธ๋ฆฌ๊ณ ์ฐ์ํ Sim2Real ์ ์ด(69%)๋ฅผ ์
์ฆํจ์ผ๋ก์จ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ์์ฐ์ฑ ํฅ์๊ณผ ํ์ค ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์