Learning Social Navigation from Positive and Negative Demonstrations and Rule-Based Specifications
์ ์: Chanwoo Kim, Jihwan Yoon, Hyeonseong Kim, Taemoon Jeong, Changwoo Yoo, Seungbeen Lee, Soohwan Byeon, Hoon Chung, Matthew Pan, Jean Oh, Kyungjae Lee, Sungjoon Choi | ๋ ์ง: 2025-10-14 | URL: https://arxiv.org/abs/2510.12215 📄 PDF
Essence
Fig. 1: Overview of the proposed framework. A. Reward learning: (a) density-based reward maps are constructed from
๋ณธ ๋
ผ๋ฌธ์ ๊ธ์ ์ ๋ฐ ๋ถ์ ์ ์์ฐ๊ณผ ๊ท์น ๊ธฐ๋ฐ ๋ช
์ธ๋ก๋ถํฐ ํ์ตํ ๋ฐ๋ ๊ธฐ๋ฐ ๋ณด์์ ๊ฒฐํฉํ์ฌ ๋์ ์ธ๊ฐ ํ๊ฒฝ์์ ์์ ์ฑ๊ณผ ์ ์์ฑ์ ๊ท ํ์ ๋ง์ถ ๋ชจ๋ฐ์ผ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ์ฑ
์ ๊ฐ๋ฐํ๋ค.
Motivation
- Known: ๊ธฐ์กด์ ๊ณ ์ ์ ๋ค๋น๊ฒ์ด์
๋ฐฉ๋ฒ์ ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ๋ช
์์ ์์ ๋ณด์ฅ์ ์ ๊ณตํ์ง๋ง ์ผ๋ฐํ๊ฐ ์ด๋ ต๊ณ , ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ์์ฑ์ด ์ฐ์ํ๋ ๋ถํฌ ๋ณํ์ ์์ ๋ฉ์ปค๋์ฆ ๋ถ์กฑ ๋ฌธ์ ๊ฐ ์๋ค.
- Gap: ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ณด์์ ์ ์์ฑ๊ณผ ๊ท์น ๊ธฐ๋ฐ ์์ ๋ช
์ธ์ ์ ๋ขฐ์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์ฌ ๋์ ์ธ๊ฐ ํ๊ฒฝ์์ ์ค์๊ฐ ๋ฐฐํฌ ๊ฐ๋ฅํ ์ปดํฉํธํ ์ ์ฑ
์ ์ป๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ํผ์กํ ์ธ๊ฐ ํ๊ฒฝ์์์ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ๋ค์ํ ์ธ๊ฐ ํ๋ ์ ์๊ณผ ์์ ์ ์ฝ ์ค์๋ฅผ ๋์์ ๋ง์กฑํด์ผ ํ๋ ์์ ํต์ฌ ๋ฌธ์ ์ด๋ฉฐ, ์ค์ ๋ฐฐํฌ๋ฅผ ์ํด ๊ณ์ฐ ํจ์จ์ฑ์ด ํ์์ ์ด๋ค.
- Approach: Teacher-student ํ๋ ์์ํฌ๋ก teacher ์ ์ฑ
์ ๊ธ์ /๋ถ์ ์์ฐ์ผ๋ก๋ถํฐ ํ์ตํ density reward์ ๊ท์น ๊ธฐ๋ฐ ์ฅ์ ๋ฌผ ํํผยท๋ชฉํ ๋๋ฌ ๋ชฉํ๋ฅผ ๊ฒฐํฉํ์ฌ ๊ฐ๋
์ ํธ๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ๊ด์ฐฐ ๊ธฐ๋ฐ student ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ์ฌ ๋ถํ์ค์ฑ ์ถ์ ๊ณผ ํจ๊ป ์ค์๊ฐ ๋ฐฐํฌํ๋ค.
Achievement
- ํตํฉ ๋ณด์ ์ค๊ณ: ๊ธ์ ์ /๋ถ์ ์ ์์ฐ์ผ๋ก๋ถํฐ ํ์ตํ ๋ฐ๋ ๊ธฐ๋ฐ ๋ณด์์ obstacle avoidance์ goal reaching์ ์ํ ๊ท์น ๊ธฐ๋ฐ ํญ๊ณผ ๊ฒฐํฉํ์ฌ ์ ์์ฑ๊ณผ ์์ ์ฑ์ ๋์์ ๋ฌ์ฑ
- Teacher-Student ์ฆ๋ฅ: short-horizon rollout ํ๊ฐ๋ฅผ ํตํ teacher ์ ์ฑ
์ด ์ ๊ณตํ๋ ๊ฐ๋
์ ํธ๋ฅผ ๋ถํ์ค์ฑ ์ถ์ ์ด ํฌํจ๋ ์ปดํฉํธ student ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ์ฌ ์ค์๊ฐ ๋ฐฐํฌ ๊ฐ๋ฅํ๊ฒ ํจ
- ๋ค์ธต์ ๊ฒ์ฆ: ํฉ์ฑ ๋ฐ์ดํฐ์
, ์๋ฆฌ๋ฒ ์ดํฐ ํ์น ์๋ฎฌ๋ ์ด์
, ์ธ๊ฐ ์ฐธ์ฌ์์์ ์ค์ ์คํ์ ํตํด ์ฑ๊ณต๋ฅ ๊ณผ ์๊ฐ ํจ์จ์ฑ ๋ฉด์์ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์ผ๊ด๋ ํฅ์ ๋ฌ์ฑ
How
Fig. 1: Overview of the proposed framework. A. Reward learning: (a) density-based reward maps are constructed from
- Density reward learning: ๊ฒฝํ์ ์ํ-ํ๋ ๋ฐ๋ หยต์ ๋ํด ๋ณด์ R์ ์ต๋ํํ๋ ์ต์ ํ ๋ฌธ์ ๋ฅผ L2 norm ์ ์ฝ ํ์์ ํ์ด
- Rule-based augmentation: obstacle avoidance์ goal reaching์ ์ํ ๋ช
์์ ๋น์ฉ ํจ์๋ฅผ density reward์ ๊ฒฐํฉํ์ฌ ๋ณตํฉ ๋ชฉ์ ํจ์ ๊ตฌ์ฑ
- Teacher policy: sampling-based lookahead controller๋ก ํ๋ณด ์๋ ๋ช
๋ น๋ค์ ์๋ฎฌ๋ ์ด์
ํ์ฌ ๋ณตํฉ ๋ณด์์ผ๋ก ํ๊ฐํ๊ณ ์ต๊ณ ์์ต ํ๋ ์ ํ
- Student policy distillation: teacher์ ๊ฐ๋
์ ํธ๋ฅผ LiDAR ๊ด์ฐฐ๋ง ์
๋ ฅ์ผ๋ก ๋ฐ๋ ํ์ ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ์ฌ forward simulation ์์ด ์ค์๊ฐ ์ถ๋ก ๊ฐ๋ฅํ๋๋ก ํจ
- Uncertainty estimation: student ์ ์ฑ
์ด ๋ค๋น๊ฒ์ด์
์ํ๋๋ฅผ ๋ํ๋ด๋ ๋ถํ์ค์ฑ ์ถ์ ๊ฐ ํจ๊ป ์ถ๋ ฅํ๋๋ก ํ๋ จ
Originality
- ๊ธ์ ์ ์์ฐ๊ณผ ๋ถ์ ์ ์์ฐ์ ๋ชจ๋ ํ์ฉํ density-based reward learning์ผ๋ก ์ํ๋ ํ๋๊ณผ ํผํด์ผ ํ ํ๋์ ๋ช
์์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ์ ๊ทผ๋ฒ์ ๊ธฐ์กด ์ฐ๊ตฌ๋ณด๋ค ๋์ฑ ๊ตฌ์ฒด์
- Rule-based ์์ ๋ช
์ ์ ํ์ต ๊ธฐ๋ฐ ์ ์์ฑ ๋ณด์์ ํตํฉ์ sampling-based lookahead controller์ supervision์ ํตํด ๊ตฌํํ๋ ๊ฒ์ ํฉ๋ฆฌ์ ์ธ ์ค๊ฐ ๋ฉ์ปค๋์ฆ
- Teacher-student ์ฆ๋ฅ์ ๋ถํ์ค์ฑ ์ถ์ ์ ํจ๊ป ๋์
ํ์ฌ ๋ฐฐํฌ ํ๊ฒฝ์์์ ์ ์ฑ
์ ๋ขฐ๋๋ฅผ ๋ช
์์ ์ผ๋ก ํํ
Limitation & Further Study
- Density reward learning์ด ์ ํ๋ ์์ฐ ๋ฐ์ดํฐ์๋ง ์์กดํ๋ฏ๋ก ๋ถํฌ ์ธ ์ํฉ(out-of-distribution scenario)์ ๋ํ ๊ฐ๊ฑด์ฑ์ด ๋ถ์ถฉ๋ถํ ์ ์์
- Teacher ์ ์ฑ
์ lookahead horizon์ด ์ ํ์ ์ด์ด์ ์ฅ์๊ฐ ์ํธ์์ฉ ์๋๋ฆฌ์ค์ ๋ํ ์ฑ๋ฅ์ด ๋ณด์ฅ๋์ง ์์
- ์คํ์ด ์ฃผ๋ก ์๋ฆฌ๋ฒ ์ดํฐ ํ์น ์๋๋ฆฌ์ค์ ์ง์ค๋์ด ์์ด ๋ค์ํ ๋ณดํ์ ๋ค๋น๊ฒ์ด์
ํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ฏธ์ง์
- Student ์ ์ฑ
์ฆ๋ฅ ๊ณผ์ ์์์ ์ฑ๋ฅ ์์ค(performance gap)์ ๋ํ ์ ๋์ ๋ถ์ ๋ฐ ์ต์ํ ์ ๋ต์ด ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ณต์กํ ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ, ์์ ํ ์๋ก์ด ํ๊ฒฝ์ ๋ํ ์ ์ด ํ์ต, ์จ๋ผ์ธ ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ณด์๊ณผ ๊ท์น ๊ธฐ๋ฐ ์์ ๋ช
์ ์ ํจ๊ณผ์ ์ธ ํตํฉ์ ํตํด ๋์ ์ธ๊ฐ ํ๊ฒฝ์์์ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ๋ค๋ฃจ๋ ์ค์ฉ์ ์ด๊ณ ์ ๋ขฐํ ์ ์๋ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ฉฐ, teacher-student ์ฆ๋ฅ ๋ฐ ๋ถํ์ค์ฑ ์ถ์ ๊ธฐ๋ฒ์ ํฌํจํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ฌ์ ํจ๊ป ์ค์ ์ธ๊ฐ ์ฐธ์ฌ์ ์คํ์ผ๋ก ๊ฒ์ฆํ ์ ์์ ๋์ ๊ฐ์น๋ฅผ ๊ฐ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์