OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics
์ ์: Junhui Wang, Dongjie Huo, Zehui Xu, Yongliang Shi, Yimin Yan, Yuanxin Wang, Chao Gao, Yan Qiao, Guyue Zhou | ๋ ์ง: 2025-02-13 | URL: https://arxiv.org/abs/2502.09238 📄 PDF
Essence
Fig. 1.
์ค๋งํธ ๋ก์ง์คํฑ์ค์ ๋ง์ง๋ง ๋ฐฐ์ก ๊ตฌ๊ฐ์ ์ํด OpenStreetMap, LLM, VLM์ ๊ฒฐํฉํ OPEN ์์คํ
๊ณผ ์ด๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ OpenBench๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ค๋น๊ฒ์ด์
๋ฐฉ์์ ๊ณ ์ ๋ฐ ์ง๋์ ์์กดํ๋ฉฐ ์์ ์ง์ฝ์ ์ด๊ณ , ํ์ต ๊ธฐ๋ฐ ๋ฐฉ์์ ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ์ ์ด๋ ค์์ด ์๋ค. ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ์ค๋ด ํ๊ฒฝ์ ์ด์ ์ ๋ง์ถฐ ์ผ์ธ ๋ฐฐ์ก ํ๊ฐ์ ๋ถ์ ์ ํ๋ค.
- Gap: ์ผ์ธ ์ฃผํ๊ฐ ๋ฐฐ์ก์ ์ค์ ๋์ ์ ๋ฐ์ํ๋ ์ฅ๊ธฐ ์ด์ ํ๊ฐ ๋ฒค์น๋งํฌ๊ฐ ๋ถ์กฑํ๊ณ , ์ฌ์ ๋งคํ ์์ด ํ์ฅ ๊ฐ๋ฅํ ์ผ์ธ ์๋งจํฑ ๋ค๋น๊ฒ์ด์
์์คํ
์ด ํ์ํ๋ค.
- Why: ์์จ ๋ฐฐ์ก ๋ก๋ด์ ํจ์จ์ ์ธ ๋ง์ง๋ง ๋ฐฐ์ก ๊ตฌ๊ฐ ํด๊ฒฐ์ ๋ก์ง์คํฑ์ค ๋น์ฉ ์ ๊ฐ๊ณผ ์ด์ ํจ์จ์ฑ ํฅ์์ ํ์์ ์ด๋ฉฐ, ์ค์ ๋ฐฐ์ก ํ๊ฒฝ์ ๋ณต์ก์ฑ์ ๋ฐ์ํ ๋ฒค์น๋งํฌ๋ ์ ๋ขฐํ ์ ์๋ ์์คํ
๊ฐ๋ฐ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: OPEN ์์คํ
์ OpenStreetMap์ ๊ฒฝ๋ ์ง๋ ํํ, LLM์ ์์ฐ์ด ์ดํด, VLM์ ๊ธ๋ก๋ฒ ๋ก์ปฌ๋ผ์ด์ ์ด์
๊ณผ ํ์ฐ์ค ๋๋ฒ ์ธ์์ ๊ฒฐํฉํ์ฌ GPS ์๋ ๋ค๋น๊ฒ์ด์
์ ๊ตฌํํ๋ค. OpenBench ๋ฒค์น๋งํฌ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ SRTP, SR, SPL ๋ฉํธ๋ฆญ์ผ๋ก ํ๊ฐํ๋ค.
Achievement
Fig. 1.
- ์ผ์ธ ๋ฐฐ์ก์ฉ ์๋ก์ด ๋ฒค์น๋งํฌ: ์ฃผํ๊ฐ์ ๋ง์ง๋ง ๋ฐฐ์ก์ ์ํด ์ค๊ณ๋ OpenBench๋ฅผ ์ ์ํ์ฌ ๊ธฐ์กด ์ค๋ด ์ค์ฌ ๋ฒค์น๋งํฌ์ ํ๊ณ๋ฅผ ๋ณด์
- ํ์ฅ ๊ฐ๋ฅํ ๊ธฐ์ ์์คํ
: ์ฌ์ ๋งคํ ์์ด ๊ณต๊ฐ OpenStreetMap ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ OPEN ์์คํ
์ผ๋ก ๋๊ท๋ชจ ๋ฐฐํฌ์ ์ฉ์ด์ฑ ๋ฌ์ฑ
- ๊ธฐ์ด ๋ชจ๋ธ๊ณผ ๊ณ ์ ์๊ณ ๋ฆฌ์ฆ์ ่ๅ: LLM์ ํตํ ์์ฐ์ด ์ดํด์ VLM์ ํตํ ๋ก์ปฌ๋ผ์ด์ ์ด์
, ์ง๋ ์
๋ฐ์ดํธ, ํ์ฐ์ค ๋๋ฒ ์ธ์์ ํตํฉํ์ฌ GPS ์๋ ์ ๋ขฐํ ์ ์๋ ๋ค๋น๊ฒ์ด์
๊ตฌํ
- ์คํ ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ์คํ์ ํตํด OPEN ์์คํ
์ ํจ์จ์ฑ๊ณผ ์ ๋ขฐ์ฑ ์
์ฆ ๋ฐ ์ฝ๋์ ๋ฒค์น๋งํฌ ๊ณต๊ฐ
How
Fig. 1.
- OpenStreetMap์ ๊ฒฝ๋ ์ง๋ ํํ์ผ๋ก ํ์ฉํ์ฌ ์ฌ์ ๊ณ ์ ๋ฐ ๋งคํ ๋น์ฉ ์ ๊ฑฐ
- LLM์ ํตํด ์์ฐ์ด ๋ฐฐ์ก ์ง์์ฌํญ์ ํ์ฑํ์ฌ ๋ค์ค ๋ฐฐ์ก ๋ชฉ์ ์ง์ ์์
์์ ๊ณํ (Task Planning)
- VLM (CLIP ๊ธฐ๋ฐ์ผ๋ก ์ถ์ )์ ์ด์ฉํ ๊ธ๋ก๋ฒ ๋ก์ปฌ๋ผ์ด์ ์ด์
์ผ๋ก GPS ์์ด ์์น ๊ฒฐ์
- VLM ๊ธฐ๋ฐ ํ์ฐ์ค ๋๋ฒ ์ธ์์ผ๋ก ์ ํํ ๋ชฉ์ ์ง ์๋ณ
- Gazebo ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ์ํ, ์คํ, ๋ํ 3๋จ๊ณ ๋ณต์ก๋์ ์๋ ๋ชจ๋ธ ๊ตฌ์ถ
- SRTP (Success Rate of Task Planning), SR (Success Rate), SPL (Success Weighted by Path Length) ๋ฉํธ๋ฆญ์ผ๋ก ์ฅ๊ธฐ ์ด์ ๋ฅ๋ ฅ ํ๊ฐ
Originality
- ์ผ์ธ ๋ง์ง๋ง ๋ฐฐ์ก ์๋๋ฆฌ์ค์ ํนํ๋ ์ฒซ ๋ฒค์น๋งํฌ ์ ์๋ก ๊ธฐ์กด ์ค๋ด ๋ค๋น๊ฒ์ด์
๋ฒค์น๋งํฌ์ ์ฐจ๋ณํ
- OpenStreetMap ๊ธฐ๋ฐ์ ๊ฒฝ๋ ์ง๋ ํํ์ foundation model๊ณผ ๊ฒฐํฉํ ์๋ก์ด ์ ๊ทผ์ผ๋ก ํ์ฅ์ฑ ์ ๊ณ
- LLM ๊ธฐ๋ฐ ์์ฐ์ด ์์
๊ณํ๊ณผ VLM ๊ธฐ๋ฐ ๊ธ๋ก๋ฒ ๋ก์ปฌ๋ผ์ด์ ์ด์
์ ํตํฉํ GPS-free ๋ค๋น๊ฒ์ด์
์ ๋ต์ ๊ตฌ์ฒด์ ๊ตฌํ
- ๋ค์ค ๋ฐฐ์ก ์ง์ (multi-delivery) ์๋๋ฆฌ์ค๋ฅผ ํ๊ฐํ๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ์ฐพ๊ธฐ ์ด๋ ค์ด ํ์ค์ฑ ๋์ ๋ฌธ์ ์ ์
Limitation & Further Study
- ๊ธฐ์กด ๋ฐ์ท์์ VLM ๋ชจ๋ธ ์ ํ์ ๊ตฌ์ฒด์ ๊ทผ๊ฑฐ์ ์ ๋์ ์ ํ๋ ๋ฐ์ดํฐ๊ฐ ์ ์๋์ง ์์
- OpenStreetMap์ ๋ฐ์ดํฐ ์ง์ด ์ง์ญ๋ณ๋ก ํธ์ฐจ๊ฐ ์์ ์ ์๋๋ฐ ์ด์ ๋ํ ๋์ ๋ฐฉ์ ๋ฏธํก
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ์ ๋๋ฉ์ธ ๊ฐญ (sim-to-real transfer)์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ์ฅ๊ธฐ ๋ค๋น๊ฒ์ด์
์์ ๋์ ์ค๋ฅ๋ ์ง๋ ์
๋ฐ์ดํธ ์คํจ ์๋๋ฆฌ์ค์ ๋ํ ์์ธํ ๋
ผ์ ํ์
- ๋ค์ํ ๋ ์จ, ์กฐ๋ช
, ๊ณ์ ๋ณํ ๋ฑ ํ์ค์ ์ผ์ธ ์กฐ๊ฑด์์์ VLM ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ์ ๋ํ ๊ฒํ ํ์
- ํ์ ์ฐ๊ตฌ์์๋ ์ค์ ๋ฐฐ์ก ํ๊ฒฝ์์์ ๋๊ท๋ชจ ์ฅ๊ธฐ ํ
์คํธ์ ๋ค์ํ ๋์ ํ๊ฒฝ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ผ์ธ ๋ง์ง๋ง ๋ฐฐ์ก์ด๋ผ๋ ์ค์ ๋ฌธ์ ์ ์ด์ ์ ๋ง์ถ ์๋ก์ด ๋ฒค์น๋งํฌ์ ํ์ฅ ๊ฐ๋ฅํ ๊ธฐ์ ์์คํ
์ ์ ์ํ์ฌ ์ค๋งํธ ๋ก์ง์คํฑ์ค ๋ถ์ผ์ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ํ๋ค. Foundation model๊ณผ ๊ณ ์ ์๊ณ ๋ฆฌ์ฆ์ ํจ๊ณผ์ ๊ฒฐํฉ์ผ๋ก GPS-free ๋ค๋น๊ฒ์ด์
์ ์คํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ผ๋, ์ค์ ํ๊ฒฝ ์ ์์ฑ๊ณผ ์ฅ๊ธฐ ์ด์ ์์ ์ฑ์ ๋ํ ์ฌ์ธต ๋ถ์์ด ๋ณด์๋๋ฉด ๋์ฑ ์์ฑ๋ ๋์ ์ฐ๊ตฌ๊ฐ ๋ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์