Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision
์ ์: Xiaofeng Han, Shunpeng Chen, Zenghuang Fu, Zhe Feng, Lue Fan, Dong An, Changwei Wang, Li Guo, Weiliang Meng, Xiaopeng Zhang, Rongtao Xu, Shibiao Xu | ๋ ์ง: 2025-04-03 | URL: https://arxiv.org/abs/2504.02477 📄 PDF
Essence
Figure 1: The overview figure illustrates the overall framework of multimodal fusion and VLMs for robot vision. Various
๋ก๋ด ๋น์ ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ ๊ธฐ๋ฒ๊ณผ Vision-Language Model(VLM)์ ์์ฉ์ ์ฒด๊ณ์ ์ผ๋ก ๋ฆฌ๋ทฐํ๋ฉฐ, encoder-decoder, attention, graph neural network ๋ฑ์ ์ตํฉ ์ ๋ต๊ณผ SLAM, 3D ๊ฐ์ฒด ๊ฐ์ง, ๋ค๋น๊ฒ์ด์
, ์กฐ์ ๋ฑ ํต์ฌ ๋ก๋ด ํ์คํฌ์์์ ์ค์ ๊ตฌํ์ ๋ถ์ํ๋ค.
Motivation
- Known: ์ ํต์ ์ธ unimodal ์ ๊ทผ๋ฒ์ occlusion, ์กฐ๋ช
๋ณํ, ํ
์ค์ฒ ๋ถ์กฑ ๋ฑ์ ๋ณต์กํ ํ๊ฒฝ์์ ์ธ์ ์ ์ฝ์ ๊ฒช์ผ๋ฉฐ, encoder-decoder, Transformer, contrastive learning ๋ฑ์ด ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ์์กด์ฑ ๋ชจ๋ธ๋ง์ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ฆฌ๋ทฐ๋ค์ semantic segmentation๊ณผ object detection ๊ฐ์ ๊ธฐ๋ณธ ํ์คํฌ์ ์ฃผ๋ก ์ง์คํ์์ผ๋ฉฐ, multimodal SLAM, ๋ก๋ด ์กฐ์, embodied navigation ๊ฐ์ ๋ณต์กํ ์ถ๋ก ๊ณผ ์ฅ๊ธฐ ๊ฒฐ์ ํ์คํฌ์ ๋ํ ์ฒด๊ณ์ ๋ถ์์ด ๋ถ์กฑํ๋ค.
- Why: ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ๊ณผ VLM์ ๋ก๋ด์ ๊ฐ๊ฑดํ ์ฅ๋ฉด ์ดํด, ์ผ๋ฐํ, ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๋์ ์ด๊ณ ๋ถ์์ ํ๊ฒ ๊ด์ฐฐ ๊ฐ๋ฅํ ํ๊ฒฝ์์์ ์ค์ฉ์ ๊ฐ์น๊ฐ ํฌ๋ค.
- Approach: task-oriented ๊ด์ ์์ semantic scene understanding, SLAM, 3D detection, navigation, manipulation ๋ฑ 5๊ฐ ํต์ฌ ํ์คํฌ์ ๋ํด ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ ์ํคํ
์ฒ์ VLM์ ๋น๊ต ๋ถ์ํ๋ฉฐ, ์ฃผ์ ๋ฐ์ดํฐ์
๊ณผ ์ค์ ๋ฐฐํฌ ์ ์ง๋ฉดํ๋ ๊ณผ์ ๋ฅผ ๋์ถํ๋ค.
Achievement
Figure 1: The overview figure illustrates the overall framework of multimodal fusion and VLMs for robot vision. Various
- ์ ํต์ ์ตํฉ๊ณผ VLM์ ํตํฉ ๋ถ์: ์ํคํ
์ฒ ์ค๊ณ, ๊ธฐ๋ฅ ํน์ฑ, ์ ์ฉ ํ์คํฌ ์ธก๋ฉด์์ encoder-decoder, attention, graph neural network ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ LLM ๊ธฐ๋ฐ VLM์ ์ฐ๊ฒฐ์ฑ๊ณผ ์ํธ๋ณด์์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๋น๊ต
- ๋ณต์กํ ๋ก๋ด ํ์คํฌ ํ์ฅ: multimodal SLAM, ๋ก๋ด ์กฐ์, embodied navigation ๋ฑ ๋ณต์กํ ์ถ๋ก ๊ณผ ์ฅ๊ธฐ ๊ฒฐ์ ํ์คํฌ์์์ ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ๊ณผ VLM์ ์ ์ฌ๋ ฅ์ ์์ฐ
- ๋ฉํฐ๋ชจ๋ฌ ์ฐ์ ๋ช
ํํ: unimodal ์ ๊ทผ๋ฒ ๋๋น ๊ฐํ๋ ์ธ์ ๊ฐ๊ฑด์ฑ, ์๋ฏธ๋ก ์ ํํ์ฑ, cross-modal alignment, ๊ณ ์์ค ์ถ๋ก ์ ์ด์ ๊ฐ์กฐ
- ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์
์ฒด๊ณํ: ๋ชจ๋ฌ ์กฐํฉ, ์ปค๋ฒ ํ์คํฌ, ์ ์ฉ ์๋๋ฆฌ์ค, ํ๊ณ๋ฅผ ํฌํจํ ์ฃผ์ ๋ก๋ด ๋ฐ์ดํฐ์
์ ์ฌ์ธต ๋ถ์ ์ ๊ณต
- ํต์ฌ ๊ณผ์ ๋ฐ ๋ฏธ๋ ๋ฐฉํฅ ์ ์: cross-modal alignment, efficient training, real-time optimization ๊ณผ์ ๋ฅผ ์๋ณํ๊ณ self-supervised learning, structured spatial memory, adversarial robustness ๋ฑ ํด๊ฒฐ์ฑ
์ ์
How
Figure 1: The overview figure illustrates the overall framework of multimodal fusion and VLMs for robot vision. Various
- Encoder-decoder framework๋ฅผ ํตํ heterogeneous ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ ๋ฐ unified feature representation ์ค๊ณ
- Attention-based ์ํคํ
์ฒ๋ฅผ ์ด์ฉํ modality alignment๊ณผ cross-modal attention ๋ฉ์ปค๋์ฆ ์ ์ฉ
- Graph neural network๋ฅผ ํ์ฉํ scene ๋ด relational structure ๋ชจ๋ธ๋ง
- Transformer ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ก ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ์์กด์ฑ ๋ชจ๋ธ๋ง
- Contrastive learning๊ณผ ์์ฒด ์ง๋ ํ์ต(self-supervised learning)์ ํตํ robust multimodal representation ํ์ต
- ๋๊ท๋ชจ pretrained VLM (LLM ๊ธฐ๋ฐ)์ zero-shot, instruction following, visual question answering ๋ฅ๋ ฅ ํ์ฉ
- SLAM, 3D detection, navigation, manipulation ๋ฑ 5๊ฐ ํต์ฌ ํ์คํฌ์์์ ์ค์ ๊ตฌํ ๋ถ์
- ๊ณต๊ฐ ๋ฐ์ดํฐ์
์ ๋ชจ๋ฌ ์กฐํฉ, ์ปค๋ฒ๋ฆฌ์ง, ํ๊ณ ํ๊ฐ
Originality
- ์ ํต์ multimodal fusion ๋ฐฉ๋ฒ๊ณผ emerging VLM์ ํตํฉํ์ฌ ์ํคํ
์ฒ, ๊ธฐ๋ฅ, ์ ์ฉ ์ธก๋ฉด์์ ์ฒด๊ณ์ ์ผ๋ก ๋น๊ต ๋ถ์ํ ์ต์ด์ ์ข
ํฉ ๋ฆฌ๋ทฐ
- ๊ธฐ์กด ๋ฆฌ๋ทฐ ๋๋น 5๊ฐ ํต์ฌ ๋ก๋ด ํ์คํฌ(semantic understanding, SLAM, 3D detection, navigation, manipulation)๋ฅผ ๋ชจ๋ ํฌํจํ ํ์ฅ๋ ์ค์ฝํ
- Cross-modal self-supervised learning๊ณผ lightweight fusion ๋ฐฉ๋ฒ๋ก ์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃฌ ์ฒซ ๋ฒ์งธ ๋ฆฌ๋ทฐ
- Multimodal SLAM๊ณผ embodied navigation ๊ฐ์ ๋ณต์กํ ์ฅ๊ธฐ ๊ฒฐ์ ํ์คํฌ์์์ VLM ํ์ฉ ๋ถ์์ ์ต์ด๋ก ์ ์
- Real-world robotic deployment ๊ด์ ์์์ domain adaptation, adversarial robustness, human feedback ํตํฉ ๋ฑ ์ค์ฉ์ ๊ณผ์ ์ ์
Limitation & Further Study
- ํ์ฌ ๋ฆฌ๋ทฐ์ ๋ฒ์๊ฐ RGB, depth, LiDAR, tactile ๋ฑ ๊ธฐ๋ณธ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ์ฃผ๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, thermal, event-based camera ๋ฑ ์ถ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ํ์ฉ ๊ฐ๋ฅ์ฑ ๋ฏธํก
- Cross-modal alignment ๋ฌธ์ ์ ๋ํ ์ผ๋ฐํ๋ ์๋ฃจ์
์ด ๋ถ์ฌํ์ฌ task-specific ํด๋ฒ์ ์์กด
- ์ ํ๋ ์ฃผ์ ๋ฐ์ดํฐ(limited annotated data)์ ๋์ ํ๊ฒฝ์์ pretrained VLM์ ์ ์์ฑ ์ฌ์ ํ ์ ํ์
- Real-time deployment์ ๊ณ์ฐ ํจ์จ์ฑ ๊ฐ์ trade-off์ ๋ํ ๊ตฌ์ฒด์ ์ค๊ณ ์ง์นจ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) efficient training ๋ฉ์ปค๋์ฆ์ผ๋ก computational cost ๊ฐ์, (2) cross-modal self-supervised learning ๊ฐํ, (3) structured spatial memory์ environment modeling์ผ๋ก spatial intelligence ํฅ์, (4) adversarial robustness์ human feedback ํตํฉ์ผ๋ก ์ค๋ฆฌ์ ๋ฐฐํฌ ์คํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋ฆฌ๋ทฐ๋ ๋ก๋ด ๋น์ ๋ถ์ผ์์ ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ๊ณผ VLM์ ์์ฉ์ ๊ฐ์ฅ ํฌ๊ด์ ์ผ๋ก ๋ค๋ฃฌ ์ฒซ ๋ฒ์งธ ์ข
ํฉ ๋ฆฌ๋ทฐ๋ก์, 5๊ฐ ํต์ฌ ๋ก๋ด ํ์คํฌ, cross-modal self-supervised learning, lightweight fusion ๋ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ ๋ช
ํํ ๋ฏธ๋ ๋ฐฉํฅ์ ์ ์ํ์ฌ ํฅํ ๋ก๋ด ๋น์ ์ฐ๊ตฌ์ ์ค์ํ ์ฐธ๊ณ ์๋ฃ๊ฐ ๋ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์