Magma: A Foundation Model for Multimodal AI Agents
์ ์: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao | ๋ ์ง: 2025-02-18 | URL: https://arxiv.org/abs/2502.13130 📄 PDF
Essence
Figure 1. We introduce Magma, the first foundation model that is capable of interpreting and grounding multimodal inputs
Magma๋ ๋์งํธ ๋ฐ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์์ UI ๋ค๋น๊ฒ์ด์
๋ถํฐ ๋ก๋ด ์กฐ์๊น์ง ๋ค์ํ ์์ด์ ํธ ์์
์ ์ํํ ์ ์๋ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ด ๋ชจ๋ธ์ด๋ค. Set-of-Mark(SoM)๊ณผ Trace-of-Mark(ToM) ๊ธฐ๋ฒ์ ํตํด ์๊ณต๊ฐ ์ง๋ฅ์ ํ๋ํ์ฌ ์ธ์ด ์ดํด์ ํ๋ ์์ธก์ ๋์์ ์ํํ๋ค.
Motivation
- Known: Vision-Language(VL) ๋ชจ๋ธ์ ์ด๋ฏธ์ง์ ํ
์คํธ๋ฅผ ์ดํดํ์ง๋ง ๊ณต๊ฐ-์๊ฐ ํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ฉฐ, ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ํน์ ๋๋ฉ์ธ(2D ๋์งํธ ๋๋ 3D ๋ฌผ๋ฆฌ)์ ํนํ๋์ด ์์ด ๋ฒ์ฉ์ฑ์ด ๋ฎ๋ค. ์ต๊ทผ UI ์์ด์ ํธ์ ๋ก๋ด ์กฐ์์ ์ํ ๋ณ๋์ ๋ชจ๋ธ๋ค์ด ๊ฐ๋ฐ๋์์ผ๋ ๋ฉํฐํ์คํฌ ํ์ต์ ์ด์ ์ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๋ค.
- Gap: ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ ๋์์ ๋์งํธ๊ณผ ๋ฌผ๋ฆฌ ํ๊ฒฝ ๋ชจ๋์์ ๊ณต๊ฐ-์๊ฐ ํ๋ ์ถ๋ก ์ ์ํํ ์ ์๋ ํตํฉ๋ ๊ธฐ์ด ๋ชจ๋ธ์ด ๋ถ์ฌํ๋ค. ์ธ์ด ๊ธฐ๋ฐ ์ค๋ช
๊ณผ ๊ณต๊ฐ์ ํ๋ ์ขํ ๊ฐ์ ๊ฒฉ์ฐจ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค.
- Why: ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ด ๋ชจ๋ธ์ ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ๊ณตํ๋ฉฐ, ๋ฐฉ๋ํ ์ด๋ฏธ์ง-๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ๋ ๊ธฐ๋ฐ ์์
์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค. ์ด๋ AI ์์ด์ ํธ์ ์ค์ฉ์ ๋ฐฐํฌ ๋น์ฉ์ ํฌ๊ฒ ์ ๊ฐํ ์ ์๋ค.
- Approach: SoM๊ณผ ToM์ด๋ผ๋ ๋ ๊ฐ์ง ๋๋ฆฌ ์์
์ ๋์
ํ์ฌ ์ด๋ฏธ์ง์ ์ํธ์์ฉ ๊ฐ๋ฅํ ๊ฐ์ฒด์ ๋น๋์ค์ ๊ฐ์ฒด ์์ง์์ ํ์ํจ์ผ๋ก์จ ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ VLA ๋ฐ์ดํฐ๋ก ๋ณํํ๋ค. UI, ๋ก๋ด, ์ธ์คํธ๋ญ์
๋ ๋น๋์ค ๋ฑ ์ด์ง์ ๋ฐ์ดํฐ์
39๋ฐฑ๋ง ์ํ์ ํตํฉ ํ์ตํ์ฌ ๊ณต๊ฐ-์๊ฐ ์ง๋ฅ์ ํ๋ํ๋ค.
Achievement
Figure 1. We introduce Magma, the first foundation model that is capable of interpreting and grounding multimodal inputs
- UI ๋ค๋น๊ฒ์ด์
SOTA ๋ฌ์ฑ: Mind2Web, AITW ๋ฒค์น๋งํฌ์์ ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ก๋ด ์กฐ์ SOTA ๋ฌ์ฑ: Bridge, LIBERO ๋ก๋ด ์กฐ์ ๋ฒค์น๋งํฌ์์ OpenVLA, RT-2 ๋ฑ ๊ธฐ์กด ๋ชจ๋ธ ์ด๊ณผ
- ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ ์ ์ง: GQA, VideoMME, BLINK ๋ฑ VL ๋ฒค์น๋งํฌ์์ ํจ์ฌ ํฐ ๋ฐ์ดํฐ๋ก ํ์ตํ LMM๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์ฑ๋ฅ
- SoM๊ณผ ToM์ ์์น ํจ๊ณผ: ๋ ๊ธฐ๋ฒ์ ์กฐํฉ์ด ๊ณต๊ฐ-์๊ฐ ์ง๋ฅ ์ต๋์ ํจ๊ณผ์ ์ผ๋ก ์ด์งํจ์ ์ค์ฆ
- ๋ชจ๋ธ ๋ฐ ์ฝ๋ ๊ณต๊ฐ: ์ฌํ์ฑ์ ์ํด ๋ชจ๋ธ ๊ฐ์ค์น์ ์ฝ๋๋ฅผ ๊ณต๊ฐํ์ฌ ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ
How
Figure 4. Trace-of-Mark supervisions for robot manipulation (left) and human action (right). Same coordinate normalizati
- Set-of-Mark(SoM): ์ด๋ฏธ์ง์ ์ํธ์์ฉ ๊ฐ๋ฅํ ์๊ฐ ๊ฐ์ฒด(UI ๋ฒํผ ๋ฑ)์ ๋ฒํธ ํ์๋ฅผ ์๋์ผ๋ก ์ถ๊ฐํ์ฌ action grounding ํ์ต ๊ฐ๋ฅํ๊ฒ ๋ณํ
- Trace-of-Mark(ToM): ๋น๋์ค์์ ์ธ๊ฐ ์์ด๋ ๋ก๋ด ํ์ ์์ง์ ๊ถค์ ์ ์๋ ๋ ์ด๋ธ๋งํ์ฌ action planning ํ์ต
- ์ด์ง์ ๋ฐ์ดํฐ์
ํตํฉ: SeekClick(UI), OXE(๋ก๋ด), Ego-4D(์ธ์คํธ๋ญ์
๋ ๋น๋์ค), ์ด๋ฏธ์ง-ํ
์คํธ ์ ๋ฑ์ ๋จ์ผ ๋ชจ๋ธ๋ก ๋์ ํ์ต
- ์ํคํ
์ฒ ์ค๊ณ: Vision encoder๋ก ์๊ฐ ์ ๋ณด ์ถ์ถ, language model๋ก ์๋ฏธ ์ดํด, action decoder๋ก ํ๋ ์์ธก ์ํ
- Zero-shot ์ ์ด: ๋จ์ผ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ก ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ ์ง์ ์ ์ฉ ๊ฐ๋ฅ
Originality
- ์ฒซ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ์์ด์ ํธ ๊ธฐ์ด ๋ชจ๋ธ: ๋์งํธ/๋ฌผ๋ฆฌ ํ๊ฒฝ ๋ชจ๋์์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ํ๋ ์ถ๋ก ์ ์ํํ๋ ๋จ์ผ ๋ชจ๋ธ ์ ์
- SoM๊ณผ ToM์ ํ๊ฒฝ-๋ถ๊ฐ์ง๋ก ์ค๊ณ: ๋ ๊ธฐ๋ฒ์ด ๋๋ฉ์ธ ํน์ฑ์ ๋ฌด๊ดํ๊ฒ ํ์ฅ ๊ฐ๋ฅํ๋ฉฐ ๋ผ๋ฒจ ์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ฉ ๊ฐ๋ฅ
- ๋ฉํฐํ์คํฌ ๊ธฐ์ด ๋ชจ๋ธ ํ์ต ํจ๋ฌ๋ค์: ์ธ์ด ์ดํด์ ๊ณต๊ฐ ์ถ๋ก ์ ๊ฒฉ์ฐจ๋ฅผ ๋๋ฆฌ ์์
์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐ
- 39๋ฐฑ๋ง ์ํ ๊ท๋ชจ์ ์ด์ง์ ๋ฐ์ดํฐ์
๊ตฌ์ฑ: ๊ธฐ์กด ์์
๋ณ ๋ฒค์น๋งํฌ๋ฅผ ํตํฉํ๋ ์๋ก์ด ๋ฐ์ดํฐ ํ๋ ์ด์
์ ๊ทผ
Limitation & Further Study
- ๋๋ฉ์ธ ๊ฐ ์ ์ด ํ๊ณ: UI์ ๋ก๋ด ์กฐ์ ๊ฐ ์ง์ ์ ์ง์ ์ ์ด์ ํจ๊ณผ์ฑ์ด ๋ช
ํํ ๋ถ์๋์ง ์์
- SoM/ToM ์๋ ๋ ์ด๋ธ๋ง ์ ํ๋: ๋ณต์กํ ์ฅ๋ฉด์ด๋ ๋ถ๋ถ์ ํ์(occlusion) ์ํฉ์์์ ์๋ ๋ ์ด๋ธ๋ง ์ค๋ฅ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒํ
- ์ค์๊ฐ ํ๋ ์คํ ๋ฅ๋ ฅ: ๋ชจ๋ธ์ด ํ๋ ์ํ์ค๋ฅผ ์์ธกํ๋, ์ค์ ์์ด์ ํธ ์์คํ
๊ณผ์ ํตํฉ๊ณผ ํ์ ๋ฃจํ ์ฌ๊ณํ ๋ฅ๋ ฅ ํ๊ฐ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ ๋ง์ ๋ฌผ๋ฆฌ ๋ก๋ด ๋ฐ์ดํฐ๋ก์ ํ์ฅ, ๋ค์ค ๋ชจ๋ฌ ์ผ์ ์
๋ ฅ(์ด๊ฐ, ์ํฅ) ํตํฉ, ๋์ ํ๊ฒฝ์์์ ์จ๋ผ์ธ ์ ์ ํ์ต
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Magma๋ ๋ฉํฐ๋ชจ๋ฌ ์์ด์ ํธ ์ฐ๊ตฌ์์ ์ค์ํ ์ด์ ํ๋ฅผ ์ ์ํ๋ ์ค์ง์ ์ธ ๊ธฐ์ด ๋ชจ๋ธ์ด๋ฉฐ, SoM/ToM์ ํตํ ๋ฐ์ดํฐ ๋ณํ ๊ธฐ๋ฒ์ ์ฐ์ํจ๊ณผ ์ค์ฆ์ ์ฑ๊ณผ(UI ๋ฐ ๋ก๋ด SOTA)๊ฐ ๋์ ์ํฉํธ๋ฅผ ์์ฌํ๋ค. ๊ณต๊ฐ ๊ณต๊ฐ์ ํจ๊ป ์ถํ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ด ๋ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์