Beyond Medical Diagnostics: How Medical Multimodal Large Language Models Think in Space

์ €์ž: | ๋‚ ์งœ: 2026-03-14 | URL: https://arxiv.org/abs/2603.13800 📄 PDF


Essence

Figure 1

Figure 1. Task demonstrations in the SpatialMed, covering six spatial reasoning tasks, with corresponding 3D CT visualiz

์˜๋ฃŒ์šฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(MLLM)์˜ 3D ๊ณต๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด SpatialMed ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, 14๊ฐœ ์ตœ์ฒจ๋‹จ MLLM์„ ํ‰๊ฐ€ํ•˜์—ฌ ํ˜„์žฌ ๋ชจ๋ธ๋“ค์˜ ๊ณต๊ฐ„ ์ง€๋Šฅ ํ•œ๊ณ„๋ฅผ ๊ทœ๋ช…ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 3

Figure 3. Benchmark Statistics. Left: Distribution of annotated

How

Figure 2

Figure 2. Overview of three stages from the SpatialMed dataset pipeline. (1) Questionโ€“Answer Pair Generation, where agen

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์˜๋ฃŒ MLLM์˜ 3D ๊ณต๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์ž๋™ํ™”๋œ ์—์ด์ „ํŠธ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ ๊ณต๊ฐ„ VQA ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•จ์œผ๋กœ์จ ์˜๋ฃŒ AI์˜ ์ž„์ƒ์  ์ ์šฉ์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™์  ์‹œ๊ฐ์ •๋ณด ์ดํ•ด์˜ ํ†ตํ•ฉ์  ๊ด€์  ๋ฐ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ์ œ์‹œํ•˜์—ฌ, 3D ๊ณต๊ฐ„์ถ”๋ก  ์„ฑ๋Šฅ ํ‰๊ฐ€์˜ ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
181 ๋…ผ๋ฌธ์€ GPT-4V ๋“ฑ์˜ ์˜๋ฃŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์‹ค์ฆ์  ์‚ฌ๋ก€๋ฅผ ํ™œ์šฉํ•˜์—ฌ, SpatialMed์—์„œ ์ง€์ ๋œ ๊ณต๊ฐ„์ง€๋Šฅ ํ•œ๊ณ„๋ฅผ ์ž„์ƒํ™˜๊ฒฝ ๋งฅ๋ฝ์— ์ง์ ‘ ์—ฐ๊ณ„ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๊ณต๊ฐ„ ์ถ”๋ก  ๋˜๋Š” ์‹œ๊ฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€์•ˆ์  ๋ฒค์น˜๋งˆํฌ ๋˜๋Š” ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์‹œ๊ฐ-์–ธ์–ด ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ AI ๋ชจ๋ธ์˜ ์ง„๋‹จ ๋˜๋Š” ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ฒค์น˜๋งˆํ‚นํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ณต๊ฐ„์  ๋˜๋Š” ์‹œ๊ฐ์  ์ถ”๋ก  ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
166๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค ๋ฐ ์˜๊ณผํ•™ ๋ถ„์•ผ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ณต๊ฐ„ ์ถ”๋ก ๊ณผ ์ƒ๋ช…๊ณผํ•™์  ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ, SpatialMed์™€ ์‹œ๋„ˆ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ ์˜๋ฃŒ LLM/MLLM ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ํ•˜๋‚˜๋Š” ๋‹ค์ค‘๋ชจ๋‹ฌ3D ๊ณต๊ฐ„์ถ”๋ก , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์‹ค ์ž„์ƒ QA ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘”๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3040์€ 3D ๊ณต๊ฐ„์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•ด, Celcomen๊ณผ ๊ฐ™์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ ์˜ˆ์ธกยท๋ถ„์„ AI ์„ฑ๋Šฅ์„ ๋‹ค์ฐธ์กฐ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์˜๋ฃŒ ๋ถ„์•ผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€์™€ ์œ„ํ—˜์„ฑ, ์„ฑ๋Šฅ์„ ์‹ฌ์ธต์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
3040์€ ์˜๋ฃŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๋Šฅ๋ ฅ ํ™•์žฅ์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, 807์˜ ๋น„๋””์˜ค ์ค‘์‹ฌ ๋‹ค์ค‘๋ชจ๋“œ ์„ค๋ช… ์—์ด์ „ํŠธ๊ฐ€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
3051 ๋…ผ๋ฌธ์€ ๊ณต๊ฐ„ ๋‹จ๋ฐฑ์งˆ/์„ธํฌ ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ˆ์ธก/ํ•ด์„ํ•˜๋ฏ€๋กœ, SpatialMed์˜ 3D ๊ณต๊ฐ„ ์ถ”๋ก ๋ ฅ ํ‰๊ฐ€๋ฅผ ์‹ค์งˆ์  ์ƒ๋ฌผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •