Position: Multimodal large language models can significantly advance scientific reasoning

์ €์ž: Yibo Yan, Shen Wang, Jiahao Huo, Jingheng Ye, Zhendong Chu, Xuming Hu, Philip S. Yu, Carla Gomes, Bart Selman, Qingsong Wen | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2502.02871 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(MLLM)์ด ์ˆ˜ํ•™, ๋ฌผ๋ฆฌํ•™, ํ™”ํ•™, ์ƒ๋ฌผํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ๊ณผํ•™์  ์ถ”๋ก (Scientific Reasoning)์„ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ž…์žฅ์„ ์ œ์‹œํ•˜๋Š” ์œ„์น˜ ๋…ผ๋ฌธ(Position Paper)์ด๋‹ค. ์ €์ž๋“ค์€ MLLM์˜ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๊ธฐํƒ€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ†ตํ•ฉ ๋Šฅ๋ ฅ์ด ํ˜„์žฌ ๊ณผํ•™ ์ถ”๋ก  ๋ชจ๋ธ์˜ ๋„๋ฉ”์ธ ๊ฐ„ ์ผ๋ฐ˜ํ™” ๋ถ€์กฑ๊ณผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ง€ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.

Motivation

Achievement

Figure 1: ์ €์ž๋“ค์˜ ์ž…์žฅ์˜ ์ „์ฒด์ƒ. (a) ์ˆ˜ํ•™, ๋ฌผ๋ฆฌ, ํ™”ํ•™, ์ƒ๋ฌผ ๋“ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ๋ถ„์•ผ ๋ฒ”์œ„ (b) ๋‹ค์–‘ํ•œ ์ถ”๋ก  ํ•จ์ˆ˜๋ฅผ ๊ฐ€์ง„ MLLM ํ™œ์šฉ (c) AGI ๋‹ฌ์„ฑ๊นŒ์ง€์˜ 4๋‹จ๊ณ„ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๋กœ๋“œ๋งต
  1. 4๋‹จ๊ณ„ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๋กœ๋“œ๋งต ์ œ์‹œ:
    • Stage 1 (๊ด‘๋ฒ”์œ„ ์ง€์‹ ๋ฐ ์ธ์‹): ํŒจํ„ด ์ธ์‹๊ณผ ๋ฐ์ดํ„ฐ ์ •๋ ฌ ์ค‘์‹ฌ
    • Stage 2 (์œ ์ถ”์  ์ถ”๋ก  ๋ฐ ์ผ๋ฐ˜ํ™”): ๋„๋ฉ”์ธ ๊ฐ„ ๊ด€๊ณ„ ํŒŒ์•…๊ณผ ์ „์ด ํ•™์Šต
    • Stage 3 (ํ†ต์ฐฐ๋ ฅ ์žˆ๋Š” ์ถ”๋ก ): ์ตœ์†Œ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์‹ฌ์ธต์  ํ†ต์ฐฐ ๋„์ถœ
    • Stage 4 (์ฐฝ์˜์  ๊ฐ€์„ค ์ƒ์„ฑ): ํ˜์‹ ์  ๊ฐ€์„ค ์ œ์•ˆ๊ณผ ๊ณผํ•™ ๋ฐœ๊ฒฌ
  2. MLLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ถ”๋ก  5๊ฐ€์ง€ ํŒจ๋Ÿฌ๋‹ค์ž„ ๋ถ„๋ฅ˜: ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ(Data Integration), ํŒจํ„ด ์ธ์‹, ๋งฅ๋ฝ์  ์ดํ•ด ๋“ฑ ๋‹จ๊ณ„์  ๋Šฅ๋ ฅ ํ–ฅ์ƒ ๊ฒฝ๋กœ ์ œ์‹œ
  3. ๋„๋ฉ”์ธ๋ณ„ ๋ฐ์ดํ„ฐ ์ด์งˆ์„ฑ ๋ถ„์„: ์ˆ˜ํ•™(์ถ”์ƒ ๊ธฐํ˜ธ/์ˆ˜์‹), ๋ฌผ๋ฆฌํ•™(๋‹ค์ด์–ด๊ทธ๋žจ/๊ณต์‹), ํ™”ํ•™(๋ถ„์ž ๊ตฌ์กฐ), ์ƒ๋ฌผํ•™(์‹ค์ œ ์ด๋ฏธ์ง€/๊ฐœ๋…) ๋“ฑ ๋ถ„์•ผ๋ณ„ ๊ณ ์œ  ํŠน์„ฑ ์ฒด๊ณ„ํ™”

How

Figure 2: MLLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์ถ”๋ก  ํŒจ๋Ÿฌ๋‹ค์ž„ ๋ฐ ํ•ด๋‹น ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐœ์š”

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ MLLM์˜ ๊ณผํ•™์  ์ถ”๋ก  ์‘์šฉ์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์œ„์น˜๋ฅผ ์ œ์‹œํ•˜๋Š” ์„ ๋„์  ์—ฐ๊ตฌ๋กœ, 4๋‹จ๊ณ„ ๋กœ๋“œ๋งต๊ณผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•ด ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ๊ฒƒ์ด ๊ฐ•์ ์ด๋‹ค. ๋‹ค๋งŒ ์œ„์น˜ ๋…ผ๋ฌธ์˜ ํŠน์„ฑ์ƒ ๊ตฌ์ฒด์  ์‹ค์ฆ๊ณผ ๊ธฐ์ˆ ์  ๊นŠ์ด๊ฐ€ ์ œํ•œ์ ์ด๋ฏ€๋กœ, ํ›„์† ๋…ผ๋ฌธ๋“ค์—์„œ ๊ฐ ๋‹จ๊ณ„๋ณ„ยท๋„๋ฉ”์ธ๋ณ„ ๊ตฌ์ฒด์  ๊ตฌํ˜„๊ณผ ๋ฒค์น˜๋งˆํ‚น์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(Gemini)์˜ ๊ตฌ์กฐ์™€ ์„ฑ๋Šฅ ๋ฐ ์—ฌ๋Ÿฌ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ์˜ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์„ค๋ช…ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ LLM์˜ ๋™ํ–ฅ๊ณผ ์‹ค์ œ ์‘์šฉ์— ๋Œ€ํ•œ ์„œ๋ฒ ์ด๋กœ, ๋ณธ ๋…ผ๋ฌธ์ด ๋‹ค๋ฃจ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ์ถ”๋ก ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
627๋ฒˆ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ถ”๋ก  ์ผ๋ฐ˜ํ™”๋ฅผ ์ฃผ์žฅํ•˜๊ณ , 660๋ฒˆ์€ ๋„์‹œ ์ธ๊ณผ์—ฐ๊ตฌ ํŒŒ์ดํ”„๋ผ์ธ ์ „์ฒด๋ฅผ ์ž๋™ํ™”ํ•œ ์‹ค์ œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌ์ฒดํ™”์‹œํ‚จ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€ํ•™ ์ˆ˜์ค€ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๋ฒค์น˜๋งˆํฌ๋กœ, ๋‹ค์–‘ํ•œ ๋„๊ตฌ์™€ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ ๋ชจ๋‹ฌ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์ด ๋…ผ๋ฌธ์˜ ์ฃผ์žฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
614๋ฒˆ์€ ์žฌ๋ฃŒ๊ณผํ•™ ์ž๋™ํ™” ์‹คํ—˜์‹ค์— ์ดˆ์ ์„ ๋‘๊ณ , 627๋ฒˆ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์ด ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ๊ณผํ•™์  ์ถ”๋ก  ํ–ฅ์ƒ์„ ์ฃผ์žฅํ•˜์—ฌ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณ ๋ถ„์ž ๋‚˜๋…ธ๋ธŒ๋Ÿฌ์‹œ ํ•ฉ์„ฑ ๋ฐ ๊ณ„๋ฉด ํŠน์„ฑ ๋ถ„์„์—์„œ, AI/ML ๊ธฐ๋ฐ˜ ํฌํ…์…œ ์ ์šฉ ์˜ˆ์‹œ๋กœ ์„œ๋กœ ๋ณด์™„์  ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
720๋ฒˆ ๋…ผ๋ฌธ์€ ์ƒ๋ฌผยทํ™”ํ•™ ๋“ฑ ๊ณผํ•™๋ถ„์•ผ๋ฅผ ์œ„ํ•œ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ๋‹ค๋ฃจ๋ฉฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ณผํ•™์  ์ ์šฉ ๋…ผ์˜๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
523์—์„œ ์ง€์ ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์žฌ๋ฃŒ๊ณผํ•™ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„, 627์—์„œ ์žฌ๋ฃŒ ํ‰๊ฐ€ยท๋ฐœ๊ฒฌ์— ์‹ค์ œ๋กœ ์ ์šฉํ•œ ์‹ค์ฆ์  ์‚ฌ๋ก€๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Efficient and Equivariant Graph Networks ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ์‹ค์ œ ๋ถ„์ž ์„ค๊ณ„์™€ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์— ์ ์šฉํ•œ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•˜์—ฌ 627์˜ ์ฃผ์žฅ์„ ์‹ค๋ฌด์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
660๋ฒˆ์˜ UrbanCIA ํ”„๋ ˆ์ž„์›Œํฌ๋Š” LLM ๊ธฐ๋ฐ˜์œผ๋กœ ๋„์‹œ ์ธ๊ณผ์ถ”๋ก  ๋“ฑ ์ƒˆ๋กœ์šด ๊ณผํ•™์  ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ๊ตฌ์ฒด์  ์˜ˆ์‹œ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ์ฐจํŠธ ์ดํ•ด ํŠนํ™”๋กœ ํŠœ๋‹ํ•˜์—ฌ ์ฐจ๋ณ„ํ™”๋œ ๊ณผํ•™์  ์ถ”๋ก  ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
627๋ฒˆ์—์„œ ์ฃผ์žฅํ•˜๋Š” LLM์„ ํ†ตํ•œ ๊ณผํ•™์  ์ถ”๋ก ยท์‹คํ—˜ ํ˜์‹  ๋…ผ์˜๋Š”, 631๋ฒˆ์ฒ˜๋Ÿผ ๊ฒฝ์ œํ•™ ํ˜„์žฅ์‹คํ—˜ ์ž๋™ ์˜ˆ์ธก ๋“ฑ ๊ตฌ์ฒด์  ์‚ฌ๋ก€์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •