MLLM-based discovery of intrinsic coordinates and governing equations from high-dimensional data

์ €์ž: Ruikun Li, Yan Lu*, Shixiang Tang, Biqing Qi, Wanli Ouyang | ๋‚ ์งœ: 2025 | ์†Œ์†: Shanghai Artificial Intelligence Laboratory | DOI: ๋ฏธ๊ธฐ์žฌ 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ์ œ์•ˆ๋œ ๋น„๋””์˜ค ๋ฐฉ์ •์‹ ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ. ๊ณ ์ฐจ์› ๊ด€์ธก ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋ฌผ๋ฆฌ ์ขŒํ‘œ๊ณ„ ๋ฐœ๊ฒฌ๊ณผ ์ง€๋ฐฐ ๋ฐฉ์ •์‹ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์„ ํ™œ์šฉํ•˜์—ฌ ๊ณ ์ฐจ์› ๋™์˜์ƒ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ €์ฐจ์› ๋ฌผ๋ฆฌ ์ขŒํ‘œ๊ณ„์™€ ์ง€๋ฐฐ ๋ฐฉ์ •์‹์„ ์ž๋™์œผ๋กœ ๋ฐœ๊ฒฌํ•˜๋Š” Video Equation Reasoning (VER) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ํ–ฅ์ƒ๋œ ์‹œ๊ฐ์  ํ”„๋กฌํ”„ํŠธ์™€ ๊ฐ€์„ค-ํ‰๊ฐ€-๋ฐ˜๋ณต ์ถ”๋ก  ์ฒด์ธ์„ ํ†ตํ•ด ์ข…๋ž˜ ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์™ธ์‚ฝ ์ •ํ™•๋„๋ฅผ ์•ฝ 26.96% ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ํ”ฝ์…€ ์ขŒํ‘œ ์‹œ์Šคํ…œ์˜ ์ถ”๋ก  ๊ฒฐ๊ณผ. ํŒŒ๋ž€์ƒ‰์€ ๊ทธ๋ผ์šด๋“œ ํŠธ๋ฃจ์Šค, ๋…น์ƒ‰๊ณผ ํšŒ์ƒ‰ ์ ์„ ์€ ์ œ์•ˆ ๋ฐฉ๋ฒ•์˜ ๊ถค์ 

Figure 3

๊ทธ๋ฆผ 3: ์ž ์žฌ ์ขŒํ‘œ ์‹œ์Šคํ…œ์˜ ์ถ”๋ก  ๊ฒฐ๊ณผ

  1. ๋ฌผ๋ฆฌ ์ขŒํ‘œ ์ž๋™ ๋ฐœ๊ฒฌ: ์„ธ ๊ฐ€์ง€ ํ–ฅ์ƒ๋œ ์‹œ๊ฐ์  ํ”„๋กฌํ”„ํŠธ ๋„๊ตฌ(Spatial Measurement, Regional Amplifier, Plot Replayer)๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ MLLM์˜ ๊ณต๊ฐ„ ์ธ์‹ ๋Šฅ๋ ฅ ๊ฐ•ํ™”. ํ”ฝ์…€ ์ขŒํ‘œ์™€ ์ž ์žฌ ์ขŒํ‘œ ๋‘ ์œ ํ˜• ๋ชจ๋‘์— ๋Œ€์‘ ๊ฐ€๋Šฅ.
  2. ๋ฐฉ์ •์‹ ์ถ”๋ก  ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๊ฐ€์„ค-ํ‰๊ฐ€-๋ฐ˜๋ณต(hypothesis-assessment-iteration) ์ถ”๋ก  ์ฒด์ธ์„ ํ†ตํ•ด MLLM์˜ ์‚ฌ์ „ํ•™์Šต ์ง€์‹์„ ๋ฐฉ์ •์‹ ํƒ์ƒ‰์— ํ™œ์šฉ. ๊ธฐ์กด symbolic regression ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์™ธ์‚ฝ ์ •ํ™•๋„ 26.96% ํ–ฅ์ƒ ๋‹ฌ์„ฑ.
  3. ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ฒ€์ฆ: ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ Kรกrmรกn vortex street ๋“ฑ ์‹คํ—˜ ๋ฐ์ดํ„ฐ์—์„œ๋„ ํšจ๊ณผ์„ฑ ์ž…์ฆ.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰

๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์‹œ๊ฐ ์ธ์‹ ๋Šฅ๋ ฅ๊ณผ ์‚ฌ์ „ํ•™์Šต ์ง€์‹์„ ๋ฌผ๋ฆฌ ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ์ด๋ผ๋Š” ๋„์ „์ ์ธ ๋ฌธ์ œ์— ์ฐฝ์˜์ ์œผ๋กœ ์ ์šฉํ•œ ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ํ–ฅ์ƒ๋œ ์‹œ๊ฐ์  ํ”„๋กฌํ”„ํŠธ(ํŠนํžˆ Spatial Measurement, Regional Amplifier)๋Š” MLLM์˜ ๊ณต๊ฐ„ ์ธ์‹ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ์‹ค์šฉ์  ํ•ด๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ ๋ถ„์„, ๋…ธ์ด์ฆˆ ๊ฐ•๊ฑด์„ฑ, ๋” ๋ณต์žกํ•œ ๋™์—ญํ•™ ์‹œ์Šคํ…œ์œผ๋กœ์˜ ํ™•์žฅ์ด ํ•„์š”ํ•˜๋ฉฐ, ์ ˆ๋Œ€ ์„ฑ๋Šฅ ์ˆ˜์น˜์™€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ธ๋ถ€์‚ฌํ•ญ์˜ ๋ช…ํ™•ํ•œ ๊ธฐ์ˆ ์ด ์ถ”๊ฐ€๋˜๋ฉด ๋”์šฑ ๊ฐ•ํ™”๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
502๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ณต์‹ ๋ฐœ๊ฒฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, 547๋ฒˆ์—์„œ ๋…ผ์˜ํ•˜๋Š” ์ €์ฐจ์› ์ขŒํ‘œ๊ณ„ ๋ฐ ์ง€๋ฐฐ๋ฐฉ์ •์‹ ์ž๋™ํ™”์™€ ์ด๋ก ์  ์—ฐ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Neural-POD๋Š” ๋ฌผ๋ฆฌ ์‹œ์Šคํ…œ์—์„œ ์ €์ฐจ์› ํŠน์ง• ์ถ”์ถœ์„ ์œ„ํ•œ PlED ๊ธฐ๋ฐ˜ ์‹ ๊ฒฝ ์—ฐ์‚ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋™์˜์ƒ ๋ฐ ์‹œ๊ณ„์—ด ๋ฌผ๋ฆฌ ๋ฌธ์ œ์—์„œ ๋ณธ ๋…ผ๋ฌธ์˜ ์ €์ฐจ์› ์ขŒํ‘œ ์ถ”์ถœ ์›๋ฆฌ์™€ ์—ฐ๊ณ„๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
547๋ฒˆ ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ๋‚ด์žฌ ์ขŒํ‘œ ๋ฐ ์ง€๋ฐฐ ๋ฐฉ์ •์‹ ํƒ์ƒ‰์˜ ์ผ๋ฐ˜๋ก ์„ ์„ค๋ช…ํ•˜์—ฌ, 503๋ฒˆ์˜ LLM-ODE ์—ฐ๊ตฌ์™€ ๋งค์šฐ ๋ฐ€์ ‘ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
547๋Š” MLLM ๊ธฐ๋ฐ˜์œผ๋กœ ๋‚ด์žฌ์  ์ขŒํ‘œ ๋ฐ ์ง€๋ฐฐ ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ ๋ฐฉ๋ฒ•์— ์ง‘์ค‘ํ•˜์—ฌ, 3267์—์„œ ๋‹ค๋ฃจ๋Š” ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์—ญ์žฅ ํŒŒ๋ผ๋ฏธํ„ฐํ™”์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๋กœ ์‚ผ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MetaOpenFOAM๋„ LLMยท๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ CFD ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ ์ง€๋ฐฐ๋ฐฉ์ •์‹ ๋„์ถœ ๊ด€๋ จ ์œ ์‚ฌ ์ž๋™ํ™” ์—ฐ๊ตฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ˆ˜ํ•™ ๊ณต์‹, ๋ฏธ์ง€์ˆ˜ ๋ฐœ๊ฒฌ ๋“ฑ์—์„œ ๋ฏธ๋ถ„๋ฐฉ์ •์‹ยท์ˆ˜๋ฆฌ์  ๊ณต์‹ ํƒ์ƒ‰ ๋“ฑ LLM/ML ๊ธฐ๋ฐ˜ ์ž๋™ํ™”์˜ formal proof ๋ถ„์•ผ ์ ์šฉ์„ ๋ณด์—ฌ์ค˜ 030์˜ ์ž๋™์ •๋ฆฌ์ฆ๋ช…๊ณผ ๋Œ€์•ˆ์  ์ ‘๊ทผ์„ ๋น„๊ตํ•จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
495๋ฒˆ ๋…ผ๋ฌธ์€ LLM๊ณผ ์‹ ๊ฒฝ์—ฐ์‚ฐ์ž ๊ธฐ๋ฐ˜ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์„ ์žฅ๋ฌธ์˜ ๊ณผํ•™ ๊ธฐ์‚ฌ ์ƒ์„ฑ์— ์ ์šฉํ•˜๊ณ , 547๋ฒˆ์€ ๋™์˜์ƒ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฌผ๋ฆฌ ๋ฒ•์น™ ๋ฐœ๊ฒฌ์— ์ดˆ์ ์„ ๋งž์ถฐ ๋‘ ๋ฐฉ๋ฒ•์˜ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋™์˜์ƒยท๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ PDE-์ง€๋ฐฐ๋ฐฉ์ •์‹ ์ถ”๋ก ์„ LLM ๊ธฐ๋ฐ˜์œผ๋กœ ์ž๋™ํ™”ํ•˜๋Š” ๋‘ ๋…ผ๋ฌธ์€ ๋น„์Šทํ•œ ๋ฌธ์ œ์˜ ์ƒ์ดํ•œ ํ•ด๋ฒ•์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฏธ๋ถ„๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ์—์„œ ๋ถˆ๋ณ€๋Ÿ‰ ๋ฐ ๋‚ด์žฌ์  ์ขŒํ‘œ ๋“ฑ ๋‹ค์–‘ํ•œ ์ˆ˜ํ•™์  ๊ธฐ๋ฒ•์„ ๋น„๊ต ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ LLM ๋˜๋Š” specialist ํ™œ์šฉํ•˜์—ฌ ๊ณต์‹ ์ˆ˜ํ•™(์ˆ˜๋ฆฌ ๋…ผ์ฆ) ์ž๋™ํ™” ๋ฌธ์ œ์— ์ ‘๊ทผํ•œ ๋Œ€์•ˆ์  ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Pelican์€ LVLM ํ™˜๊ฐ ๋ถ„์„์—์„œ ์ง€๋ฐฐ ๋ฐฉ์ •์‹/ํŠน์„ฑ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ์„ ํฌํ•จํ•˜๊ณ  ์žˆ์–ด Video Equation Reasoning ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์•ˆ์ „์„ฑ ๊ด€์  ํ™•์žฅ์„ ์‹œ์‚ฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ˆ˜ํ•™์  ๋ชจ๋ธ ๋ฐ ๊ณต์‹ ๋ฐœ๊ฒฌ ๊ณผ์ •์— ๋ณธ ๋…ผ๋ฌธ์˜ ๋ถˆํ™•์‹ค์„ฑ ์ •๋Ÿ‰ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ํ˜„์žฅ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
547๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ํ†ตํ•œ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ์œผ๋กœ, 502๋ฒˆ ๋…ผ๋ฌธ์˜ ๊ณผํ•™ ๊ณต์‹ ์ž๋™ํ™” ์ ‘๊ทผ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
MLLM-based discovery of intrinsic coordinates and governing equations ๋…ผ๋ฌธ์€ PDE ๋“ฑ์—์„œ ์—ฐ์†์˜์กด ๊ธฐ๋ฐ˜ ํ•™์Šต ๊ฐœ์„ ์„ ์ด๋ฃจ๋Š” LLM ์—ฐ๊ณ„ ๋ฌผ๋ฆฌ์ถ”๋ก  ๋ฐฉ์‹์„ cd-PINN ์‚ฌ๋ก€์— ํ™•์žฅ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ์„ฑ๋ชจ๋ธ์ด ๋ฐœ๊ฒฌํ•œ ์•”์‹œ์  ๋ฌผ๋ฆฌ๋Ÿ‰(๊ณ ์œ ์ขŒํ‘œ)๊ณผ ์ง€๋ฐฐ๋ฐฉ์ •์‹ ํ•ด์„์„ ์‹ค์ œ ๊ณผํ•™ ๋ฌธ์ œ์— ์ ์šฉํ•˜์—ฌ, ์—ญํ•™์  ํ•ด์„๋ ฅ์„ ํ™•์žฅํ•จ.
์‘์šฉ ์‚ฌ๋ก€
LLM์„ ํ™œ์šฉํ•œ ํ™˜๋ฅ˜์  CFD ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ, 547์˜ ๋™์˜์ƒ โ†’ ์ขŒํ‘œ/๋ฐฉ์ •์‹ ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ ์ ์šฉ์„ ํ™•์žฅํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •