Foundation-Model Surrogates Enable Data-Efficient Active Learning for Materials Discovery

์ €์ž: Jeffrey Hu, Rongzhi Dong, Ying Feng, Ming Hu, Jianjun Hu | ๋‚ ์งœ: 2026-03-24 | DOI: 10.48550/arXiv.2603.12567 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ๊ธฐ์ดˆ ๋ชจ๋ธ์ด ๋Šฅ๋™ ํ•™์Šต์˜ ์„œ๋กœ๊ฒŒ์ดํŠธ ๋ชจ๋ธ๋ง ๋”œ๋ ˆ๋งˆ๋ฅผ ํ•ด๊ฒฐํ•จ. (a) ๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ ์˜ˆ์ธก ๋Šฅ๋ ฅ๊ณผ ๋ถˆํ™•์‹ค์„ฑ ์ถ”์ • ๊ฐ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์ง๋ฉด (b) ๊ธฐ์ดˆ ๋ชจ๋ธ์€ ๋ฉ”ํƒ€ ํ•™์Šต๋œ ์‚ฌ์ „ ์ •๋ณด๋ฅผ ํ†ตํ•ด ํ‘œํ˜„๋ ฅ ๋†’์€ ์˜ˆ์ธก๊ณผ ๋ณด์ •๋œ ๋ถˆํ™•์‹ค์„ฑ ๊ฒฐํ•ฉ

์†Œ์žฌ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๋Šฅ๋™ ํ•™์Šต(Active Learning, AL)์—์„œ ๊ธฐ์กด ๊ฐ€์šฐ์Šค ํ”„๋กœ์„ธ์Šค(GP)์™€ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ(RF) ์„œ๋กœ๊ฒŒ์ดํŠธ ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ ๊ธฐ์ดˆ ๋ชจ๋ธ(Foundation Model, FM)์ธ TabPFN์„ ์„œ๋กœ๊ฒŒ์ดํŠธ๋กœ ๋„์ž…ํ•˜๋Š” ๋ฌธ๋งฅ ๋‚ด ๋Šฅ๋™ ํ•™์Šต(In-Context Active Learning, ICAL) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. TabPFN์€ ๋ฉ”ํƒ€ ํ•™์Šต์„ ํ†ตํ•ด ์†Œ๋Ÿ‰์˜ ์‹คํ—˜ ๋ฐ์ดํ„ฐ์—์„œ๋„ ํ‘œํ˜„๋ ฅ ๋†’์€ ์˜ˆ์ธก๊ณผ ๋ณด์ •๋œ ๋ถˆํ™•์‹ค์„ฑ์„ ๋™์‹œ์— ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 3

๊ทธ๋ฆผ 3: Cu ๊ฒฝ๋„(hardness) ๋ฐ์ดํ„ฐ์…‹์—์„œ ICAL์˜ ์„ฑ๋Šฅ. (a-b) TabPFN vs GP ๋น„๊ต

Figure 4

๊ทธ๋ฆผ 4: (a)(c) Cu ์ „๊ธฐ์ „๋„๋„ ๋ฐ (b)(d) ๋ฒŒํฌ ๊ธˆ์† ์œ ๋ฆฌ(Glass_DS3) ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ๋น„๊ต

  1. ํ‰๊ฐ€ ํšจ์œจ์„ฑ ๊ฐœ์„ : 10๊ฐœ ์†Œ์žฌ ๋ฐ์ดํ„ฐ์…‹ ์ค‘ 8๊ฐœ์—์„œ TabPFN์ด ์ตœ์†Œ ํ‰๊ฐ€ ํšŸ์ˆ˜ ๋‹ฌ์„ฑ. GP ๋Œ€๋น„ ํ‰๊ท  52%, RF ๋Œ€๋น„ 29.77% ํ‰๊ฐ€ ํšŸ์ˆ˜ ๊ฐ์†Œ
  2. ๋ถˆํ™•์‹ค์„ฑ ๋ณด์ • ์šฐ์›”์„ฑ: ํฌ๋กœ์Šค ๋ฐธ๋ฆฌ๋ฐ์ด์…˜ ๋ถ„์„ ๊ฒฐ๊ณผ, TabPFN์ด ๊ฐ€์žฅ ๋‚ฎ์€ ์Œ์˜ ๋กœ๊ทธ ์šฐ๋„(Negative Log-Likelihood, NLL)์™€ ํฌ์†Œํ™” ์˜ค๋ฅ˜ ๊ณก์„  ์•„๋ž˜ ๋ฉด์ (Area Under the Sparsification Error curve, AUSE)์„ ๋‹ฌ์„ฑํ•˜์—ฌ ์šฐ์ˆ˜ํ•œ ๋ถˆํ™•์‹ค์„ฑ ๋ณด์ • ์ฆ๋ช…

How

Figure 2

๊ทธ๋ฆผ 2: ์†Œ์žฌ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ํ’€ ๊ธฐ๋ฐ˜ ๋Šฅ๋™ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ. EI(Expected Improvement)๋Š” ๋‹ค๋ฅธ ํš๋“ ํ•จ์ˆ˜๋กœ ๋Œ€์ฒด ๊ฐ€๋Šฅ

Figure 5

๊ทธ๋ฆผ 5: ์›์†Œ ๋†๋„ ํŠน์„ฑ์„ ์‚ฌ์šฉํ•œ LTC_conc ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ICAL ์„ฑ๋Šฅ ๋น„๊ต

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์ดˆ ๋ชจ๋ธ์˜ ๋ฉ”ํƒ€ํ•™์Šต ๋Šฅ๋ ฅ์„ ์†Œ์žฌ ๋ฐœ๊ฒฌ ๋Šฅ๋™ ํ•™์Šต์˜ ํ•ต์‹ฌ ๋ฌธ์ œ(ํ‘œํ˜„๋ ฅ vs. ๋ถˆํ™•์‹ค์„ฑ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„)์— ์ฐฝ์˜์ ์œผ๋กœ ์ ์šฉํ•˜์˜€์œผ๋ฉฐ, ๊ด‘๋ฒ”์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ ์šฐ์›”์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ ์‹ค์ œ ์‹คํ—˜ ํ™˜๊ฒฝ ๊ฒ€์ฆ๊ณผ ๊ณ ์ฐจ์› ํŠน์„ฑ ๊ณต๊ฐ„ ํ™•์žฅ์ด ์™„์„ฑ๋˜๋ฉด ์ž„ํŒฉํŠธ๊ฐ€ ๋”์šฑ ๊ฐ•ํ™”๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346 'Foundation-Model Surrogates' ๋…ผ๋ฌธ์€ ๊ธฐ์ดˆ ๋ชจ๋ธ์˜ ์ „์ด ๋ฐ ์„ค๋ช…๋ ฅ์„ ์ค‘์‹œํ•˜๋Š” ๊ณผํ•™ ๋ฌธ์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์†Œ๊ฐœํ•˜์—ฌ, 785์˜ T-SciQ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋‹ค๋ฃจ๋Š” ์—ฐ์‡„์  ์‚ฌ๊ณ ์™€ ์ง€์‹ ์ด์ „ ๋งฅ๋ฝ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346(FM Surrogates)์€ ๋ถ„์ž/์ƒ๋ฌผ ๋ฐ์ดํ„ฐ์—์„œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๊ฐœ๋…๊ณผ ๊ธฐ์ดˆ ๋ฌธ์ œ๋ฅผ, 487์˜ ๋‹ค์ค‘๋ชจ๋‹ฌ ์ƒ๋ฌผ๋ถ„์ž-ํ…์ŠคํŠธ ํ†ตํ•ฉ ๋…ผ์˜์˜ ์ด๋ก ์œผ๋กœ ์‚ผ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
024์˜ ์›์น™์ ์ธ LLM ๋ฒ ์ด์ง€์•ˆ ๋ถˆํ™•์‹ค์„ฑ ์ •๋Ÿ‰ํ™” ํ‰๊ฐ€๋Š” 346์—์„œ ๋…ผ์˜๋œ foundation model ๊ธฐ๋ฐ˜ ์†Œ์žฌ ์•กํ‹ฐ๋ธŒ ๋Ÿฌ๋‹์˜ ์„ฑ๋Šฅ ๋น„๊ต์™€ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ๋Šฅ๋™ํ•™์Šต๊ณผ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ฐœ๋…์„ ์†Œ๊ฐœํ•ด, 522๋ฒˆ์˜ ์‹ ์†Œ์žฌ ๋ฐœ๊ฒฌ LLM ์—์ด์ „ํŠธ๊ฐ€ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋”ฅ ์•กํ‹ฐ๋ธŒ ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜์˜ ์‹คํ—˜ ์„ค๊ณ„ ๋ฐฉ๋ฒ•๋ก ์ด ์†Œ์žฌ ๋ฐœ๊ฒฌ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์ฆ์ง„์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346 ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ๋Šฅ๋™ ํ•™์Šต๋ฒ•์„ ์ œ์‹œํ•ด, 316 ๋…ผ๋ฌธ์˜ ํ™”ํ•™ ๋ฐ˜์‘ ์˜ˆ์ธก์— LLM ์ ์šฉ ์ „๋žต์˜ ๊ธฐ๋ฐ˜ ์ด๋ก ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346๋ฒˆ ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ํ™œ์„ฑํ•™์Šต์„ ๋‹ค๋ฃจ๋ฉฐ, ๊ธด ์ž…๋ ฅ ํ™œ์šฉ ๋ฐ ์ตœ์ ํ™” ์•„์ด๋””์–ด์™€ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ํ™œ์„ฑ ํ•™์Šต ๋ฒค์น˜๋งˆํฌ ๋ฐ ๋ฒ ์ด์ง€์•ˆ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ค„, 237์˜ ๋ฒ ์ด์ง€์•ˆ ๊ธฐ๋ฐ˜ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์•กํ‹ฐ๋ธŒ ๋Ÿฌ๋‹๊ณผ foundation model์„ ์œตํ•ฉํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
foundation model๊ณผ search๋ฅผ ๊ฒฐํ•ฉํ•œ ํ™œ์„ฑ ์ •๋ณด ํƒ์ƒ‰ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ RAG-๊ธฐ๋ฐ˜ ์‹ ์•ฝ๋ฐœ๊ฒฌ์˜ ๊ธฐ๋ณธ ์›๋ฆฌ๋ฅผ ์„ค๋ช…ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Foundation models for materials discovery ๋…ผ๋ฌธ์€ ์†Œ์žฌ ๋ฐœ๊ฒฌ ๋ถ„์•ผ์—์„œ ๊ธฐ์กด ML ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๊ฐœ๊ด€ํ•˜๋ฉฐ, Foundation-Model Surrogates์˜ ๊ธฐ์ดˆ ๋…ผ๋ฆฌ์™€ ์ง์ ‘ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ํšจ์œจ๊ณผ ๋Šฅ๋™์  ํ•™์Šต์„ ์œ„ํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃจ์–ด, 064๋ฒˆ ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰๋œ ๋„์ „๊ณผ์ œ(ํšจ์œจ์„ฑ/๊ฒ€์ฆ) ํ•ด๊ฒฐ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ์„ฑํ˜• AI ๋ฐ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์ด๋ก ์ ยท๊ธฐ์ˆ ์  ํ† ๋Œ€๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ๋‹ค๋ฃจ๊ณ  ์žˆ์œผ๋ฏ€๋กœ, 346๋ฒˆ ๋…ผ๋ฌธ์˜ FM ๊ธฐ๋ฐ˜ ๋Šฅ๋™ํ•™์Šต ์‘์šฉ์— ํญ๋„“์€ ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346 ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ํ™œ์„ฑํ•™์Šต ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์‹คํ—˜ ์„ค๊ณ„ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, 3171์—์„œ ์กฐ์ ˆ ์„ญ๋™ ์˜ˆ์ธก์—์˜ ์ ์šฉ์— ์ด๋ก ์  ๋’ท๋ฐ›์นจ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Foundation-Model Surrogates Enable Data-Efficient Active Learning for Scientific Discovery๋Š” ์ง€์˜ค๋ฉ”ํŠธ๋ฆญ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์™€ ๋ฐ์ดํ„ฐ ํšจ์œจ์  surrogate ๋ชจ๋ธ์˜ ๊ฒฌ๊ณ ํ•œ ์ด๋ก  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Foundation-Model Surrogates ๋…ผ๋ฌธ์€ ํšจ์œจ์  ํŒŒ์ธํŠœ๋‹ยท์ „์ดํ•™์Šต ๊ฐœ๋…์„ ์ด๋ก ์ ์œผ๋กœ ์„ค๋ช…ํ•ด Equitrain์˜ ์ตœ์†Œ ๋ฐ์ดํ„ฐ ์„ธํŒ…์˜ ๊ทผ๊ฑฐ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346 ๋…ผ๋ฌธ์€ foundation model ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ํ™œ์„ฑ ํ•™์Šต๊ณผ ๋ฌผ๋ฆฌ ํ†ตํ•ฉ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 2995์˜ ์ƒˆ๋กœ์šด ๊ณ„์‚ฐํ™”ํ•™ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฐ์ดํ„ฐ ํšจ์œจ์  ๋Šฅ๋™ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋“ค์„ ์ข…ํ•ฉ์ ์œผ๋กœ ๊ฒ€ํ† ํ•˜์—ฌ 3214์˜ acquisition signal ์„ ํƒ์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
346 ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜-๋ชจ๋ธ ์„œ๋กœ๊ฒŒ์ดํŠธ๋ฅผ ํ†ตํ•œ ๋Šฅ๋™์  ์‹คํ—˜ ์„ค๊ณ„ ํ”„๋ ˆ์ž„์„ ์ œ์•ˆํ•˜์—ฌ, 497์˜ LLM+์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ด๋‹จ๊ณ„ ์ตœ์ ํ™”์˜ ๋Œ€์•ˆ์  ์—ฐ๊ตฌ ํ๋ฆ„์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
346๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์„œ๋ธŒ์…‹ ์ ์šฉ์„ ๋‹ค๋ฃจ์–ด, chain-of-thought ๊ธฐ๋ฐ˜ reasoning์˜ ํ™•์žฅ ๋˜๋Š” ๋Œ€์กฐ์  ๋ฐฉํ–ฅ์„ฑ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณ ์† ์‹คํ—˜์ œ์–ด ๋ฐ ๋ฐ์ดํ„ฐ์ฒ˜๋ฆฌ์— FM ๊ธฐ๋ฐ˜ AL ๋ฐฉ๋ฒ•์ด ์ ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠธ๋žœ์Šคํฌ๋จธ์™€ GNN ๊ธฐ๋ฐ˜์˜ ์†Œ์žฌ/๋ฌผ๋ฆฌ ์‹คํ—˜ ์ž๋™ํ™”๋ผ๋Š” ๊ณตํ†ต ๊ด€์‹ฌ์‚ฌ๋ฅผ ๊ฐ€์ง„๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ๋Šฅ๋™ ํ•™์Šต ๋ฐ ์„ค๊ณ„ ๊ณต๊ฐ„ ์ตœ์ ํ™”๋ฅผ ๊ฐ•์กฐํ•˜์ง€๋งŒ, 682๋Š” reward ๊ธฐ๋ฐ˜ diffusion refinement, 346์€ foundation model์„ ํ™œ์šฉํ•œ data-efficient AL์— ์ดˆ์ ์ด ๋‹ค๋ฅด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Foundation-Model Surrogates ๋…ผ๋ฌธ์€ ์žฌ๋ฃŒ ๊ณผํ•™์—์„œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ๋Œ€๋ฆฌ ๋ชจ๋ธ๋กœ ํ™œ์šฉํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ์†Œ์žฌ/์žฌ๋ฃŒ๊ณผํ•™์—์„œ foundation model์„ ๋„์ž…ํ•˜์ง€๋งŒ, Foundation-Model Surrogates ๋…ผ๋ฌธ์€ ๋Šฅ๋™ ํƒ์ƒ‰์—, MatterChat์€ ๊ตฌ์กฐ-์ธ์‹ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜ˆ์ธก์— ์ดˆ์ ์„ ๋‘” ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ํšจ์œจ์  ํ™œ์„ฑ ํ•™์Šต๊ณผ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™”์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋…ผ๋ฌธ์œผ๋กœ, MOF ๋ถ„์•ผ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ง€๋Šฅ์  ์˜ค๋ฒ„ํ”ผํŒ… ๋ฌธ์ œ์™€์˜ ์ƒ๊ด€์„ฑ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์„œํผ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜์˜ ์•กํ‹ฐ๋ธŒ ๋Ÿฌ๋‹ ์ตœ์ ํ™”๋Š”, Coarse-Grained Neural MD์˜ ๋ฐ์ดํ„ฐ ํšจ์œจํ™”์™€ ๋Œ€์กฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ๋ฌผ๋ฆฌ ๋ฐ ์žฌ๋ฃŒ ๊ณผํ•™์—์„œ ํšจ์œจ์  ๋ฐ์ดํ„ฐ ํ™œ์šฉ๊ณผ ์—ฐ์‚ฐ์ž ํ•™์Šต์„ ๋‹ค๋ฃจ์ง€๋งŒ, ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋ชจ๋ธ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ ์ƒˆ๋กœ์šด ML ๊ธฐ๋ฐ˜ ์›์ž๊ฐ„ ํฌํ…์…œ ๋ฐ ๋Šฅ๋™ ํ•™์Šต ๋ฐฉ๋ฒ•์˜ ์†Œ์žฌยทํ™”ํ•™ ์˜ˆ์ธก์— ์ ์šฉํ•˜์ง€๋งŒ, ํ•˜๋‚˜๋Š” Foundation Model ๊ธฐ๋ฐ˜ AL, ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” MTP ํฌํ…์…œ์— ์ง‘์ค‘ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
346 ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ์•กํ‹ฐ๋ธŒ ๋Ÿฌ๋‹์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด, 354๊ฐ€ ์ œ์‹œํ•œ ๋Œ€๊ทœ๋ชจ LLM ํ›ˆ๋ จ ๋ณ‘๋ ฌํ™”์™€ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋Œ€๊ธฐ/๊ธฐํ›„ ํ™œ์„ฑํ•™์Šต, ML ์—๋ฎฌ๋ ˆ์ดํ„ฐ ์„ค๊ณ„์˜ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Œ.
๋‹ค๋ฅธ ์ ‘๊ทผ
346๋ฒˆ ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์„œ๋Ÿฌ๊นƒ์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ๋Šฅ๋™ ํ•™์Šต์„ ์ œ์‹œํ•ด, 3092 ๋…ผ๋ฌธ์˜ ์ดˆ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ๋ฐ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ํ™œ์šฉ์„ฑ๊ณผ ๋Œ€์กฐ์  ๊ด€์ ์—์„œ ์œ ์ตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Foundation-model surrogate๋ฅผ ํ™œ์šฉํ•ด ๋ถˆํ™•์‹ค์„ฑ ๋ฐ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ๋Œ€์กฐ์  ์ ‘๊ทผ์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฌ๋ฃŒ๊ณผํ•™ AI ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€๋ฅผ ๋ฐ์ดํ„ฐ-ํšจ์œจ ๊ด€์ ์—์„œ ๋…ผํ•˜๋ฉฐ, Meta-LegNet๊ณผ ๋น„๊ตํ•ด ์ „์ด ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ•ด์„์„ฑ์— ์ดˆ์ ์„ ๋‘”๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Foundation-Model Surrogates Enable Data-Efficient Active Learning(346)์€ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํ†ตํ•ฉ ๊ธฐ๋ฒ•์„ ์‹คํ—˜์  ๊ณผํ•™ ๋ฌธ์ œ์— ์ ์šฉํ•˜๋ฉฐ, 412์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ ๊ฐœ๋…์„ ๊ณผํ•™ ๋ฐœ๊ฒฌ์— ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Foundation ๋ชจ๋ธ ์„œ๋กœ๊ฒŒ์ดํŠธ์— ๊ด€ํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ๋ณต์žกํ•œ ๋‹จ๋ฐฑ์งˆ-๋ฆฌ๊ฐ„๋“œ ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์ธก์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
346์€ foundation model์„ ํ™œ์šฉํ•œ data-efficient active learning์„ ๋‹ค๋ฃจ๋ฉฐ, 1100์˜ ์˜ค๋ฅ˜์™„ํ™” ์ค‘์‹ฌ framework์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ ์šฉ ํ™•์žฅ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ์ ๊ทน์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋ฒค์น˜๋งˆํ‚น ํšจ์œจ์„ฑ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ์ถ”๊ตฌํ•˜๋Š” ์ด๋ก ์  ํ™•์žฅ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
346 ๋…ผ๋ฌธ์€ ๋ฒค์น˜๋งˆํฌ ๋ฐ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ, ์žฌํ˜„์„ฑ ํ•œ๊ณ„๋ฅผ physics-aware paradigms ๊ด€์ ์—์„œ ๋‹ค๋ค„, 2997์˜ ์‹คํ–‰์  ์‹œ์‚ฌ์ ์„ ์‹ฌํ™”์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
346์˜ Foundation-Model Surrogates์™€ ๊ฐ™์ด ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์  ๋ฐ ์žฌ์‚ฌ์šฉ์„ฑ ์žˆ๋Š” ๋ชจ๋ธ ์„ค๊ณ„ ๊ด€์ ์ด 3244์˜ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฒฝ๋Ÿ‰ํ™” ๋…ธ๋ ฅ๊ณผ ์ ‘๋ชฉ๋˜์–ด, ์žฌ๊ท€์  GNN ์„ค๊ณ„์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Targeted materials discovery using Bayesian algorithm... ๋…ผ๋ฌธ์€ ๋Šฅ๋™ ํ•™์Šต ๊ธฐ๋ฐ˜ ์†Œ์žฌ ๋ฐœ๊ฒฌ์˜ ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜์—ฌ, ICAL๊ณผ ์‹ค์ œ ์‹คํ—˜์  ํ™•์žฅ์„ฑ์„ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
346์€ ์‹ค์ œ ๊ณผํ•™ ๋ฌธ์ œ์—์„œ foundation model์˜ ๋‚ด๋ถ€ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์ธก์ •์„ ํ†ตํ•ด 836์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฆฌ๋ทฐ ๊ฒฐ๊ณผ๋ฅผ ์‘์šฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Foundation-Model Surrogates ๋…ผ๋ฌธ์€ ๋ฌผ๋ฆฌ/๊ณผํ•™ ์ž‘์—…์—์„œ ํ™•๋ฅ ์„ฑ๊ณผ ๊ฒฐ์ •๋ก ์  ์š”๊ตฌ์˜ ์กฐ์œจ์ด ํ•„์š”ํ•œ ๋ฌธ๋งฅ ๋‚ด ๋Šฅ๋™ ํ•™์Šต ๋ถ„์•ผ์— PCFG ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
RL์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๋ฐœ๊ฒฌ์ด Foundation Model Surrogates์˜ ๋Šฅ๋™ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ, ํŠนํžˆ ํŠธ๋žœ์Šคํฌ๋จธ์— RL ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ ๋…ผ์˜๋กœ ํ™•์žฅ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Foundation Models for Environmental Science ๋…ผ๋ฌธ์€ ํ™˜๊ฒฝ๊ณผ ์†Œ์žฌ ๊ณผํ•™ ๋“ฑ์—์„œ ๋Œ€ํ˜• ๊ธฐ์ดˆ๋ชจ๋ธ ํ™œ์šฉ์„ ํƒ๊ตฌํ•˜๋ฉฐ, TabPFN์„ ํ™œ์šฉํ•œ ๋Šฅ๋™ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์žฌ๋ฃŒ ๊ณผํ•™์˜ LLM ๋ฐ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์‹ค์ œ ์‘์šฉ์— ๊ด€ํ•œ ์ข…ํ•ฉ ๋ฆฌ๋ทฐ๋กœ, TabPFN ๋“ฑ ์ƒˆ๋กœ์šด ์„œ๋Ÿฌ๊ฒŒ์ดํŠธ ๊ธฐ๋ฒ• ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
TabPFN ๊ธฐ๋ฐ˜์˜ FM ์„œ๋กœ๊ฒŒ์ดํŠธ๋ฅผ ํ†ตํ•œ ๋Šฅ๋™ ํ•™์Šต ๊ธฐ๋ฒ•์ด Ca-Cu ํ•ฉ๊ธˆ MLIP ์˜ˆ์ธก ๋“ฑ ์‹ค์ œ ๋ฌผ๋ฆฌํ™”ํ•™์  ์‹œ์Šคํ…œ ์ ์šฉ ์‚ฌ๋ก€์™€ ์ ‘๋ชฉ๋  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ƒ์„ฑํ˜• AI์™€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๋…ผ์˜๋ฅผ ์‹ค์ œ ์†Œ์žฌ์ ์šฉ ๋Šฅ๋™ ํ•™์Šต ์‚ฌ๋ก€๋กœ ๊ตฌ์ฒดํ™”ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •