Knowledge-guided large language model for material science

์ €์ž: Guanjie Wang, Jingjing Hu, Jian Zhou, Sen Liu, Qingjiang Li, Zhimei Sun | ๋‚ ์งœ: 2025-02-01 | DOI: 10.1016/j.revmat.2025.100007 📄 PDF


Essence

Fig. 1

๊ทธ๋ฆผ 1: ์ตœ๊ทผ ๋…„๋„๋ณ„ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋ฐœ์ „ timeline. ์˜คํ”ˆ์†Œ์Šค LLM์€ ๋…ธ๋ž€์ƒ‰์œผ๋กœ ํ‘œ์‹œ

ChatGPT๋กœ ์ด‰๋ฐœ๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ํ˜์‹ ์„ ์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ์— ์ฒด๊ณ„์ ์œผ๋กœ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ ์ง€์‹-์•ˆ๋‚ด์‹ ๋„๋ฉ”์ธ ํŠนํ™” ๋ชจ๋ธ ๊ฐœ๋ฐœ ๋ฐ ํ™œ์šฉ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ ์ข…ํ•ฉ ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์ด๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ตฌ์ถ•๋ถ€ํ„ฐ ์žฌ๋ฃŒ ๋ฐœ๊ฒฌ์—์˜ ์‹ค์ œ ์‘์šฉ๊นŒ์ง€ ์ „์ฃผ๊ธฐ์  ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Fig. 2

๊ทธ๋ฆผ 2: LLM์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ

  1. LLM ๊ฐœ๋ฐœ ์ด์ •ํ‘œ ์ •๋ฆฌ: ํ†ต๊ณ„์  ์–ธ์–ด๋ชจ๋ธ(1990s) โ†’ ์‹ ๊ฒฝ ์–ธ์–ด๋ชจ๋ธ(2000s) โ†’ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ/BERT โ†’ ์ดˆ๋Œ€ํ˜• ๋ชจ๋ธ(GPT-3, PaLM) โ†’ ChatGPT/GPT-4 โ†’ ๋‹ค์ค‘๋ชจ๋“œ ๋ชจ๋ธ(Claude 3, LLaMA 3)๊นŒ์ง€์˜ ์ง„ํ™” ๊ณผ์ •์„ ์‹œ๊ฐ„๋ณ„๋กœ ์ฒด๊ณ„ํ™”ํ–ˆ๋‹ค.
  2. ์‹ค์šฉ์  LLM ๊ตฌ์ถ• ๊ฐ€์ด๋“œ๋ผ์ธ: ๋ฒ”์œ„-๋ชฉํ‘œ ๊ฒฐ์ • โ†’ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„ โ†’ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ โ†’ ํ›ˆ๋ จ ํ”„๋ ˆ์ž„์›Œํฌ ์ˆ˜๋ฆฝ โ†’ ํ‰๊ฐ€ ์ฒด๊ณ„ ๊ตฌ์ถ•์˜ 5๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ œ์‹œํ–ˆ๋‹ค.
  3. ๋„๋ฉ”์ธ ํŠนํ™” ๋ฐฉ๋ฒ•๋ก ์˜ ๋น„๊ต๋ถ„์„: ํŒŒ์ธํŠœ๋‹, ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์  ํŒŒ์ธํŠœ๋‹(PEFT), ๊ฒ€์ƒ‰-์ฆ๊ฐ• ์ƒ์„ฑ(RAG), ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ์žฅ๋‹จ์ ์„ ์ƒ์„ธํžˆ ๋ถ„์„ํ•˜๊ณ  ์ ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ œ์‹œํ–ˆ๋‹ค.
  4. ์žฌ๋ฃŒ๊ณผํ•™ ์‘์šฉ ์‚ฌ๋ก€ ํ™•๋Œ€: ์ •ํ˜•ํ™”๋œ ์ •๋ณด ์ถ”์ถœ, ๋ฌผ์„ฑ ์˜ˆ์ธก, ์‹ ๊ทœ ํ™”ํ•ฉ๋ฌผ ๋ฐœ๊ฒฌ, ์ž์œจ ์‹คํ—˜์‹ค, ๋กœ๋ด‡ ๊ธฐ๋ฐ˜ ์žฌ๋ฃŒ ๋ฐœ๊ฒฌ๊นŒ์ง€ ๊ตฌ์ฒด์  ์‘์šฉ ๋ถ„์•ผ๋ฅผ ๋งคํ•‘ํ–ˆ๋‹ค.

How

Fig. 3

๊ทธ๋ฆผ 3: LLM ํŒŒ์ธํŠœ๋‹์„ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ. (a) ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์  ํŒŒ์ธํŠœ๋‹์˜ 3๊ฐ€์ง€ ๋‹จ๊ณ„

Fig. 4

๊ทธ๋ฆผ 4: ๊ฒ€์ƒ‰-์ฆ๊ฐ• ์ƒ์„ฑ(RAG)์˜ ๊ฐœ์š”

Fig. 5

๊ทธ๋ฆผ 5: (a) ๋น„์—์ด์ „ํŠธ, (b) ์—์ด์ „ํŠธ, (c) ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ

์žฌ๋ฃŒ๊ณผํ•™ LLM ๊ตฌ์ถ• ๋ฐ ์ ์šฉ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ChatGPT ์‹œ๋Œ€์˜ ์žฌ๋ฃŒ๊ณผํ•™ ์—ฐ๊ตฌ ํ˜์‹ ์„ ์œ„ํ•ด LLM์„ ์‹ค์ œ๋กœ ๊ตฌ์ถ•ํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ์ค‘์š”ํ•œ ์ข…ํ•ฉ ๋ฆฌ๋ทฐ์ด๋ฉฐ, ๋„๋ฉ”์ธ-ํŠนํ™” LLM ๊ฐœ๋ฐœ์˜ ์‹ค์šฉ์  ๋กœ๋“œ๋งต์„ ์ œ๊ณตํ•œ๋‹ค๋Š” ์ ์—์„œ ํ•™์ˆ ์ ยท์‹ค๋ฌด์  ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋‚˜, ์žฌ๋ฃŒ๊ณผํ•™ ํŠน์ • ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ๋ฐฉ์ง€ ๊ธฐ์ˆ ์˜ ๊ณ ๋„ํ™” ๊ฐ™์€ ํ›„์† ์—ฐ๊ตฌ๊ฐ€ ์ ˆ์‹คํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Word2vec์˜ ๊ธฐ๋ณธ ๋ฐฉ๋ฒ•๋ก ๊ณผ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
451์˜ ๋„๋ฉ”์ธ ํŠนํ™” LLM ๊ตฌ์ถ•, ์ •๋ณด ์ถ”์ถœ ๋ฆฌ๋ทฐ๋Š” 480์˜ OFET ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๋ฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์‚ฌ๋ก€์— ๋ฐฉ๋ฒ•๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
004๋Š” ๊ณผํ•™ LLM์˜ ์ „๋ฐ˜์  ๋™ํ–ฅ๊ณผ ์‘์šฉ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃจ์–ด, 451์˜ ์žฌ๋ฃŒ ๊ณผํ•™ ํŠนํ™” LLM ํ™œ์šฉ ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ง€์‹์ถ”๋ก  ๊ธฐ๋ฐ˜์˜ LLM์„ ์žฌ๋ฃŒ๊ณผํ•™์— ํŠนํ™”์‹œํ‚ค๋Š” ๋ฐฉ์‹์„ ํ†ตํ•ด LLaMP์˜ ๊ณ ์‹ ๋ขฐ๋„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—… ์„ฑ๋Šฅ์ด ๋’ท๋ฐ›์นจ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์žฌ๋ฃŒ ๊ณผํ•™ ๋‚ด LLM์˜ ์—ญํ• , ํ•œ๊ณ„, ์ง€์‹ ๊ธฐ๋ฐ˜ ๊ฒฐํ•ฉ์˜ ํ•„์š”์„ฑ์„ ๋‹ค๋ค„, L2M3 ์‹œ์Šคํ…œ์˜ ๋ฐ์ดํ„ฐ ์ถ”์ถœ ํšจ๊ณผ์™€ ๊ฒฐํ•ฉ์‹œ ์‹œ๋„ˆ์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
25๋ฒˆ ๋…ผ๋ฌธ์€ ์žฌ๋ฃŒ๊ณผํ•™์šฉ LLM ๋ฐ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ํ˜„ํ™ฉยท๋„์ „๊ณผ์ œ์— ๋Œ€ํ•œ ์ด๋ก ์  ์ •๋ฆฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ 451์˜ ๋ฆฌ๋ทฐ ์„ฑ๊ฒฉ์— ๊ธฐ๋ฐ˜์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์œ ์ „์ž ๋ถ„์„ ๋“ฑ ์ƒ๋ช…๊ณผํ•™ ์ค‘์‹ฌ์˜ AI ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ ์‚ฌ๋ก€์™€ ์žฌ๋ฃŒ๊ณผํ•™ ๋‚ด LLM ํ™œ์šฉ๋ฒ•์„ ๋น„๊ตํ•ด ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Knowledge-guided large language model for material science ๋…ผ๋ฌธ์€ ์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ์— ํŠนํ™”๋œ ์ง€์‹ ์ฆ๊ฐ• ๊ธฐ๋ฐ˜ LLM ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜์—ฌ, HoneyComb์˜ ๋„๊ตฌ ํ—ˆ๋ธŒ ๋ฐ ์‹ ๋ขฐ์„ฑ ๊ตฌ์กฐ์™€ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฌ๋ฃŒ๊ณผํ•™์—์„œ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ๊ณผ knowledge-guided agent์˜ ํŠน์žฅ์ ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ์—์„œ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธํ—Œ์—์„œ ์ž๋™์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์•ˆ ์‹œ์Šคํ…œ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
RAG ๋ฐฉ์‹์ด ์•„๋‹Œ ๋„๋ฉ”์ธ ์ง€์‹ ์ฃผ์ž…ํ˜• LLM ๊ธฐ๋ฐ˜ ์†Œ์žฌ ์„ค๊ณ„๋ผ๋Š” ๋˜๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Knowledge-guided large language model for material science ๋…ผ๋ฌธ๋„ ์žฌ๋ฃŒ๊ณตํ•™์—์„œ ์ง€์‹ ๊ธฐ๋ฐ˜ LLM ์‘์šฉยท์ถ”์ถœ์„ ๋‹ค๋ฃจ์–ด, ๊ตฌ์„ฑ ๋ชจ๋ธ ์ž๋™ ์ถ”์ถœ๊ณผ ์„ฑ๋Šฅ์ธก๋ฉด์—์„œ ์˜๋ฏธ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Material science์—์„œ LLM๊ณผ ๋„๋ฉ”์ธ ์ง€์‹ ์œตํ•ฉ์„ ํ†ตํ•œ ์ตœ์  ๋„ํŽ€ํŠธ ๋ฐ ์†Œ์žฌ ํ›„๋ณด ๋ฐœ๊ฒฌ์˜ ๋˜ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์žฌ๋ฃŒ๊ณผํ•™์—์„œ LLM ๋ฐ ML์„ ์‹ค์ „ OFET ์†Œ์ž ๊ฐœ๋ฐœ์— ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
451์—์„œ ๋…ผ์˜ํ•˜๋Š” ์žฌ๋ฃŒ๊ณผํ•™ ์ „์šฉ LLM์€ 439์˜ ๊ฒฐ์ •์žฌ๋ฃŒ ํ† ํฐํ™”์™€ ๊ฐ™์€ ์ž…๋ ฅ ์ „์ฒ˜๋ฆฌ ๋ฐ ํ‘œํ˜„๋ ฅ ๊ฐ•ํ™” ์—ฐ๊ตฌ์˜ ์—ฐ์žฅ์„ ์ƒ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
465๋Š” LLM์ด ์žฌ๋ฃŒ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์—ญํ• ๊ณผ ๊ทธ ํ•œ๊ณ„, ๋„์ „๊ณผ์ œ๋ฅผ ๋…ผ์˜ํ•˜์—ฌ 451์˜ ์‹ค์šฉ์  ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์‹ฌํ™”ยทํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM ์ž๊ธฐ๊ฐœ์„  ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฐ ํ•œ๊ณ„ ๋…ผ์˜๊ฐ€, ์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ ์ง€์‹-์•ˆ๋‚ด LLM์˜ ์‹ ๋ขฐ์„ฑยท์‹ค์‚ฌ์šฉ ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€์— ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋ถ„์ž ๋ฐ ์†Œ์žฌ ํ‘œ๋ฉด ์˜ˆ์ธก์— LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์กฐํ•ฉ์ด ์‹ค์ œ ์‹คํ—˜์—์„œ ์–ด๋–ป๊ฒŒ ์‘์šฉ๋˜๋Š”์ง€ ์ž˜ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
451์—์„œ LLM ๊ธฐ๋ฐ˜ ์žฌ๋ฃŒ๊ณผํ•™ ํ˜์‹ ์„ ๊ฐ•์กฐํ•˜์ง€๋งŒ, 024๋Š” ์‹ค์ œ๋กœ LLM์ด ์žฌ๋ฃŒ๋ฐœ๊ฒฌ์— ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์ธ์ง€์— ๋Œ€ํ•œ ๋น„ํŒ์  ๊ฒ€ํ† ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
์žฌ๋ฃŒ๊ณผํ•™ ํŠนํ™” LLM์˜ ์ž๊ธฐ๊ฐœ์„  ๋ฐ ์‹ ๋ขฐ์„ฑ์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€, LLM ์ „๋ฐ˜์˜ ์ž๊ธฐ๊ฒ€์ฆ ๋Šฅ๋ ฅ ํ•œ๊ณ„์™€ ์‹ค์ œ ์ ์šฉ์˜ ์–ด๋ ค์›€์„ ๋ณด์™„์ ์œผ๋กœ ์„ค๋ช…ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •