Harnessing Large Language Models to Collect and Analyze Metalโ€“Organic Framework Property Data Set

์ €์ž: Yeonghun Kang, Wonseok Lee, Taeun Bae, Seunghee Han, Huiwon Jang, Jihan Kim | ๋‚ ์งœ: 2025-02-05 | DOI: 10.1021/jacs.4c11085 📄 PDF


Essence

Figure 1

L2M3 ๋ชจ๋ธ์˜ ์ „์ฒด ๊ตฌ์กฐ: (a) ํ…Œ์ด๋ธ”๊ณผ ํ…์ŠคํŠธ์—์„œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ, (b) ํ…Œ์ด๋ธ” ๋งˆ์ด๋‹ ํ”„๋กœ์„ธ์Šค, (c) ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ํ”„๋กœ์„ธ์Šค

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ๊ณผํ•™ ๋ฌธํ—Œ์—์„œ 40,000๊ฐœ ์ด์ƒ์˜ ๊ธˆ์†-์œ ๊ธฐ ๊ณจ๊ฒฉ(MOF) ๊ด€๋ จ ๋…ผ๋ฌธ์„ ๋ถ„์„ํ•˜๊ณ , 32๊ฐœ์˜ ํ•ต์‹ฌ ํŠน์„ฑ๊ณผ 21๊ฐœ ํ•ฉ์„ฑ ์กฐ๊ฑด ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ์ž๋™์œผ๋กœ ์ถ”์ถœํ•œ ํฌ๊ด„์ ์ธ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ํ•ฉ์„ฑ ์กฐ๊ฑด๊ณผ ์‹คํ—˜ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๊ทœ๋ช…ํ•˜๊ณ  ํ•ฉ์„ฑ ์กฐ๊ฑด ์ถ”์ฒœ ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

๋ฐ์ดํ„ฐ ์ถ”์ถœ ๋ฐ ์กฐ์งํ™” ์‹œ์Šคํ…œ: (a) ๋ถ„๋ฅ˜ ๋ฐ ํฌํ•จ ๋‹จ๊ณ„ ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ์ ์‘์ ์œผ๋กœ ์ˆ˜์ •๋˜๋Š” LLM ํ”„๋กฌํ”„ํŠธ, (b) ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ํƒœ๊น…์„ ํ†ตํ•œ ๋™์ผ ๋ฌผ์งˆ์˜ ์ •๋ณด ํ†ตํ•ฉ

  1. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 40,000๊ฐœ ์ด์ƒ ๋…ผ๋ฌธ์—์„œ 39,476๊ฐœ ์œ ํšจ ๋ฐ์ดํ„ฐ์…‹ ์ถ”์ถœ. 32๊ฐœ ์ •์˜๋œ ํŠน์„ฑ(surface area, pore volume ๋“ฑ)๊ณผ ์ผ๋ฐ˜ ํ˜•์‹์˜ ํŠน์„ฑ๋“ค์„ ์ถ”์ถœ. MOF ํ•ฉ์„ฑ ํ”„๋กœ์„ธ์Šค๋ฅผ 21๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋ถ„๋ฅ˜ํ•˜์—ฌ ์„ธ๋ฐ€ํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐํ™” ์‹คํ˜„.
  2. ๋†’์€ ์ถ”์ถœ ์ •ํ™•๋„ ๋‹ฌ์„ฑ: ๋‹ค์–‘ํ•œ ์ถœํŒ์‚ฌ๋กœ๋ถ€ํ„ฐ 150๊ฐœ ๋…ผ๋ฌธ์˜ ๋ฌด์ž‘์œ„ ํ‘œ๋ณธ ํ‰๊ฐ€์—์„œ ๋ถ„๋ฅ˜(categorization), ํฌํ•จ(inclusion), ์ถ”์ถœ(extraction) ์ž‘์—…์— ๋Œ€ํ•œ ์ •ํ™•๋„ ๊ฒ€์ฆ. ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง, ์˜จ๋„ ์ œ์–ด, ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์ตœ์†Œํ™” ๊ธฐ๋ฒ•์œผ๋กœ ์‹ ๋ขฐ์„ฑ ํ™•๋ณด.
  3. ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹คํ—˜ ๋ฐ์ดํ„ฐ ๊ฐ„๊ทน ๊ทœ๋ช…: ๋จธ์‹ ๋Ÿฌ๋‹ ๋ถ„์„์„ ํ†ตํ•ด ์ด๋ก  ์˜ˆ์ธก๊ฐ’๊ณผ ์‹คํ—˜๊ฐ’ ์‚ฌ์ด์˜ ์ฒด๊ณ„์  ์ฐจ์ด๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ณ , ๊ทธ ์›์ธ(ํ•ฉ์„ฑ ์กฐ๊ฑด ๋ณ€๋™์„ฑ, ๋ฌผ์งˆ ์ˆœ๋„, ์ธก์ • ํ™˜๊ฒฝ ๋“ฑ)์„ ๋ถ„์„.
  4. ์‹ค์šฉ์  ๋„๊ตฌ ๊ฐœ๋ฐœ: ์ถ”์ถœ๋œ ํ•ฉ์„ฑ ์กฐ๊ฑด ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•ฉ์„ฑ ์กฐ๊ฑด ์ถ”์ฒœ ์‹œ์Šคํ…œ ๊ตฌ์ถ•. ์‚ฌ์šฉ์ž๊ฐ€ ์ œ๊ณตํ•œ ์ „๊ตฌ์ฒด(precursor)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ตœ์  ํ•ฉ์„ฑ ์กฐ๊ฑด์„ ์ œ์‹œํ•˜์—ฌ ํ•ฉ์„ฑ ์ „๋žต ๊ฐœ์„ ์— ํ™œ์šฉ ๊ฐ€๋Šฅ.

How

Figure 2

์ ์‘ํ˜• LLM ํ”„๋กฌํ”„ํŠธ์™€ ๋ฐ์ดํ„ฐ ์กฐ์งํ™” ์—์ด์ „ํŠธ์˜ ์ƒ์„ธ ํ”„๋กœ์„ธ์Šค

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.2/5 Significance: 4.8/5 Clarity: 4.3/5 Overall: 4.5/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์˜ ๋›ฐ์–ด๋‚œ ์‹ค๋ก€๋กœ, 40,000๊ฐœ ๋…ผ๋ฌธ์—์„œ ํฌ๊ด„์  MOF ๋ฐ์ดํ„ฐ์…‹์„ ์ฒด๊ณ„์ ์œผ๋กœ ๊ตฌ์ถ•ํ•˜๊ณ  ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹คํ—˜ ๊ฐ„๊ทน์„ ๊ทœ๋ช…ํ–ˆ์œผ๋ฉฐ ์‹ค์šฉ์  ์ถ”์ฒœ ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฌผ์งˆ ๊ณผํ•™์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ LLM ๊ณ ์œ ์˜ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์œ„ํ—˜๊ณผ ๊ฒ€์ฆ ํ‘œ๋ณธ์˜ ์ œํ•œ์œผ๋กœ ์ธํ•ด ์™„์ „ํ•œ ์ •ํ™•์„ฑ ๋ณด์ฆ์—๋Š” ๋ฏธ์น˜์ง€ ๋ชปํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
398์˜ LLM ๊ธฐ๋ฐ˜ ๋ฌธํ—Œ ๋ถ„์„์€ 707 SciBERT ๋“ฑ ๊ณผํ•™ํŠนํ™” ์–ธ์–ด๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๋ฐ ํ•œ๊ณ„์— ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MOF ๊ด€๋ จ ๋Œ€๊ทœ๋ชจ ๋ฌธํ—Œ์˜ ์ž๋™ ๋ถ„์„ ๋ฐ ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๊ฒฝํ—˜์ด ์ธ์šฉ ์˜ˆ์ธก ์›Œํฌํ”Œ๋กœ์šฐ ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ฐ˜์ด ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณ ์ฒ˜๋ฆฌ๋Ÿ‰ ๋ฌด๊ธฐ์žฌ๋ฃŒ ์˜ˆ์ธก ๋ฐ ํ•ฉ์„ฑ ์‹œ์Šคํ…œ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋ถ„์•ผ ํŠนํ™” LLM์˜ ๋ถ„๋ฅ˜ยท์ •๋ณด ์ถ”์ถœ ๋Šฅ๋ ฅ ๋ฐ ๋ฌธํ—Œ ์ž๋™ ๋ถ„์„์— ๋Œ€ํ•œ ์ตœ์‹  ๋ฆฌ๋ทฐ๋กœ, LLM ๊ธฐ๋ฐ˜ MOF ์ •๋ณด ์ถ”์ถœ์˜ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ฐฐ๊ฒฝ์ง€์‹์œผ๋กœ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์žฌ๋ฃŒ ๋ฐœ๊ฒฌ ๋ถ„์•ผ ์ „๋ฐ˜ ๋ฆฌ๋ทฐ๊ฐ€ ๊ณผํ•™ ๋ฌธํ—Œ ๋ถ„์„ ๋ฐ MOF ํ•ฉ์„ฑ ์กฐ๊ฑด ์ถ”์ถœ ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Pangu-Weather ๋…ผ๋ฌธ์€ LLM ๋ฐ AI๋ฅผ ํ™œ์šฉํ•œ ํ™˜๊ฒฝ/ํ™”ํ•™/์žฌ๋ฃŒ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์‚ฌ๋ก€๋ฅผ ์†Œ๊ฐœํ•˜์—ฌ, MOF ๋ฐ์ดํ„ฐ ์ž๋™ ์ถ”์ถœ/์ถ”์ฒœ ์‘์šฉ์— ๋Œ€ํ•œ ๋ฐœ์ „์ƒ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChatMOF ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ MOF ์˜ˆ์ธก ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ๋กœ, ๊ธˆ์†-์œ ๊ธฐ ๊ณจ๊ฒฉ์ฒด ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•๊ณผ ํ™œ์šฉ์˜ ๋˜๋‹ค๋ฅธ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ™”ํ•™ ๋ถ„์•ผ์—์„œ AI ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๋ถ„์ž ํŠน์„ฑ ์˜ˆ์ธก ๋ฐ ์„ค๊ณ„๋ฅผ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์†Œ์žฌ ํ•ฉ์„ฑ ์กฐ๊ฑด ์˜ˆ์ธก์„ ์œ„ํ•œ ์ƒ์„ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Harnessing Large Language Models to Collect and Analyze Meta... ๋…ผ๋ฌธ์€ MOF ๋…ผ๋ฌธ ๋ถ„์„์˜ ๊ตฌ์ฒด์  ํ™•์žฅ ์—ฐ๊ตฌ๋กœ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ๋ฌผ์ •๋ณด ๋ฐ ์žฌ๋ฃŒ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ž๋™ ์ •๋ณด์ถ”์ถœ์„ ํ†ตํ•œ AI ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐ ํ™œ์šฉ์ด๋ผ๋Š” ํ๋ฆ„์—์„œ, ์†Œ์žฌ๊ณผํ•™ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์—ฐ๊ตฌ์˜ ์ ์šฉ์„ฑ์„ ๋„“ํžŒ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์žฌ๋ฃŒ ๋ฐœ๊ฒฌ ๋ถ„์•ผ์—์„œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ์‹ค์ œ๋กœ ์ ์šฉํ•œ ๋Œ€๊ทœ๋ชจ MOF ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์‚ฌ๋ก€๋กœ ๋ณธ ๋…ผ๋ฌธ์˜ ์‹ค์šฉ์  ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
707์€ 398์—์„œ ๋Œ€๊ทœ๋ชจ LLM์„ ํ™œ์šฉํ•œ ๊ธˆ์†-์œ ๊ธฐ ๊ณจ๊ฒฉ ๋…ผ๋ฌธ ์ž๋™ ๋ถ„์„์˜ ์ดˆ์„์œผ๋กœ ์“ฐ์ธ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
398์€ LLM์„ ํ™œ์šฉํ•œ MOF ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ ํ•ฉ์„ฑ์กฐ๊ฑด ์ถ”์ฒœ์— ์ง‘์ค‘ํ•˜์—ฌ, 695์—์„œ ์ œ์‹œํ•œ ์†Œ์žฌ ๋ฐ์ดํ„ฐ์˜ ๋Œ€๊ทœ๋ชจ AI ํ™œ์šฉ ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™ ๋…ผ๋ฌธ ์ธ์šฉ ์˜ˆ์ธก ๋ฌธ์ œ์— LLM ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ ์šฉํ•˜๋Š” ๋“ฑ, ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๋ถ„์„ ์ž๋™ํ™”์˜ ์‹ค์ œ ์‘์šฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •