Introspective growth: Automatically advancing llm expertise in technology judgment

์ €์ž: Yongtao Liu, Marti Checa, Rama Vasudevan | ๋‚ ์งœ: 2025 | DOI: ์ œ๊ณต๋˜์ง€ ์•Š์Œ 📄 PDF


Essence

Figure 2

ํŠนํ—ˆ ์Œ ๊ตฌ๋ถ„ ์ž‘์—…์—์„œ LLM์˜ ์ •ํ™•๋„ ๋น„๊ต: "๋‹ค๋ฅธ ํŠนํ—ˆ์ธ๊ฐ€?"์™€ "๊ฐ™์€ ํŠนํ—ˆ์ธ๊ฐ€?" ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์‘๋‹ต ๋ถ„ํฌ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๊ธฐ์ˆ  ํŒ๋‹จ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด USPTO ํŠนํ—ˆ ๋ถ„๋ฅ˜ ์ž‘์—…์„ ํ™œ์šฉํ•˜์—ฌ, ๋ชจ๋ธ์ด ๋ณด์œ ํ•œ ์ง€์‹(lay-in knowledge)๊ณผ ์‹ค์ œ ํ™œ์šฉํ•˜๋Š” ์ง€์‹(working knowledge) ๊ฐ„์˜ ๊ฒฉ์ฐจ๋ฅผ ์ง„๋‹จํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Panel (a): ArXiv ๋…ผ๋ฌธ๊ณผ ํŠนํ—ˆ ์„ค๋ช…์„œ์˜ ๋ชจ๋ธ ํ˜ผ๋ž€๋„(perplexity) ๋น„๊ต / Panel (b): ๊ฐ ํŠนํ—ˆ์™€ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๋‹ค๋ฅธ ํŠนํ—ˆ ๊ฐ„ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๋ถ„ํฌ

  1. ๋Œ€๊ทœ๋ชจ ํŠนํ—ˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ์ปดํ“จํ„ฐ/์ •๋ณด๊ธฐ์ˆ  130๋งŒ+๊ฑด, ์ƒ์˜ํ•™ 17๋งŒ+๊ฑด์˜ 2015๋…„ ์ดํ›„ ํŠนํ—ˆ ์ค‘ ๊ณ ๋‚œ๋„ ๊ตฌ๋ถ„ ์Œ(hard-to-distinguish pairs) ํ™•๋ณด - USPTO ์‹ฌ์‚ฌ๊ด€์˜ ์ธ์  ๊ฒ€์ฆ์œผ๋กœ ์‹ ๋ขฐ์„ฑ ํ™•๋ณด
  2. ๋ฏธ์‚ฌ์šฉ ์ง€์‹ ๋ณ‘๋ชฉ(knowledge deployment bottleneck) ๊ทœ๋ช…: ๋ชจ๋ธ ์˜ค๋ฅ˜์˜ ๋Œ€๋ถ€๋ถ„์ด ์ฐธ์ง€์‹(lay-in knowledge) ๋ฏธํ™œ์šฉ์—์„œ ๋น„๋กฏ๋˜๋ฉฐ, ์‹ค์ œ ์ง€์‹ ๋ถ€์กฑ์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ ์Œ์„ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆ
  3. ๋ชจ๋ธ ์Šค์ผ€์ผ๋ณ„ ์ƒ๋ณด์  ๊ฐ•์  ๋ฐœ๊ฒฌ: ์†Œํ˜• ๋ชจ๋ธ์€ ๋‹จ์ˆœํ•˜๊ณ  ์ „์ด ๊ฐ€๋Šฅํ•œ ์งˆ๋ฌธ-๋‹ต๋ณ€ ๊ธฐ์ €ํ‹€์„ ์ƒ์„ฑํ•˜์—ฌ ํšŒ์ˆ˜(retrieval)๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ณ , ๋Œ€ํ˜• ๋ชจ๋ธ์€ ๋” ๋ณต์žกํ•˜์ง€๋งŒ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ๋‚ฎ์€ ์งˆ๋ฌธ์„ ์ƒ์„ฑ - ๊ณ„์ธต์  ํ˜‘๋ ฅ ์ „๋žต์˜ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ

How

Figure 4

์งˆ๋ฌธ ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ ๋‹ต๋ณ€ ๋ชจ๋ธ์˜ ์กฐํ•ฉ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ: ์ž๊ฐ€์ƒ์„ฑ ์งˆ๋‹ต vs. ์™ธ๋ถ€ ์ •๋ณด ๊ธฐ๋ฐ˜ ์งˆ๋‹ต ๋น„๊ต

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ์‹ค์ œ ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ์ค‘์š”ํ•œ "๋ฏธ์‚ฌ์šฉ ์ง€์‹" ๋ฌธ์ œ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๊ทœ๋ช…ํ•˜๊ณ , ํŠนํ—ˆ๋ผ๋Š” ๋„๋ฉ”์ธ์„ ํ†ตํ•ด ๊ฐœ๋… ์ดํ•ด์˜ ํ•ต์‹ฌ ์š”์†Œ์ธ ์ฐจ๋ณ„ํ™” ๋Šฅ๋ ฅ์„ ์ฐฝ์˜์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•œ๋‹ค. ๋‹ค๋งŒ, ๋„๋ฉ”์ธ ํŠน์ด์„ฑ๊ณผ ์™ธ๋ถ€ ์ •๋ณด์˜ ์™„์ „์„ฑ ๊ฐ€์ •์œผ๋กœ ์ธํ•ด ์ผ๋ฐ˜ํ™”์— ์ œ์•ฝ์ด ์žˆ์œผ๋ฉฐ, ์ง„๋‹จ ์ดํ›„ ๊ฐœ์„  ๋ฐฉ์•ˆ ์ œ์‹œ๊นŒ์ง€๋Š” ๋ฏธํกํ•œ ์ƒํƒœ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ์ œ๋กœ์ƒท ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ/์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ, ๊ธฐ์ˆ  ํŒ๋‹จ์— ํ•„์š”ํ•œ LLM์˜ ์‹ค์ œ์  ํ™œ์šฉ ์ง€์‹์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large language models meet NLP ๋…ผ๋ฌธ์€ LLM์˜ ๋‹ค์–‘ํ•œ NLP ํ™œ์šฉ๊ณผ ๊ทธ ํ•œ๊ณ„๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ์ •๋ฆฌํ•˜์—ฌ, ๊ธฐ์ˆ ์  ์ „๋ฌธ์„ฑ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์ง„๋‹จ์˜ ์ด๋ก ์  ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
How deep do large language models internalize scientific literature๋Š” LLM์ด ์‹ค์ œ ์ง€์‹์„ ๋‚ด์žฌํ™”ํ•œ ์ •๋„์™€ ํ™œ์šฉ์˜ ์ฐจ์ด๋ฅผ ๋ถ„์„ํ•ด ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฐ๊ฒฝ์  ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Enabling AI Scientists to Recognize Innovation(313)์€ LLM์˜ ํ˜์‹ ์„ฑ ํ‰๊ฐ€ ๋ฐ ๊ฐœ๋… ํ™œ์šฉ ๋Šฅ๋ ฅ์˜ ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ๋ฉฐ, ์ง€์‹ ์œ ํ˜• ๊ฐ„ ์ฐจ๋ณ„ ์ธก์ •๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ํŠนํ—ˆ ๋ฌธ์„œ ์ฒ˜๋ฆฌ ๋ฐ ์‹ฌ์‚ฌ ์ž๋™ํ™”๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ์œ ์‚ฌํ•œ ์‘์šฉ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
438์€ ํŠนํ—ˆ ๋ถ„๋ฅ˜ ๊ธฐ๋ฐ˜ LLM ๊ธฐ์ˆ  ํ‰๊ฐ€, 668์€ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, AI์˜ ๊ณผํ•™ ์•„์ด๋””์–ด/๊ธฐ์ˆ  ํ‰๊ฐ€์— ์ƒ์ดํ•œ ๋ฐฉ์‹ ์ ์šฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ์ž๊ธฐ์„ฑ์žฅ, ์ž๊ธฐ๊ฐœ์„  ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋‹ค๊ฐ๋„๋กœ ๋ถ„์„ํ•ด, 314๋ฒˆ์˜ PIT ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹คํ—˜์  ํ™•์žฅ ์—ฐ๊ตฌ๋กœ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ์ž๊ธฐ ์„ฑ์ฐฐ์  ์„ฑ์žฅ(โ€˜๋ฉ”ํƒ€-๋Ÿฌ๋‹โ€™) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ถ„์„ํ•จ์œผ๋กœ์จ, LLM ๊ธฐ๋ฐ˜ ๊ธฐ์–ต ์ฒด๊ณ„ ๋ถ„๋ฅ˜ ์ฒด๊ณ„์˜ ์‹ค์šฉ์  ํ•จ์˜๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
The AI Scientist ๋…ผ๋ฌธ์€ LLM์˜ ์‹ค์ œ ๊ธฐ์ˆ ์  ์ž๊ฐ€์„ฑ์žฅ ๋ฐ ์ง€์‹ ํ™œ์šฉ ํ•œ๊ณ„๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ž๋™ํ™” ๊ณผํ•™ ์ˆ˜ํ–‰์—์„œ expertise assessment์˜ ์‹ค์ œ์  ์˜๋ฏธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์˜ ๋‚ด์žฌ ์ง€์‹๊ณผ ์‹ค์ œ ํ™œ์šฉ ์ง€์‹ ๊ฐ„ ๊ฒฉ์ฐจ๋ฅผ ์ง„๋‹จํ•˜๋Š” 438๋ฒˆ ๋…ผ๋ฌธ์˜ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ•ด์„ ๊ธฐ๋ฐ˜ ์ธ๊ณผ ๋ถ„์„์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLMEval-Med๋Š” ์ž„์ƒ ๋„๋ฉ”์ธ์—์„œ LLM์˜ ์‹ค์งˆ์  ์ „๋ฌธ ์ง€์‹ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜์—ฌ introspective growth์˜ ์•„์ด๋””์–ด๋ฅผ ์˜๋ฃŒ์— ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •