Large Language Models are Zero Shot Hypothesis Proposers

์ €์ž: Biqing Qi, Kaiyan Zhang, Haoxiang Li, Kai Tian, Sihang Zeng | ๋‚ ์งœ: 2023 | DOI: 10.48550/arXiv.2311.05965 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ๋ฏธ์„ธ์กฐ์ •๋œ 65B LLaMA ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ๊ฐ€์„ค์˜ ์˜ˆ์‹œ๋กœ, ๊ธฐ์กด ๋ฌธํ—Œ์˜ ๋ฐœ๊ฒฌ๊ณผ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•จ

๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ํ•™์Šต๋˜์ง€ ์•Š์€ ๊ณผํ•™ ๊ฐ€์„ค์„ ์ œ์‹œํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ƒ์„ฑ๋œ ๊ฐ€์„ค์ด ์‹ค์ œ ์ถœํŒ๋œ ๋ฌธํ—Œ๊ณผ ์ผ์น˜ํ•˜๋Š” ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋‚ด์šฉ์ž„์„ ์ž…์ฆํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ํŠนํžˆ ๋ถˆํ™•์‹ค์„ฑ ์ฆ๊ฐ€๊ฐ€ ์˜์  ํ•™์Šต(zero-shot) ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ๋ฐœ๊ฒฌ์„ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ๊ณผํ•™ ๋ฐœ๊ฒฌ์˜ ๋ฐ˜๋ณต์  ์ˆœํ™˜ ๊ณ ๋ฆฌ - ๋ฐ์ดํ„ฐ ๋ถ„์„, ๊ฐ€์„ค ์ƒ์„ฑ, ์‹คํ—˜ ์„ค๊ณ„, ์‹คํ–‰, ๊ด€์ฐฐ ์ถ•์ 

  1. ์˜์  ํ•™์Šต ๊ฐ€์„ค ์ƒ์„ฑ์˜ ๊ฒ€์ฆ: LLM์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋…ธ์ถœ๋˜์ง€ ์•Š์€ 2023๋…„ 8์›” ๋…ผ๋ฌธ์˜ ๊ฐ€์„ค์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ƒ์„ฑํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ์‹ค์ œ ๋ฐœํ‘œ๋œ ๋…ผ๋ฌธ๊ณผ ์ผ์น˜ํ•˜๋Š” ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๊ฐ€์„ค์ž„์„ ์ž…์ฆ
  2. ๋ถˆํ™•์‹ค์„ฑ ์ฆ๊ฐ€์˜ ๊ธ์ •์  ์˜ํ–ฅ: ๋ถˆํ™•์‹ค์„ฑ ์ˆ˜์ค€์„ ๋†’์ž„์œผ๋กœ์จ ํ›„๋ณด ์ƒ์„ฑ์˜ ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€ํ•˜๊ณ , ์ด๊ฒƒ์ด ์˜์  ํ•™์Šต ์กฐ๊ฑด์—์„œ ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ด์„ ๋ฐœ๊ฒฌ (์˜ˆ: ํ˜‘์—… ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์ด ์†Œ์ˆ˜์ƒท ๋˜๋Š” ๋„๊ตฌ ํ™œ์šฉ๋ณด๋‹ค ๋” ํšจ๊ณผ์ )
  3. ๊ณ ๊ณ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ๋ฐœ๊ฒฌ: LLM์ด ๋‹จ์ˆœํ•œ ํŒจํ„ด ๋งค์นญ์„ ๋„˜์–ด ๊ธฐ์ดˆ์ ์ด์ง€๋งŒ ๊ณ ๊ณ„ ์ง€์‹ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ณด์œ ํ•˜๊ณ  ์žˆ์Œ์„ ์‹ค์ฆ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ˜•์‹์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๋Š” ์„ ๊ตฌ์  ์—ฐ๊ตฌ๋กœ, ์‹œ๊ฐ„ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹ ๋ถ„ํ• ๊ณผ ๋ถˆํ™•์‹ค์„ฑ์˜ ๊ธ์ •์  ์—ญํ• ์ด๋ผ๋Š” ํฅ๋ฏธ๋กœ์šด ๋ฐœ๊ฒฌ์„ ์ œ์‹œํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ์˜ ์ •์˜ ๋ถ€์กฑ, ์ƒ์˜ํ•™ ๋„๋ฉ”์ธ ํ•œ์ •, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ๊ณผํ•™์  ์œ ํšจ์„ฑ ๊ฒ€์ฆ์˜ ๋ฏธํกํ•จ์œผ๋กœ ์ธํ•ด ๊ธฐ์ˆ ์  ์™„์„ฑ๋„๊ฐ€ ๋‹ค์†Œ ๋‚ฎ์œผ๋ฉฐ, ์ถ”๊ฐ€์ ์ธ ์‹คํ—˜๊ณผ ์—„๋ฐ€ํ•œ ๋ถ„์„์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ์˜ํ•™ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ• ๋ฐ ์ˆจ๊ฒจ์ง„ ์—ฐ๊ฒฐ ๋ฐœ๊ฒฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋…ผ๋ฌธ์€ zero-shot ๋Šฅ๋ ฅ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ํ‰๊ฐ€ํ•ด 441์˜ ํŒฉํŠธ ์ฒดํฌ zero-shot/์ „์ด ๋Šฅ๋ ฅ ๋ถ„์„์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
419๋Š” LLM์˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋น„๊ต ํ‰๊ฐ€ํ•˜๋Š” ์ด๋ก ์ /๋ฒค์น˜๋งˆํฌ์  ๋ฐฐ๊ฒฝ์„ ์ œ์‹œํ•ด, 468์˜ zero-shot ๋Šฅ๋ ฅ ๋…ผ์˜๋ฅผ ์‹ฌํ™”ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋…ผ๋ฌธ์€ LLM์˜ ๊ฐ€์„ค ์ƒ์„ฑยทํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ๋‹ค๋ฃจ์–ด, ๊ณผํ•™ ์˜ค๋ณด ๊ฒ€์ถœ ๋ชจ๋ธ์˜ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ•œ๊ณ„ ์ดํ•ด์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ์ œ๋กœ์ƒท ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ์‹ค์ฆ ํ‰๊ฐ€ํ•˜์—ฌ, ๋ฌธํ—Œ+๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๊ธฐ๋ฐ˜์˜ ๊ฐ€์„ค ์ƒ์„ฑ ๋…ผ๋ฌธ ๋ฐฐ๊ฒฝ์„ ์ด๋ฃฌ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋…ผ๋ฌธ์€ LLM์˜ ๊ณผํ•™์  ์งˆ์˜ยท๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ์‹ ๋ขฐ์„ฑยท์‹œ๊ฐ„์ •๋ณด ํ†ตํ•ฉ QA ๊ฐœ์„ ์˜ ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers(468)๋Š” LLM์˜ ์ƒˆ๋กœ์šด ๊ณผํ•™ ๊ฐ€์„ค ์ œ์•ˆ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, 474์˜ ์ธ๊ณผ๊ตฌ์กฐ ์ถ”๋ก ๋ ฅ์— ๋Œ€ํ•œ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ zero-shot ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ ๊ฐœ๋…์„ ์‹คํ–‰ ๊ธฐ๋ฐ˜ ์„ธ๊ณ„ ๋ชจ๋ธ ํ‰๊ฐ€์™€ ์—ฐ๊ฒฐ์ง€์–ด ๊ธฐํ˜ธ์  ๋ชจ๋ธ๋ง ํ•œ๊ณ„์ ์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ์ œ๋กœ์ƒท ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ/์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ, ๊ธฐ์ˆ  ํŒ๋‹จ์— ํ•„์š”ํ•œ LLM์˜ ์‹ค์ œ์  ํ™œ์šฉ ์ง€์‹์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
031 ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๊ฐ€์„ค ์ƒ์„ฑ์— ๊ด€ํ•œ ์„œ๋ฒ ์ด๋กœ, 468์˜ ์•„์ด๋””์–ด ๋„์•ฝ์— ์ด๋ก ์  ๊ทผ๊ฑฐ์™€ ๋ฐฐ๊ฒฝ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ ๊ฐ€์„ค ์ƒ์„ฑ์—์„œ ์ œ์–ด ๊ฐ€๋Šฅํ•œ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๊ณผ ๋ถˆํ™•์‹ค์„ฑ ๊ธฐ๋ฐ˜ ์ œ๋„ˆ๋ ˆ์ดํ‹ฐ๋ธŒ ์ ‘๊ทผ์„ ๋น„๊ตยท๋ถ„์„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Large Language Models are Zero Shot Hypothesis Proposers ๋…ผ๋ฌธ์€ LLM์˜ ์ œ๋กœ์ƒท ๊ณผํ•™ ๊ฐ€์„ค ์ƒ์„ฑ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•˜๋ฉฐ, MOOSE-Chem์˜ ์ฐฝ๋ฐœ์  ์ ์šฉ๊ณผ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ zero-shot ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋ถ„์„ํ•ด HypoGeniC๊ณผ ํƒ์ƒ‰ ์ „๋žต์˜ ํšจ๊ณผ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
820์€ LLM์˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ์‹œ ์‹ ๋ขฐ์„ฑ๊ณผ ํ‰๊ฐ€ ์ฒ™๋„์— ์ง‘์ค‘ํ•˜์—ฌ, 468์˜ ์ฃผ์žฅ์— ์‹ค์ฆ์  ๊ทผ๊ฑฐ์™€ ์‹ค์ œ์  ํ•œ๊ณ„๋ฅผ ๋”ํ•ด์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด ์ƒ์„ฑ ๊ธฐ๋Šฅ์ด ๋ถˆํ™•์‹ค์„ฑ ์™€์ค‘์— ์‹ค์ œ ์ถœํŒ ์—ฐ๊ตฌ์™€์˜ ๋Œ€์‘์„ฑ์„ ๋ณด์ด๋ฉฐ, ํ†ตํ•ฉ์  ์•„์ด๋””์–ด ํ‰๊ฐ€ ์‹œ์Šคํ…œ์œผ๋กœ ๋ฐœ์ „ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ์ œ๋กœ์ƒท ๊ฐ€์„ค ์ œ์•ˆ ๋ฐ ์ธ๊ณผํƒ์ƒ‰ ์„ฑ๋Šฅ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด, MRAgent์˜ ์‹ค์Šต์  ์ธ๊ณผ ๊ด€๊ณ„ ๋ฐœ๊ฒฌ์„ ํ˜„์‹ค์ ์ธ ์ ์šฉ ์˜ˆ์ œ๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
374๋Š” ๋Œ€๋Ÿ‰ ํ•™์ˆ ๋ฌธํ—Œ์˜ ์š”์•ฝ์„ LLM์œผ๋กœ ์ƒ์„ฑํ•˜์—ฌ, 468์—์„œ ์ œ์‹œํ•˜๋Š” ํ•™์Šต๋˜์ง€ ์•Š์€ ๊ฐ€์„ค๊ณผ ์‹ค์ œ ๊ฒ€์ฆ๋œ ์ •๋ณด ๊ฐ„ ์—ฐ๊ฒฐ ์‘์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ฐ€์„ค ๋„์ถœ ๋Šฅ๋ ฅ์ด ์‹ค์ œ ๊ณผํ•™์  ์ƒ์‚ฐ๊ณผ์ •์—์„œ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๋Š”์ง€ LLM ์ƒ์‚ฐ์„ฑ ํ–ฅ์ƒ ๋งฅ๋ฝ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Large Language Models are Zero Shot Hypothesis Proposers ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ๊ด€์ /์˜ค๋ฅ˜ ํ”ผ๋“œ๋ฐฑ ์—†์ด๋„ LLM์ด ์ฐฝ์˜์  ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, Wrong-of-Thought(887)์˜ ๋‹ค์ค‘ ๊ฒ€์ฆ ์ „๋žต ์ ‘๊ทผ๊ณผ ๋Œ€์กฐ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •