Can foundation models actively gather information in interactive environments to test hypotheses? arXiv preprint arXiv:2412.06438, 2024.

์ €์ž: Danny P. Sawyer, Nan Rosemary Ke, Hubert Soyer, Martin Engelcke, David Reichert, Drew A. Hudson, John Reid, Alexander Lerchner, Danilo Jimenez Rezende, Timothy Lillicrap, Michael C. Mozer, Jane X. Wang | ๋‚ ์งœ: 2024 | DOI: 📄 PDF


Essence

๋ณธ ์—ฐ๊ตฌ๋Š” ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(Foundation Models)์˜ ๋Œ€ํ™”ํ˜• ํ™˜๊ฒฝ์—์„œ์˜ ๋Šฅ๋™์  ํƒ์ƒ‰(active exploration) ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค. Feature World์™€ Alchemy ํ™˜๊ฒฝ์„ ํ†ตํ•ด ํšจ์œจ์  ์ •๋ณด ์ˆ˜์ง‘, ๋ฉ”ํƒ€๋Ÿฌ๋‹(meta-learning), ์ „๋žต ์ ์‘(strategy adaptation)์˜ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๋ฉฐ, ํŠนํžˆ ์š”์•ฝ(summarization) ํ”„๋กฌํ”„ํŒ…์ด ๋ณต์žกํ•œ ๋‹ค์ค‘ ์‹œํ–‰ ํ™˜๊ฒฝ์—์„œ ๋ฉ”ํƒ€๋Ÿฌ๋‹์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

Motivation

Achievement

  1. ์ •๋ณด ์ˆ˜์ง‘ ๋Šฅ๋ ฅ (Information Gathering): ๋ชจ๋“  ํ‰๊ฐ€ ๋Œ€์ƒ LLM์ด ๊ฐ„๋‹จํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ฐ€์ง„ Feature World ์ž‘์—…์—์„œ ์ตœ์ (near-optimal) ์„ฑ๋Šฅ์— ๊ทผ์ ‘. ํŠนํžˆ ๊ณ ์ • ์Šคํ… ์˜ˆ์‚ฐ ๋‚ด์—์„œ ๋ณด์ƒ ๋Œ€์ƒ์„ ์ฐพ๋Š” ์„ฑ๊ณต๋ฅ ์ด ๋†’์Œ
  2. ๋ฉ”ํƒ€๋Ÿฌ๋‹์˜ ์กฐ๊ฑด๋ถ€ ์„ฑ๊ณต: ๊ธฐ๋ณธ Alchemy ํ™˜๊ฒฝ์—์„œ๋Š” ๋ฉ”ํƒ€๋Ÿฌ๋‹ ์‹คํŒจ(์‹œํ–‰ ๊ฐ„ ์„ฑ๋Šฅ ๊ฐœ์„  ์—†์Œ)๋ฅผ ๋ณด์˜€์œผ๋‚˜, ์š”์•ฝ ํ”„๋กฌํŒ…(summarization prompting) ์„ ๋„์ž…ํ•˜๋ฉด ์‹œํ–‰์„ ๊ฑฐ๋“ญํ•˜๋ฉด์„œ ์„ฑ๋Šฅ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ๋จ
Figure 4: Alchemy ์ž‘์—… ๊ตฌ์กฐ ๋ฐ ์‹คํ—˜ ์„ค์ • - ์ž ์žฌ์  ์ธ๊ณผ ๊ตฌ์กฐ ์ถ”๋ก  ํ™˜๊ฒฝ

๋‹ค์ค‘ ์ƒํƒœ ์˜์กด ์‹œํ–‰์„ ์š”๊ตฌํ•˜๋Š” ๋ฉ”ํƒ€๋Ÿฌ๋‹ ๋ฒค์น˜๋งˆํฌ

  1. ๋ชจ๋ธ ๊ฐ„ ๊ฐ•ํ•œ ์ด์งˆ์„ฑ: Alchemy ํ™˜๊ฒฝ์—์„œ ๋ช…ํ™•ํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ - Gemini 2.5 > Claude 3.7 >> ChatGPT-4o/o4-mini. ์ด๋Š” Alchemy์ด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ํƒ์ƒ‰ ๋Šฅ๋ ฅ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ์˜ ๊ฐ€์น˜๋ฅผ ์ž…์ฆ
  2. ์ „๋žต ์ ์‘๊ณผ ์žฌํ•™์Šต: ์ผ๋ถ€ ๋ชจ๋ธ(ํŠนํžˆ Gemini 2.5)์—์„œ ํ™˜๊ฒฝ ๊ทœ์น™์ด ์˜ˆ๊ธฐ์น˜ ์•Š๊ฒŒ ๋ณ€๊ฒฝ๋  ๋•Œ ์š”์•ฝ์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์„ธ๊ณ„ ๋ชจ๋ธ(world model)์˜ ์ ์‘์  ์žฌํ•™์Šต ๊ฐ€๋Šฅ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋Œ€ํ™”ํ˜• ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ ํ•™๊ณ„์™€ ์‚ฐ์—…์— ์ค‘์š”ํ•œ ๋ฒค์น˜๋งˆํฌ์™€ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•œ๋‹ค. ํŠนํžˆ ์š”์•ฝ ํ”„๋กฌํŒ…์„ ํ†ตํ•œ ์ฐฝ๋ฐœ์  ๋ฉ”ํƒ€๋Ÿฌ๋‹์€ ๊ธฐ์ˆ ์  ๊ด€์‹ฌ์ด ๋†’์œผ๋ฉฐ, Alchemy ๋ฒค์น˜๋งˆํฌ ๋„์ž…์œผ๋กœ ํ–ฅํ›„ ์—ฐ๊ตฌ์˜ ๊ธฐ์ดˆ๋ฅผ ๋งˆ๋ จํ–ˆ๋‹ค. ๋‹ค๋งŒ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„ ์‹ฌํ™”์™€ ๋” ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
470์˜ LLM ์ž๊ธฐ๊ฐœ์„  ๋Šฅ๋ ฅ ๊ด€๋ จ ์—ฐ๊ตฌ๋Š” 180์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ๋Šฅ๋™์  ์ •๋ณด์ˆ˜์ง‘ ๋ฐ ์ „๋žต ์ ์‘์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BERT ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ์  ์„ค๊ณ„์™€ ์‚ฌ์ „ํ•™์Šต ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ๋Œ€ํ™”ํ˜• ํ™˜๊ฒฝ ๋‚ด ๋ชจ๋ธ ํ‰๊ฐ€ ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๊ธฐ ๊ฐœ์„  ์ž๋™ํ™” ํ‰๊ฐ€์— ์ฃผ๋ชฉํ•˜์—ฌ, LLM์˜ ์ „๋žต ์ ์‘ยทํ•™์Šต ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์•กํ‹ฐ๋ธŒ ์ˆ˜์ง‘ ๊ด€์ ์—์„œ ๋ณด์™„์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
526(MecAgents)์€ LLM ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์ด ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ ํ˜‘๋ ฅ์ ์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ์™€ ํƒ์ƒ‰ ๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์„ ๋‹ค๋ฃจ์–ด, 180์˜ ๋Šฅ๋™์  ํƒ์ƒ‰ ํ‰๊ฐ€์™€ ๋งฅ๋ฝ์ด ํ†ตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋ฉ”ํƒ€๋Ÿฌ๋‹ ๋ฐ ํ™˜๊ฒฝ ์ ์‘ ๋Šฅ๋ ฅ์„ ๋Œ€ํ™”ํ˜• ์„ค์ •์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ™˜๊ฒฝ์—์„œ์˜ ํ•™์Šต ๋ฐ ์ ์‘ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋Œ€ํ™”ํ˜• ํ™˜๊ฒฝ์—์„œ์˜ ๋Šฅ๋™์  ์ •๋ณด ์ˆ˜์ง‘ ๋ฐ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ํƒ์ƒ‰์  ํ–‰๋™๊ณผ ๋ถˆํ™•์‹คํ•œ ํ™˜๊ฒฝ์—์„œ์˜ ์˜์‚ฌ๊ฒฐ์ • ๋Šฅ๋ ฅ์„ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
355 ๋…ผ๋ฌธ์€ ์ธ๊ฐ„๊ณผ AI์˜ ๋ฉ”๋ชจ๋ฆฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋น„๊ต ๋ฐ ๋ฒค์น˜๋งˆํ‚น์„ ๋‹ค๋ฃจ์–ด, 180์˜ '๋ฉ”์ปค๋‹ˆ์ฆ˜์  ๋ฉ”๋ชจ๋ฆฌ' ํ‰๊ฐ€ ์ ‘๊ทผ๊ณผ ์ƒํ˜ธ๋ณด์™„์ ์œผ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—์ด์ „ํŠธ์˜ ๋Šฅ๋™์  ํƒ์ƒ‰ ์ „๋žต๊ณผ ํšจ์œจ์  ์ •๋ณด ์ˆ˜์ง‘ ๋Šฅ๋ ฅ์„ ์—ฐ๊ตฌํ•˜๋Š” ์œ ์‚ฌํ•œ ๋…ผ๋ฌธ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
400์€ ๊ณ„์ธต์  ์ž‘์—… ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ๋กœ 180์˜ foundation model memory ๋ฌธ์ œ๋ฅผ ํ™•์žฅ ์—ฐ๊ตฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ๋Šฅ๋™์  ํƒ์ƒ‰ยท์งˆ๋ฌธ ๋Šฅ๋ ฅ์„ ์‹คํ—˜ํ™˜๊ฒฝ์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‚ฌ๋ก€๋กœ, ๋ณธ ๋…ผ๋ฌธ์˜ ํ‰๊ฐ€ํ™˜๊ฒฝ ํ™•๋Œ€ยทํ™•์žฅ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI์˜ ๋Šฅ๋™์  ํƒ์ƒ‰ยท์ •๋ณด ์ˆ˜์ง‘ ๋Šฅ๋ ฅ์ด ์‹ค์ œ ์‹ฌ๋ฆฌํ•™ ์‹คํ—˜ ๋Œ€๊ทœ๋ชจ ๋ณต์ œ ๊ฒฐ๊ณผ์™€ ์—ฐ๊ฒฐ๋˜์–ด, ์„ฑ๋Šฅ ํ•œ๊ณ„ ๋ถ„์„์ด ๋ณด์™„๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •