Aviary: training language agents on challenging scientific tasks

์ €์ž: Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths, Manu Ponnapati, Albert Bou, Jon Laurent, Ori Kabeli, Geemi Wellawatte, Sam Cox, Samuel G. Rodriques, Andrew D. White | ๋‚ ์งœ: 2024-12-30 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: 5๊ฐœ์˜ Aviary ํ™˜๊ฒฝ๊ณผ ์–ธ์–ด ๊ฒฐ์ • ๊ณผ์ •(LDP) ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์–ธ์–ด ์—์ด์ „ํŠธ(language agent)๋ฅผ ํ›ˆ๋ จํ•˜๊ธฐ ์œ„ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์ฒด์œก๊ด€ ํ”„๋ ˆ์ž„์›Œํฌ์ธ Aviary๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ €์ž๋“ค์€ ์–ธ์–ด ์—์ด์ „ํŠธ๋ฅผ ์–ธ์–ด-๊ธฐ๋ฐ˜ ๋ถ€๋ถ„ ๊ด€์ฐฐ ๊ฐ€๋Šฅ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(language decision process, LDP)์œผ๋กœ ํ˜•์‹ํ™”ํ•˜๊ณ , DNA ์กฐ์ž‘, ๊ณผํ•™ ๋ฌธํ—Œ ์งˆ๋ฌธ ์‘๋‹ต, ๋‹จ๋ฐฑ์งˆ ์•ˆ์ •์„ฑ ๊ณตํ•™ ๋“ฑ 3๊ฐœ์˜ ๊ณผํ•™ ํ™˜๊ฒฝ์„ ํฌํ•จํ•œ 5๊ฐœ ํ™˜๊ฒฝ์„ ๊ตฌํ˜„ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 3

๊ทธ๋ฆผ 3: Aviary ํ™˜๊ฒฝ์„ ์‚ฌ์šฉํ•˜์—ฌ LLM๊ณผ ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ์ž‘์—… ํ•ด๊ฒฐ ๋Šฅ๋ ฅ

  1. ์ด๋ก ์  ๊ธฐ์—ฌ: ๋ถ€๋ถ„ ๊ด€์ฐฐ ๊ฐ€๋Šฅ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(POMDP)์˜ ์ž์—ฐ์–ธ์–ด ํ‘œํ˜„์œผ๋กœ์„œ ์–ธ์–ด ๊ฒฐ์ • ๊ณผ์ •(LDP)์„ ํ˜•์‹ํ™”ํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ๊ธฐ์กด ์—์ด์ „ํŠธ ์•„ํ‚คํ…์ฒ˜(CoALA, ReAct ๋“ฑ)๋ฅผ ํ†ต์ผ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•จ์„ ์‹œ์—ฐํ–ˆ๋‹ค.
  2. ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: ์˜คํ”ˆ ์†Œ์Šค ์†Œํ˜• ๋ชจ๋ธ(Llama-3.1-8B-Instruct)์„ ์˜จ๋ผ์ธ ํ›ˆ๋ จ(expert iteration)๊ณผ ์ถ”๋ก  ์‹œ๊ฐ„ ์ƒ˜ํ”Œ๋ง(majority vote)์œผ๋กœ ํ›ˆ๋ จํ•˜์—ฌ, DNA ๊ตฌ์ถ• ์„ค๊ณ„ ๋ฐ ๊ณผํ•™ ๋ฌธํ—Œ ์งˆ๋ฌธ ์‘๋‹ต ํ™˜๊ฒฝ์—์„œ ์ตœ์ฒจ๋‹จ LLM(GPT-4o ๋“ฑ)๊ณผ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋ฉด์„œ ์ถ”๋ก  ๋น„์šฉ์„ 100๋ฐฐ ๊ฐ์†Œ์‹œ์ผฐ๋‹ค.

How

Figure 4

๊ทธ๋ฆผ 4: (A) ๋ถ„์ž ํด๋กœ๋‹ ํ™˜๊ฒฝ์—์„œ SeqQA ์ž‘์—… ํ›ˆ๋ จ, (B) LitQA2 ์ž‘์—… ํ›ˆ๋ จ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์–ธ์–ด ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ ๋ช…ํ™•ํ•œ ์ด๋ก ์  ํ‹€(LDP)๊ณผ ์‹ค์šฉ์  ๊ตฌํ˜„(Aviary)์„ ์ œ๊ณตํ•˜๋ฉฐ, ๊ณผํ•™ ์ž‘์—…์˜ ์ž๋™ํ™”๋ผ๋Š” ์ค‘์š”ํ•œ ์‘์šฉ์—์„œ ๊ฒฝ์ œ์„ฑ ๋†’์€ ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํŠนํžˆ ์˜คํ”ˆ ์†Œ์Šค ์†Œํ˜• ๋ชจ๋ธ์˜ ์ž ์žฌ๋ ฅ์„ ์ž…์ฆํ•œ ์ ์ด ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‚˜, ํ™˜๊ฒฝ ํ™•์žฅ์„ฑ, ์ด๋ก ์  ๋ถ„์„ ์‹ฌํ™”, ๋‹ค์ค‘ ๋„๋ฉ”์ธ ๊ฒ€์ฆ ๋“ฑ ํ–ฅํ›„ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
El Agente์˜ ์–‘์žํ™”ํ•™ ์—์ด์ „ํŠธ๋Š” Aviary์—์„œ ์ œ์‹œ๋œ ์–ธ์–ด-๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž‘์—… ์—์ด์ „ํŠธ ํ›ˆ๋ จ ์ฒด๊ณ„๋ฅผ ์‹ค์งˆ์  ๊ณผํ•™ ๋ฌธ์ œ์— ์ ์šฉํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SCIENCEBOARD์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ํ™˜๊ฒฝ์€ Aviary์˜ ๊ณผํ•™์–ธ์–ด์—์ด์ „ํŠธ ํ›ˆ๋ จ๊ณผ ๋ฒค์น˜๋งˆํฌ ๋ฐฉํ–ฅ์„ฑ์„ ์ด์–ด๋ฐ›์€ ์‹คํ—˜์  ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ์ž์œจ ์—์ด์ „ํŠธ์˜ ๊ธฐ๋ฐ˜ ๊ฐœ๋…์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™” ์—์ด์ „ํŠธ์˜ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
351 ๋…ผ๋ฌธ์€ ๋‹ค์ค‘์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ „ ๊ณผ์ • ์•ฝ๋ฌผ์„ค๊ณ„ ์ž๋™ํ™”๋ฅผ ์ถ”๊ตฌ, 147๋ฒˆ์˜ ์ผ๋ฐ˜ ์‹คํ—˜ ์ฑŒ๋ฆฐ์ง€์™€ ๋น„๊ตํ•ด๋ณผ ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ์ž‘์—…์„ ์œ„ํ•œ ์–ธ์–ด ์—์ด์ „ํŠธ ํ›ˆ๋ จ์˜ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์ž‘์—… ์ˆ˜ํ–‰์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ ํ›ˆ๋ จ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
535 ๋…ผ๋ฌธ์€ 147๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ CFD ํ•ด์„์ฒ˜๋Ÿผ ๋ฌผ๋ฆฌ/๊ณตํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊นŒ์ง€ ํ™•์žฅ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
533 ๋…ผ๋ฌธ์€ 147๋ฒˆ์˜ ์—์ด์ „ํŠธ ํ›ˆ๋ จ ์ฒด์œก๊ด€ ๊ตฌ์กฐ๋ฅผ ํŠน์ˆ˜ ์–‘์ž ์‹คํ—˜ ๋ฉ”ํƒ€์„ค๊ณ„๋กœ ํ™•์žฅํ•˜์—ฌ ์‹ค์ œ ๊ณผํ•™ ๋„๋ฉ”์ธ์— ์ ์šฉํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Dynamic multi-agent orchestration and retrieval ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๋™์  ๊ด€๋ฆฌ ๋ฐ ๋„๊ตฌ ํ™œ์šฉ ์ „๋žต์„ Aviary์˜ ํ™•์žฅ๋œ ๊ฐ€์ƒ ์‹คํ—˜ ํ™˜๊ฒฝ์œผ๋กœ ์ œ์•ˆํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •