Towards a Science of AI Agent Reliability

์ €์ž: Stephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan | ๋‚ ์งœ: 2026-02-18 | DOI: 10.48550/arXiv.2602.16666 📄 PDF


Essence

Figure 1

์‹ ๋ขฐ์„ฑ ํ–ฅ์ƒ์ด ๋Šฅ๋ ฅ ํ–ฅ์ƒ๋ณด๋‹ค ๋’ค์ฒ˜์ง. ์ •ํ™•๋„๋Š” ๊พธ์ค€ํžˆ ์ƒ์Šนํ•˜์ง€๋งŒ ์‹ ๋ขฐ์„ฑ์€ ๋ฏธ๋ฏธํ•œ ๊ฐœ์„ ๋งŒ ๋ณด์ž„

AI ์—์ด์ „ํŠธ(agents)์˜ ์‹ค์ œ ๋ฐฐํฌ ํ™˜๊ฒฝ์—์„œ ๋†’์€ ์ •ํ™•๋„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์‹ ๋ขฐ์„ฑ ๋ถ€์กฑ์ด ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ์ž„์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์•ˆ์ „-์ž„๊ณ„ ์—”์ง€๋‹ˆ์–ด๋ง(safety-critical engineering)์˜ ์›์น™์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ผ๊ด€์„ฑ, ๊ฒฌ๊ณ ์„ฑ, ์˜ˆ์ธก๊ฐ€๋Šฅ์„ฑ, ์•ˆ์ „์„ฑ์˜ 4๊ฐ€์ง€ ์ฐจ์›์œผ๋กœ ๋ถ„ํ•ดํ•œ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ 12๊ฐœ๋ฅผ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ฒฐ๊ณผ ์ผ๊ด€์„ฑ: ๋ชจ๋ธ ๊ฐ„ ํŽธ์ฐจ ๋ถ„์„

  1. ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์ถ•: ์ผ๊ด€์„ฑ(consistency), ๊ฒฌ๊ณ ์„ฑ(robustness), ์˜ˆ์ธก๊ฐ€๋Šฅ์„ฑ(predictability), ์•ˆ์ „์„ฑ(safety)์˜ 4๊ฐ€์ง€ ๋…๋ฆฝ์  ์ฐจ์›์—์„œ 12๊ฐœ์˜ ๊ตฌ์ฒด์ ์ด๊ณ  ๊ณ„์‚ฐ ๊ฐ€๋Šฅํ•œ ๋ฉ”ํŠธ๋ฆญ ์ œ์•ˆ. ์ด ๋ฉ”ํŠธ๋ฆญ๋“ค์€ ์›์‹œ ์ •ํ™•๋„์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ์„œ๋กœ ๋‹ค๋ฅธ ๋Šฅ๋ ฅ ์ˆ˜์ค€์˜ ์—์ด์ „ํŠธ๋“ค์„ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ
  2. ์‹ ๋ขฐ์„ฑ-๋Šฅ๋ ฅ ๊ดด๋ฆฌ ์‹ค์ฆ: 18๊ฐœ์›” ๋™์•ˆ์˜ ๋ชจ๋ธ ๋ฆด๋ฆฌ์Šค์—์„œ ์ •ํ™•๋„๋Š” ์—ฐ 0.21 ๊ธฐ์šธ๊ธฐ๋กœ ๊พธ์ค€ํžˆ ํ–ฅ์ƒ๋˜์ง€๋งŒ, ์‹ ๋ขฐ์„ฑ(R)์€ ์—ฐ 0.03์— ๋ถˆ๊ณผํ•œ ๋ฏธ๋ฏธํ•œ ๊ฐœ์„ ๋งŒ ๋‹ฌ์„ฑ. ๋ฒค์น˜๋งˆํฌ ๊ฐ„ ์ •ํ™•๋„-์‹ ๋ขฐ์„ฑ ์ƒ๊ด€๊ณ„์ˆ˜ ์ฐจ์ด(0.63~0.73์—์„œ 0.46~0.82๋กœ ๋ณ€๋™)๋Š” ์ •ํ™•๋„ ํ–ฅ์ƒ์ด ์‹ ๋ขฐ์„ฑ ํ–ฅ์ƒ์„ ๋ณด์žฅํ•˜์ง€ ์•Š์Œ์„ ์‹œ์‚ฌ
  3. ํ˜„๋Œ€ ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ ํ”„๋กœํ•„ ๋ถ„์„: ์ผ๊ด€์„ฑ(run-to-run repeatability)๊ณผ ์˜ˆ์ธก๊ฐ€๋Šฅ์„ฑ์ด ์ฆ‰๊ฐ์ ์ธ ์—ฐ๊ตฌ ์ดˆ์ ์ด ํ•„์š”ํ•œ ๊ฐ€์žฅ ์•ฝํ•œ ์ฐจ์›์ž„์„ ํŠน์ •. ๋ชจ๋ธ๋“ค์ด ๋™์ผ ์กฐ๊ฑด์—์„œ ๋‹ค์–‘ํ•œ ์ถœ๋ ฅ์„ ๋ณด์ด๋ฉฐ, ์ž์‹ ์˜ ์‹คํŒจ ๊ฐ€๋Šฅ์„ฑ์„ ์ถฉ๋ถ„ํžˆ ์ธ์‹ํ•˜์ง€ ๋ชปํ•จ

How

Figure 3

ํ”„๋กฌํ”„ํŠธ ๊ฒฌ๊ณ ์„ฑ: ์ž…๋ ฅ ๋ณ€๋™์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ์ €ํ•˜

์‹ ๋ขฐ์„ฑ ๋ฉ”ํŠธ๋ฆญ ์„ค๊ณ„:

ํ‰๊ฐ€ ์„ค์ •:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.8/5 Clarity: 4.5/5 Overall: 4.6/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ ํ‰๊ฐ€์˜ ๊ทผ๋ณธ์ ์ธ ๊ฒฉ์ฐจ๋ฅผ ์ •ํ™•ํžˆ ์ง„๋‹จํ•˜๊ณ , ์•ˆ์ „-์ž„๊ณ„ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ๊ฒ€์ฆ๋œ ์›์น™์„ ์ ์šฉํ•˜์—ฌ ์‹ ๋ขฐ์„ฑ์˜ ๋‹ค์ฐจ์› ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ ์ด๋ก ๊ณผ ์‹ค๋ฌด ๊ฐ„์˜ ๊ดด๋ฆฌ๋ฅผ ํ•ด์†Œํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค์˜ ์‹ค์ฆ์  ์‹ ๋ขฐ์„ฑ ํ”„๋กœํ•„์„ ์ตœ์ดˆ๋กœ ์ œ๊ณตํ•˜๊ณ  ์ •ํ™•๋„-์‹ ๋ขฐ์„ฑ ๊ดด๋ฆฌ์˜ ์ •๋Ÿ‰ํ™”๋Š” ํ–ฅํ›„ ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์˜ ์šฐ์„ ์ˆœ์œ„ ์„ค์ •์— ์ค‘์š”ํ•œ ์ง€์นจ์ด ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
TrustLLM์€ LLM์˜ ์‹ ๋ขฐ์„ฑ์„ ๋‹ค์ฐจ์›์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, AI ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ ๊ณผํ•™์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
822๋ฒˆ ๋…ผ๋ฌธ์€ AI agent ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์˜ ๊ณผํ•™์  ์ ‘๊ทผ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋ฏ€๋กœ, 400๋ฒˆ์—์„œ ๊ณ„์ธต์  ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ๋กœ ์‹ ๋ขฐ๋„๋ฅผ ๋†’์ด๋Š” ์ „๋žต์ด ๊ฐ–๋Š” ์˜์˜์™€ ํ•œ๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
822๋ฒˆ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ ๊ณผํ•™์˜ ์ด๋ก ์  ํ‹€์„ ์ œ๊ณตํ•˜์—ฌ ์ง€๊ตฌ ๊ด€์ธก ์ž๋™ํ™” ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ๊ฐœ์„  ๋ฐฉํ–ฅ์— ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ค๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Towards a Science of AI Agent Reliability ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ ์—ฐ๊ตฌ ์‹คํ—˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์˜ ์ด๋ก ์ /์ œ๋„์  ๋…ผ์˜๋ฅผ ์ œ๊ณตํ•ด, EXP-Bench์˜ ๋™๊ธฐ์™€ ๋ถ„์„ ์‹œ๊ฐ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Towards a Science of AI Agent Reliability ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด LLM ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
822๋Š” AI ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ํ‰๊ฐ€ ์ฒด๊ณ„์˜ ์ด๋ก ์  ๋…ผ์˜๋ฅผ ์ œ๊ณต, 248์—์„œ์˜ '์—„๋ฐ€์„ฑ, ์žฌํ˜„์„ฑ' ๋ชฉํ‘œ์™€ ๋งž๋‹ฟ๋Š”๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์•ˆ์ „์„ฑ์— ๊ด€ํ•œ ์ด๋ก ์  ๋…ผ์˜๊ฐ€ SafeScientist์˜ ์œ„ํ—˜๊ด€๋ฆฌ ์ค‘์‹ฌ ํ”„๋ ˆ์ž„์›Œํฌ ๋ฏธ์ ์šฉ ํ•œ๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ธฐ์ดˆ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
822 ๋…ผ๋ฌธ์€ AI ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ, 716์˜ ๋ฒค์น˜๋งˆํฌ ๋ชฉ์ ์— ์ค‘์š”ํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
822๋Š” AI ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ์„ ๊ณผํ•™์  ๊ด€์ ์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ์–ด, 3257์ฒ˜๋Ÿผ ๋Œ€๊ทœ๋ชจ ๊ธ€๋กœ๋ฒŒ ํ”Œ๋žซํผ์—์„œ AI ํ™œ์šฉ์‹œ ์‹œ์Šคํ…œ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ ๊ณผํ•™ ์—ฐ๊ตฌ์— AI ์—์ด์ „ํŠธ๋ฅผ ์ ์šฉํ•˜์ง€๋งŒ, [822]๋Š” AI ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์–ด ์ ‘๊ทผ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ ๋ฐ ์—ฐ์†์  ํ•™์Šต ์‹œ์Šคํ…œ์˜ ์œ„ํ—˜ ๊ด€๋ฆฌ์™€ ์ง์ ‘์ ์œผ๋กœ ๋น„๊ต, ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ๋‹ค์–‘ํ•œ ๊ด€์ ์„ ํ•จ๊ป˜ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
824๋ฒˆ์€ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ์‹ ๋ขฐ์„ฑ ํ™•๋ณด๋ฅผ ์œ„ํ•œ AI ํ‰๊ฐ€ ๋ฐ ์‹ ๋ขฐ ๊ฐœ๋…์˜ ๊ธฐ๋ฐ˜ ์ด๋ก ์„ ํ™•๋ฆฝํ•˜๋ฉฐ, 822๋ฒˆ์˜ ์‹ค์ฆ์  ์ ‘๊ทผ๊ณผ ์ƒํ˜ธ ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SEVerA๋Š” ํ˜•์‹์  ์•ˆ์ „์„ฑ ๋ณด์ฆ์„ ํ†ตํ•ด ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ์„ ๊ธฐ์ˆ ์ ์œผ๋กœ ๋ณด์žฅํ•˜๋ ค๋Š” ์ ‘๊ทผ์œผ๋กœ, 822์˜ ์‹ ๋ขฐ์„ฑ ๋ฉ”ํŠธ๋ฆญ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์™€ ์ƒํ˜ธ ๋ณด์™„๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
795๋ฒˆ์€ AI Scientist ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์‹ ๋ขฐ ๋ฉ”ํŠธ๋ฆญ ์ ์šฉ, ์‹ค์ œ ๋ฐ˜๋ณต ๊ฐ€๋Šฅ์„ฑ๊ณผ ์•ˆ์ „์„ฑ ๋ฌธ์ œ๋ฅผ ์‹ฌํ™”ํ•˜์—ฌ ๋…ผ์˜ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ, ํ‰๊ฐ€, ์œ„ํ—˜๊ด€๋ฆฌ ๋“ฑ cross-domain policy transfer์˜ ์‹ค์ œ ์ ์šฉ ์‹œ ๊ณ ๋ ค์ ๊ณผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์‹ฌ๋„ ์žˆ๊ฒŒ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๊ณต๋™ ๊ณผํ•™์ž(Co-scientist)์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์‹ค์งˆ์  ํ˜‘๋™ ํšจ๊ณผ์— ๋Œ€ํ•œ ๊ตฌ์ฒด์  ์‚ฌ๋ก€๊ฐ€ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ์ง€ํ‘œ ๋…ผ์˜์— ๋ณดํƒฌ์ด ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ํ™•์žฅ ์›์น™์„ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ์—ฐ๊ตฌ๋กœ, ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์— ์„ฑ๋Šฅ ์˜ˆ์ธก ์ฐจ์›์„ ์ถ”๊ฐ€ํ•˜๋Š” ์ƒํ˜ธ ๋ณด์™„์  ๊ด€๊ณ„๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SEVerA๋Š” ์ž๊ธฐ ์ง„ํ™” ์—์ด์ „ํŠธ์— ํ˜•์‹์  ์•ˆ์ „์„ฑ ๋ณด์ฆ์„ ์ œ๊ณตํ•˜์—ฌ, AI ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ ๊ณผํ•™์ด ์ œ์‹œํ•˜๋Š” ์ผ๊ด€์„ฑยท์•ˆ์ „์„ฑ ์š”๊ตฌ์‚ฌํ•ญ์„ ๊ธฐ์ˆ ์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
anchor correspondence ๋ฐ ์ •๋ ฌ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ multi-agent scientific reliability ํ‰๊ฐ€๋กœ ํ™•์žฅํ•˜์—ฌ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
822 ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ณผํ•™ ๊ฒ€์ƒ‰ยท์ตœ์ ํ™” ์ ˆ์ฐจ ํ‰๊ฐ€๋กœ BAX ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ ์ ์šฉ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ํ™œ์šฉ ํ•œ๊ณ„๋ฅผ ์‹ค์ œ ๊ณผํ•™์  ๋งฅ๋ฝ์—์„œ ๋ถ„์„ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
BLADE ๋…ผ๋ฌธ์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ ๋ฐ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ํ˜„์žฅ์— ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ, ์‹ ๋ขฐ์„ฑ ๋ฉ”ํŠธ๋ฆญ์˜ ์‹ค์šฉ์  ์˜ํ–ฅ๋ ฅ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Towards a Science of AI Agent Reliability๋Š” ์ž๋™ํ™” ๊ณผํ•™ ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑยทํ•œ๊ณ„๋ฅผ ์ง‘์ค‘์ ์œผ๋กœ ๋…ผ์˜ํ•˜๋ฉฐ, AI Scientist์˜ ์‹ค์šฉ์„ฑ/ํ•œ๊ณ„์™€ ๊ท ํ˜• ์žˆ๊ฒŒ ์ฝ๊ธฐ ์ข‹๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
AI ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ๊ณผ ์œ„ํ—˜์— ์ดˆ์ ์„ ๋งž์ถฐ, ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๋ฆฌ์Šคํฌ ๋ถ„๋ฅ˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•„์š”์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๊ฒ€ํ† ํ•จ.
๋ฐ˜๋ก /๋น„ํŒ
Towards a Science of AI Agent Reliability ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์˜ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, ResearchGym์—์„œ ์ œ๊ธฐํ•œ '๋Šฅ๋ ฅ-์‹ ๋ขฐ์„ฑ ๊ฒฉ์ฐจ' ๊ฒฝํ—˜์  ์ฆ๊ฑฐ์™€ ๊ท ํ˜• ์žˆ๊ฒŒ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •