What are the essential factors in crafting effective long context multi-hop instruction datasets? insights and best practices

์ €์ž: Zhi Chen, Qiguang Chen, Libo Qin, Qipeng Guo, Haijun Lv, Yicheng Zou, Hang Yan, Kai Chen, Dahua Lin | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ธฐ์กด Self-Instruct ๋ฐฉ์‹๊ณผ MIMG ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋น„๊ต: ๋‹ค์ค‘ ํ™‰ ์งˆ๋ฌธ, ๊ณ ํ’ˆ์งˆ, ๋‹ค์–‘์„ฑ ์ธก๋ฉด์—์„œ์˜ ๊ฐœ์„ 

์žฅ๋ฌธ๋งฅ(long context) ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM) ํ›ˆ๋ จ์šฉ ๊ณ ํ’ˆ์งˆ ๋‹ค์ค‘ ํ™‰(multi-hop) ์ง€์‹œ์–ด ์กฐ์ • ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ์˜ ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๊ทœ๋ช…ํ•˜๊ณ , ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ(MIMG)๋ฅผ ์ œ์•ˆํ•˜์—ฌ ๊ธฐ์กด ๋ฐฉ์‹์˜ 35% ์ˆ˜์ค€์˜ ๋‹ค์ค‘ ํ™‰ ๋ฐ์ดํ„ฐ๋ฅผ 85% ์ด์ƒ์œผ๋กœ ๊ฐœ์„ ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

MIMG ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ „์ฒด ํ”„๋กœ์„ธ์Šค: 4๊ฐœ ์ฃผ์š” ์ปดํฌ๋„ŒํŠธ์˜ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ๊ฐ ๋‹จ๊ณ„๋ณ„ ์ „๋žต

  1. ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ํš๊ธฐ์  ๊ฐœ์„ : Qwen-272B๋กœ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ์—์„œ ๋‹ค์ค‘ ํ™‰ ์งˆ๋ฌธ 85% ์ด์ƒ, ๊ณ ํ’ˆ์งˆ ์ƒ˜ํ”Œ 85% ์ด์ƒ, ๋‚ฎ์€ ์ค‘๋ณต๋„ ๋‹ฌ์„ฑ (๊ธฐ์กด ๋Œ€๋น„ 50% ์ด์ƒ ํ–ฅ์ƒ)
  2. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์  ๊ฒ€์ฆ: 10๊ฐœ ๋„๋ฉ”์ธ, 5๊ฐœ LLM(Qwen2-72B, InternLM2-20B, Gemini-1.5-Pro, GPT-4o-mini, GPT-4o), 17๊ฐ€์ง€ ์ „๋žต์„ ํ†ตํ•ด ์žฅ๋ฌธ๋งฅ ๋‹ค์ค‘ ํ™‰ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ํ•ต์‹ฌ ์š”์†Œ ๊ทœ๋ช…
  3. ์ธ๊ฐ„ ์ฃผ์„ ๋ฐ์ดํ„ฐ ์ดˆ๊ณผ ์„ฑ๋Šฅ: ํ•ฉ์„ฑ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จํ•œ LLM์ด ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ์ฃผ์„ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จํ•œ ๋ชจ๋ธ์„ ์ดˆ๊ณผํ•˜์—ฌ ํ‰๊ท  7.54% ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑ

How

Figure 3

ํ’ˆ์งˆ ๊ฒ€์ฆ ์—์ด์ „ํŠธ์˜ ๋‹ค์–‘ํ•œ ์ „๋žต ๋ถ„์„: ๋ถ„๋ฅ˜(Classification) vs. ์ ์ˆ˜ํ™”(Scoring) ๋ฐฉ์‹์˜ ์ •ํ™•๋„, ์ •๋ฐ€๋„, ๋ฌธ๋งฅ ๊ธธ์ด๋ณ„ ์˜ํ–ฅ

2.1 ํ’ˆ์งˆ ๊ฒ€์ฆ ์—์ด์ „ํŠธ (QVA)

2.2 ๋‹จ์ผ ํ™‰ ์งˆ๋ฌธ ์ƒ์„ฑ ์—์ด์ „ํŠธ (SQGA)

2.3 ๋‹ค์ค‘ ์งˆ๋ฌธ ์ƒ˜ํ”Œ๋ง (MQS)

2.4 ๋‹ค์ค‘ ํ™‰ ์งˆ๋ฌธ ํ†ตํ•ฉ ์—์ด์ „ํŠธ (MQMA)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์žฅ๋ฌธ๋งฅ ๋‹ค์ค‘ ํ™‰ ์ง€์‹œ์–ด ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ์˜ ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๊ทœ๋ช…ํ•˜๊ณ , ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜์˜ ์‹ค์šฉ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๋ถ„์•ผ์— ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์ฆ ์‹คํ—˜๊ณผ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ดˆ๊ณผ ์„ฑ๋Šฅ์ด ๊ฐ€์น˜ ์žˆ์œผ๋‚˜, ํ”„๋ ˆ์ž„์›Œํฌ ๋ณต์žก๋„์™€ ๊ณ„์‚ฐ ๋น„์šฉ ์ธก๋ฉด์˜ ์‹ค๋ฌด์  ์ œ์•ฝ์ด ๋ณด์™„๋˜์–ด์•ผ ํ•  ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Retrieval-augmented generation(RAG)์— ๋Œ€ํ•œ ์ฒด๊ณ„์  ๋ถ„์„์€ ์žฅ๋ฌธ๋งฅ RAGํ˜• LLM ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
636๋ฒˆ ๋…ผ๋ฌธ์€ ํ”„๋กฌํ”„ํŠธ ์ผ๊ด€์„ฑ์ด ์‹ค์ œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ์ง‘์ค‘ํ•˜์—ฌ, 876๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณ ํ’ˆ์งˆ ๋‹ค์ค‘ ํ™‰ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RAG ๊ธฐ๋ฐ˜ ์ •๋ณด ๊ฒ€์ƒ‰๊ณผ LLM ์—์ด์ „ํŠธ์˜ ๋™์  ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์— ๋Œ€ํ•œ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์žฅ๋ฌธ๋งฅ ๋ชจ๋ธ ๋ฐ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๊ฐ€ ์‹ฌ์‚ฌ ํ’ˆ์งˆ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ๋ถ„์„์„ ํ†ตํ•ด, LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์˜ ๊ธฐ์ˆ ์  ์ด์Šˆ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
746๋ฒˆ ๋…ผ๋ฌธ์€ Self-Refine์˜ ๋ฐ˜๋ณต์  ์ž๊ธฐ ํ”ผ๋“œ๋ฐฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด LLM์˜ ์ž…์ถœ๋ ฅ ํ’ˆ์งˆ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, 876๋ฒˆ ๋…ผ๋ฌธ์—์„œ ๋‹ค๋ฃจ๋Š” ๊ณ ํ’ˆ์งˆ ๋‹ค์ค‘ ํ™‰ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ์‹๊ณผ ๋Œ€์กฐ์ ์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
675์˜ RAG ๋…ผ์˜๋Š” 876์—์„œ RAG ๊ธฐ๋ฐ˜ ์žฅ๋ฌธ๋งฅ LLM ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ ๋ฐ ์‹ค์ œ ์—์ด์ „ํŠธ ํ•™์Šต ์ ์šฉ์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
673๋ฒˆ ๋…ผ๋ฌธ์€ ์ธ๊ฐ„ ์—ฐ๊ตฌ ์ง‘๋‹จ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ†ตํ•ด LLM ์‹œ์Šคํ…œ์˜ ๋ฐ์ดํ„ฐ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ๋‹ค์ค‘ ํ™‰ reasoning ๋ฐœ์ „๋Ÿ‰์„ ์‹คํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
295๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜๊ณผ ๊ฒ€์ƒ‰ ๊ฐ•ํ™” ์ ˆ์ฐจ๋ฅผ ๋‹ค๋ค„, 876๋ฒˆ์—์„œ ์ œ์‹œํ•œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•์˜ ํ™•์žฅ ์—ฐ๊ตฌ๊ฐ€ ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ์ž‘์„ฑ์—์„œ ํšจ๊ณผ์  ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„ ์š”์ธ์„ ๊ณ ์ฐฐํ•˜์—ฌ, ๋ฉ”ํƒ€๋ฆฌ๋ทฐ ์ƒ์„ฑ์˜ ํ’ˆ์งˆ๊ณผ ์ผ๊ด€์„ฑ ๊ฐœ์„ ์„ ์œ„ํ•œ ๊ตฌ์ฒด์  ์ „๋žต์„ ์ œ์•ˆํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ƒ์„ฑ๋œ ์žฅ๋ฌธ๋งฅ ๋ฐ์ดํ„ฐ์…‹์˜ ํšจ๊ณผ๋Š” ์ˆ˜ํ•™์  ์ฝ”ํŒŒ์ผ๋Ÿฟ์˜ ์ฆ๋ช… ๋ฐ์ดํ„ฐ ๊ฐœ์„ ๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AutoBio๋Š” ์ƒ๋ฌผํ•™์  ๋กœ๋ด‡ ์ž๋™ํ™” ํ™˜๊ฒฝ์—์„œ ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ-์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ์„ ์‹ค์งˆ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜์—ฌ ์žฅ๋ฌธ๋งฅ RAG ํ›ˆ๋ จ ์ „๋žต ํ™•์žฅ์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํšจ๊ณผ์ ์ธ ์žฅ๋ฌธ๋งฅ ๋ชจ๋ธ ์„ค๊ณ„์‹œ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋Š” ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ๊ฒฝํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ ์‹ค์ œ LCLM ๊ตฌ์ถ• ํ˜„์žฅ์—์„œ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•จ.
๋ฐ˜๋ก /๋น„ํŒ
Data integrity in materials science in the era of AI ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ๊ณผ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ์ค‘์‹œํ•˜์—ฌ, MIMG ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ์˜ ํ•œ๊ณ„์™€ ์œ„ํ—˜์„ฑ์— ๋Œ€ํ•œ ๋น„ํŒ์  ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •