Text2world: Benchmarking large language models for symbolic world model generation

์ €์ž: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Yao Mu, Hongyuan Zhang, Wenqi Shao, Ping Luo | ๋‚ ์งœ: 2025 | DOI: 📄 PDF


Essence

Figure 1

TEXT2WORLD ๋ฒค์น˜๋งˆํฌ์˜ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ: ์ž์—ฐ์–ธ์–ด ์„ค๋ช…์œผ๋กœ๋ถ€ํ„ฐ PDDL ๋„๋ฉ”์ธ ๋ชจ๋ธ ์ƒ์„ฑ, ์ž๋™ ์ˆ˜์ •, ๋‹ค์ค‘ ๊ธฐ์ค€ ํ‰๊ฐ€

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ์ž์—ฐ์–ธ์–ด ์„ค๋ช…์œผ๋กœ๋ถ€ํ„ฐ ๊ธฐํ˜ธ์  ์„ธ๊ณ„ ๋ชจ๋ธ(symbolic world model)์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด PDDL ๊ธฐ๋ฐ˜์˜ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ TEXT2WORLD๋ฅผ ์ œ์•ˆํ•˜๊ณ , ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ๊ณผ ์‹คํ–‰ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ํ˜„์žฌ LLM์˜ ์„ธ๊ณ„ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์ด ์—ฌ์ „ํžˆ ์ œํ•œ์ ์ž„์„ ๋ฐํ˜”๋‹ค.

Motivation

Achievement

Figure 2

๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ ๊ณผ์ •: (a) ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘(1,801๊ฐœ), (b) ์ž๋™ ํ•„ํ„ฐ๋ง ๋ฐ ์ˆ˜๋™ ์„ ํƒ(264๊ฐœ), (c) ์ฃผ์„ ์ž‘์„ฑ ๋ฐ ํ’ˆ์งˆ ๋ณด์ฆ(์ตœ์ข… 103๊ฐœ)

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 1,801๊ฐœ PDDL ํŒŒ์ผ์—์„œ ์ถœ๋ฐœํ•˜์—ฌ ์ž๋™ ํ•„ํ„ฐ๋ง(๊ฒ€์ฆ, ์ค‘๋ณต ์ œ๊ฑฐ, ๋ณต์žก๋„ ์ œ์–ด, ํ† ํฐ ๊ธธ์ด ํ•„ํ„ฐ๋ง)๊ณผ ์ˆ˜๋™ ์„ ํƒ์„ ๊ฑฐ์ณ 103๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๋„๋ฉ”์ธ ๋ฒค์น˜๋งˆํฌ ์™„์„ฑ(Fleiss Kappa = 0.82์˜ ๋†’์€ ์ฃผ์„์ž ๊ฐ„ ์ผ์น˜๋„)
  2. ์‹ ๋ขฐ์„ฑ ๋†’์€ ํ‰๊ฐ€ ์ง€ํ‘œ: n-gram ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ถ„์„(ฮผ = 0.04)์œผ๋กœ ๋‚ฎ์€ ์˜ค์—ผ์œจ ํ™•์ธ, ๊ตฌ์กฐ์  ์œ ์‚ฌ๋„(Levenshtein ratio)์™€ ์„ฑ๋ถ„๋ณ„ F1 ์ ์ˆ˜(์ˆ ์–ด, ๋งค๊ฐœ๋ณ€์ˆ˜, ์ „์ œ์กฐ๊ฑด, ํšจ๊ณผ)๋ฅผ ํ†ตํ•œ ๋‹ค์ฐจ์›์  ํ‰๊ฐ€ ์ฒด๊ณ„ ๊ตฌํ˜„
  3. LLM ์„ฑ๋Šฅ ๋ฒค์นญ๋งˆํ‚น: 9๊ฐœ ๋ชจ๋ธ ํŒจ๋ฐ€๋ฆฌ 16๊ฐœ LLM ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จ๋œ ์ถ”๋ก  ๋ชจ๋ธ(reasoning models)์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋ณด์ž„. ์˜ค๋ฅ˜ ์ˆ˜์ •์„ ํ†ตํ•ด ์„ฑ๋Šฅ ์œ ์˜๋ฏธ ํ–ฅ์ƒ. ์ฃผ์š” ์˜ค๋ฅ˜๋Š” ํ•„์ˆ˜ ์ „์ œ์กฐ๊ฑด์ด๋‚˜ ํšจ๊ณผ ๋ˆ„๋ฝ(omission of essential preconditions/effects)์œผ๋กœ ๋ถ„์„๋จ

How

Figure 2

๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ ๋ฐฉ๋ฒ•๋ก :

ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ:

์„ฑ๋Šฅ ํ–ฅ์ƒ ์ „๋žต:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: TEXT2WORLD๋Š” ๊ธฐํ˜ธ์  ์„ธ๊ณ„ ๋ชจ๋ธ ์ƒ์„ฑ ํ‰๊ฐ€์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ํฌ๊ด„์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ ์ค‘์š”ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ์—„๊ฒฉํ•œ ํ’ˆ์งˆ ๊ด€๋ฆฌ์™€ ๋‹ค์ฐจ์› ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜์˜€๋‹ค. ๋‹ค๋งŒ ์ตœ์ข… 103๊ฐœ ๋„๋ฉ”์ธ์˜ ๊ทœ๋ชจ ์ œ์•ฝ๊ณผ LLM์˜ ์—ฌ์ „ํ•œ ์„ฑ๋Šฅ ํ•œ๊ณ„ ๊ฐœ์„  ๋ฐฉ์•ˆ์— ๋Œ€ํ•ด์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ๋…ผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‹ ๊ฒฝ ์ •๋ฆฌ ์ฆ๋ช… ๊ธฐ์ˆ ์€ LLM์ด ๊ธฐํ˜ธ์  ์„ธ๊ณ„ ๋ชจ๋ธ์„ ํ˜•์‹์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ˜•์‹ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ zero-shot ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ ๊ฐœ๋…์„ ์‹คํ–‰ ๊ธฐ๋ฐ˜ ์„ธ๊ณ„ ๋ชจ๋ธ ํ‰๊ฐ€์™€ ์—ฐ๊ฒฐ์ง€์–ด ๊ธฐํ˜ธ์  ๋ชจ๋ธ๋ง ํ•œ๊ณ„์ ์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
813 ๋…ผ๋ฌธ์€ ์™ธ๋ถ€ ๋„๊ตฌ ์‚ฌ์šฉ ๋ฐ ๋ณตํ•ฉ์  ์ž‘์—… ๋ถ„ํ•ด ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ LLM ์—ฐ๊ตฌ๋กœ, symbolic world model ์ƒ์„ฑ์„ ์œ„ํ•œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DeepSeek-R1์˜ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์€ LLM์ด PDDL๊ณผ ๊ฐ™์€ ๊ธฐํ˜ธ์  ์„ธ๊ณ„ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ReAct ํ”„๋ ˆ์ž„์›Œํฌ๋Š” reasoning and acting์˜ ๊ฒฐํ•ฉ์„ ํ†ตํ•ด symbolic world ๋ชจ๋ธ ์ƒ์„ฑ ๊ฐ€๋Šฅ์„ฑ์˜ ๋‹ค๋ฅธ ํƒ์ƒ‰ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
722 ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋ฐ ์„ธ๊ณ„ ๋ชจ๋ธ๋ง์„ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋„๋ฉ”์ธ์—์„œ ํ‰๊ฐ€ํ•˜์—ฌ, LLM ๊ธฐ๋ฐ˜ ์‹ฌ๋ณผ๋ฆญ ๋ชจ๋ธ๋ง ํ•œ๊ณ„์™€ ์ž ์žฌ๋ ฅ ๋น„๊ต์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Truly assessing fluid intelligence ๋…ผ๋ฌธ์€ LLM์ด ์‹ค์ œ ์„ธ๊ณ„ ๋ชจ๋ธ๋ง๊ณผ ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ์—์„œ ์–ด๋””๊นŒ์ง€ ๋„๋‹ฌํ–ˆ๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
PiFlow๋Š” ์›์น™ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์œผ๋กœ, TEXT2WORLD๊ฐ€ ํ‰๊ฐ€ํ•˜๋Š” LLM์˜ ์„ธ๊ณ„ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์„ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์— ์‘์šฉํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM-SRBench๋Š” ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ ํ‰๊ฐ€, Text2world๋Š” ๊ธฐํ˜ธ์  ์„ธ๊ณ„ ๋ชจ๋ธ๋ง ํ‰๊ฐ€๋กœ, LLM์˜ symbolic reasoning ํ•œ๊ณ„์ ์„ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ง„๋‹จํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
STELLA๋Š” ์ƒ๋ฌผ์˜ํ•™์  ์„ธ๊ณ„ ๋ชจ๋ธ์— LLM์„ ์ ์šฉํ•˜์—ฌ Text2world์—์„œ ๋…ผ์˜๋œ ๊ธฐํ˜ธ์  world modeling์˜ ์‹ค์ œ ํ™œ์šฉ ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •