An autonomous AI agent for universal behavior analysis

์ €์ž: Almir Aljoviฤ‡, Zuwan Lin, Wenbo Wang, Xinhe Zhang, Arnau Marin-Llobet | ๋‚ ์งœ: 2025 | DOI: 10.1101/2025.05.15.653585 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: BehaveAgent ์•„ํ‚คํ…์ฒ˜. (a) ํ˜„์žฌ ํ–‰๋™ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ๊ณผ (b) BehaveAgent์˜ ์ž๋™ํ™”๋œ ์›Œํฌํ”Œ๋กœ์šฐ ๋น„๊ต

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๊ณผ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์„ ํ†ตํ•ฉํ•œ ์ž์œจ AI ์—์ด์ „ํŠธ BehaveAgent๋Š” ์žฌํ•™์Šต์ด๋‚˜ ์ˆ˜๋™ ๊ฐœ์ž… ์—†์ด ๋น„๋””์˜ค์—์„œ ๋™๋ฌผ ํ–‰๋™์„ ๋ณดํŽธ์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋‹ค. ์‹๋ฌผ๋ถ€ํ„ฐ ์ธ๊ฐ„๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์ข…๊ณผ ์‹คํ—˜ ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ ์ œ๋กœ์ƒท(zero-shot) ์‹œ๊ฐ ์ถ”๋ก ์„ ํ†ตํ•ด ํ–‰๋™ ๋ถ„์„์„ ์ž๋™ํ™”ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ์ œ๋กœ์ƒท ํ–‰๋™ ํŒจ๋Ÿฌ๋‹ค์ž„ ๊ฐ์ง€ ๋ฐ ๋ชฉํ‘œ ์„ค์ •. BehaveAgent๊ฐ€ ์ƒ์„ฑ๋œ ๋น„๋””์˜ค์—์„œ ์ž๋™์œผ๋กœ ํ–‰๋™ ์œ ํ˜•์„ ์ธ์‹ํ•˜๊ณ  ๋งž์ถคํ˜• ๋ถ„์„ ๋ชฉํ‘œ๋ฅผ ์„ค์ •ํ•จ

  1. ์ œ๋กœ์ƒท ํ–‰๋™ ํŒจ๋Ÿฌ๋‹ค์ž„ ๊ฐ์ง€: OpenAI์˜ Sora๋กœ ์ƒ์„ฑ๋œ ๋น„๋””์˜ค์—์„œ ์ถ”๊ฐ€ ๋งฅ๋ฝ ์ •๋ณด ์—†์ด Morris Water Maze(์ฅ์˜ ๊ณต๊ฐ„ ํ•™์Šต), Corvid ๋ฌธ์ œํ•ด๊ฒฐ(์กฐ๋ฅ˜ ์ธ์ง€), Primate ๊ฐ์ฒด ์กฐ์ž‘, ์–ผ๊ตด ํ‘œ์ • ๋ถ„์„ ๋“ฑ ์„œ๋กœ ๋‹ค๋ฅธ 4๊ฐ€์ง€ ํ–‰๋™ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ž๋™ ์‹๋ณ„ํ•˜๊ณ  ์ „๋ฌธํ™”๋œ ๋ถ„์„ ๋ชฉํ‘œ ์„ค์ •.
  2. ์ข… ๊ฐ„ ๋ณดํŽธ์  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ: ์‹๋ฌผ, ๊ณค์ถฉ, ์„ค์น˜๋ฅ˜, ์˜์žฅ๋ฅ˜, ์ธ๊ฐ„์— ์ด๋ฅด๋Š” ๋‹ค์–‘ํ•œ ์ƒ๋ฌผ ๋Œ€์ƒ์—์„œ ์ถ”๊ฐ€ ํ•™์Šต์ด๋‚˜ ๋ฏธ์„ธ์กฐ์ • ์—†์ด ํ–‰๋™ ๋ถ„์„ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ. ์ž๋™ํ™”๋œ ํ”ผ์ฒ˜ ์ถ”์ , ํ–‰๋™ ์ˆ˜์—ด ์‹๋ณ„, ํ•ด์„์  ์ถ”๋ก  ์ œ๊ณต.
  3. ํฌ๊ด„์  ์—ฐ๊ตฌ ๋ณด๊ณ ์„œ ์ƒ์„ฑ: ํ–‰๋™ ๋ฐœ๊ฒฌ์„ ๊ณผํ•™ ๋ฌธํ—Œ๊ณผ ํ†ตํ•ฉํ•˜์—ฌ ๋ชฉํ‘œ, ๋ฐฉ๋ฒ•๋ก , ๋ฐœ๊ฒฌ, ํ•จ์˜ ๋ฐ ์ฐธ๊ณ ๋ฌธํ—Œ์„ ํฌํ•จํ•œ ์™„์ „ํ•œ ์—ฐ๊ตฌ ๋ฌธ์„œ ์ž๋™ ์ƒ์„ฑ.

How

Figure 3

๊ทธ๋ฆผ 3: ๋ชฉํ‘œ ์ง€ํ–ฅ์  ํ”ผ์ฒ˜ ๊ฐ์ง€ ๋ฐ ์ถ”๋ก  ๊ธฐ๋ฐ˜ ์ถ”์ 

Figure 4

๊ทธ๋ฆผ 4: ๋น„๋””์˜ค ๊ฐ์ฒด ๋ถ„ํ•  ๋ฐ VLM ์•ˆ๋‚ด ์˜๋ฏธ๋ก ์  ๋ผ๋ฒจ๋ง์„ ํ†ตํ•œ ํ”ผ์ฒ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง

Figure 5

๊ทธ๋ฆผ 5: ๋งฅ๋ฝ ์ธ์‹ ํ–‰๋™ ์‹œ๊ฐ„์  ๋ถ„ํ• 

Originality

Limitation & Further Study

Evaluation

์ดํ‰: BehaveAgent๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ธฐ๋ฐ˜ ์ž์œจ ์—์ด์ „ํŠธ๋กœ์„œ ํ–‰๋™ ๋ถ„์„ ๋ถ„์•ผ์— ํ˜์‹ ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋ฉฐ ์ข… ๊ฐ„ ๋ณดํŽธ์  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚˜๋‚˜, ์‹ค์ œ ํ–‰๋™ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์ •๋Ÿ‰์  ๊ฒ€์ฆ๊ณผ ์„ฑ๋Šฅ ๋ฒค์น˜๋งˆํ‚น์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
BehaveAgent์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ธฐ๋ฐ˜ ์ž์œจ ๋ถ„์„ ํ”„๋ ˆ์ž„์›Œํฌ ์„ค๊ณ„์— ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธ์„œ์—์„œ ์‹œ๊ฐ ์ •๋ณด์™€ ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•ด ์บก์…˜์„ ์ƒ์„ฑํ•˜๋Š” ๋‹ค์ค‘ ๋ชจ๋ธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์‹œ๊ฐ-์–ธ์–ด ํ†ตํ•ฉ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ˜„์‹ค ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ ๋กœ๋ณดํ‹ฑ ์‹คํ—˜ ์ž๋™ํ™”๋ฅผ ๋ฒค์น˜๋งˆํฌํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, BehaveAgent์™€ ์‹œ์Šคํ…œ์  ํŠน์„ฑ์„ ์ƒํ˜ธ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์žฌํ•™์Šต ์—†์ด ๋‹ค์–‘ํ•œ ์ข…์˜ ํ–‰๋™์„ ์ œ๋กœ์ƒท์œผ๋กœ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ธ์ฝคํ…์ŠคํŠธ ํ•™์Šต์„ ํ†ตํ•œ ํ–‰๋™ ์‹ ๊ฒฝ๊ณผํ•™ ์ž๋™ํ™”์™€ zero-shot ๋ถ„์„์˜ ๊ตฌํ˜„ ๋…ผ๋ฆฌ๊ฐ€ BehaveAgent์˜ ๋ฒ”์šฉ ํ–‰๋™ ๋ถ„์„๊ณผ ์œ ์‚ฌํ•œ ํ™•์žฅ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ† ๋ก  ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ์  ์ถ”๋ก  ๊ณ ๋„ํ™”๋กœ, ๋ณดํŽธ์  ํ–‰๋™ ๋ถ„์„์— ๋Œ€ํ•œ AI ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ๊ฐœ์„  ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •