์ ์: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Bรถrje F. Karlsson | ๋ ์ง: 2026-02-04 | URL: https://arxiv.org/abs/2602.04515 📄 PDF
Fig. 1: Overview of EgoActor, which can control a humanoid robot by jointly predicting movement, active perception,
EgoActor๋ VLM ๊ธฐ๋ฐ์ ํตํฉ ๋ชจ๋ธ๋ก์ ๊ณ ์์ค ์์ฐ์ด ๋ช ๋ น์ด๋ฅผ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ ์์ค ๊ณต๊ฐ ์ธ์ ๋์(๋ณดํ, ์กฐ์, ์ง๊ฐ, ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ)์ผ๋ก ์ง์ ๋ณํํ๋ EgoActing ํ์คํฌ๋ฅผ ์ ์ํ๋ค.
Fig. 2: Visualization of EgoActorโs working procedure for a given task: โApproach and pick up the orange on the deskโ. T
Fig. 3: Example natural language actions (NLA) in EgoActing.
์ดํ: EgoActor๋ VLM์ ํ์ฉํ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด์์ ๋ณดํ, ์กฐ์, ์ง๊ฐ, ์ํธ์์ฉ์ ํตํฉํ๋ ์๋ก์ด ์ ๊ทผ์ ์ ์ํ๋ฉฐ, ๊ด๋ฒ์ํ ์ค์ ๋ฐ ์๋ฎฌ๋ ์ด์ ๊ฒ์ฆ์ ํตํด ๊ทธ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ๋ค. ์คํ์์ค ๊ณต๊ฐ์ ํจ๊ป ํด๋จธ๋ ธ์ด๋ ๊ตฌ์ฒดํ AI์ ์ค์ง์ ๋ฐ์ ์ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ์์๋๋ค.