์ ์: Hao Luo, Wanpeng Zhang, Yicheng Feng, Sipeng Zheng, Haiweng Xu, Chaoyi Xu, Ziheng Xi, Yuhui Fu, Zongqing Lu | ๋ ์ง: 2026-04-30 | URL: https://arxiv.org/abs/2605.00078 📄 PDF
Figure 2: Latent reasoning and latent world-action model. Left: Learnable latent queries are inserted
์ด ๋ ผ๋ฌธ์ egocentric video๋ก๋ถํฐ ํ์ต๋ latent world-action model์ธ Being-H0.7์ ์ ์ํ๋ค. ํ๋ ์์ฑ ์ฌ์ด์ ํ์ต ๊ฐ๋ฅํ latent query๋ฅผ ์ถ๋ก ์ธํฐํ์ด์ค๋ก ๋์ ํ๊ณ , future-informed dual-branch ์ค๊ณ๋ฅผ ํตํด ๋ฏธ๋ ํ๋ ์ ์์ฑ ์์ด ์ธ๊ณ ๋ชจ๋ธ์ ์์ธก ๋ฅ๋ ฅ์ VLA์ ํจ์จ์ฑ๊ณผ ๊ฒฐํฉํ๋ค.
Figure 3: Being-H0.7 Architecture. We pack the prior and posterior branches into a single MoT sequence
์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ: 6๊ฐ ๋ฒค์น๋งํฌ(LIBERO, LIBERO Plus, RoboTwin 2.0, RoboCasa, CALVIN ABC, CALVIN ABCD)์์ ์ต์ฒจ๋จ ๋๋ ๋๋ฑํ ์ฑ๋ฅ ๋ฌ์ฑ. ์ค์ ๋ก๋ด ์์ : 3๊ฐ ๋ก๋ด ํ๋ซํผ์์ 12๊ฐ ๋์ ์ ์์ (๋น ๋ฅธ ๊ตด๋ฌ์ค๋ ๊ณต ์ก๊ธฐ, ์์ง์ด๋ ์ฉ๊ธฐ์ ๋ถ๊ธฐ, ์ท ์ ๊ธฐ, ์ปจ๋ฒ ์ด์ด์์ ํจํค์ง ๋ถ๋ฅ, ๋ชป ๋ฐ๊ธฐ ๋ฑ) ํ๊ฐ์์ 5๊ฐ ๋ฅ๋ ฅ ์งํฅ ์ค์ํธ ๋ชจ๋ ์ต๊ณ ์ฑ๋ฅ. ๋ฐฐํฌ ํจ์จ์ฑ: 3-4 ms/step ์ฒด์ ์์ ๋์ํ๋ฉฐ test-time future generation ๋ถ๋ด ์์.
Figure 3: Being-H0.7 Architecture. We pack the prior and posterior branches into a single MoT sequence
โข Learnable latent query๋ฅผ perception๊ณผ action ์ฌ์ด ๋ช ์์ ์ถ๋ก ์ธํฐํ์ด์ค๋ก ๋์
โข Future-informed dual-branch ์ค๊ณ: prior branch๋ ํ์ฌ ๋ฌธ๋งฅ์์ latent ์ํ ์ถ๋ก , posterior branch๋ ํ์ต ์ค์๋ง ์ฌ์ฉ๋๋ฉฐ ๋ฏธ๋ ๊ด์ฐฐ ์๋ฒ ๋ฉ์ผ๋ก query ๋์ฒด
โข Dual-branch ์ ๋ ฌ์ ํตํด prior query๊ฐ future-aware, action-useful ๊ตฌ์กฐ ํ์ต
โข Norm๊ณผ rank ์ ์ฝ์ ํตํ ์ ์นํ๋ก latent ์ํ collapse ๋ฐฉ์ง
โข Mixture-of-Transformers ์ํ์ค๋ก dual-branch ๊ตฌํํ์ฌ ํจ์จ์ ๋ฌธ๋งฅ ๊ณต์
โข Latency-aware universal asynchronous chunking(UAC)์ผ๋ก ๋ฐฐํฌ ์ต์ ํ
โข World-action modeling์ latent ๊ณต๊ฐ์ผ๋ก ์ฌ์ ์ํ์ฌ ํฝ์ ๊ณต๊ฐ ์์ธก์ ๋นํจ์จ์ฑ ํด๊ฒฐ (๊ธฐ์กด์ WAM์ด ๋น๋์ค ์์ฑ์ ์์กด)
โข Future-informed dual-branch ์ค๊ณ๋ก test-time์๋ posterior branch ์ ๊ฑฐ ๊ฐ๋ฅ (training-only privileged supervision)
โข Learnable latent query๋ฅผ ๋ช ์์ ์ถ๋ก ์ธํฐํ์ด์ค๋ก ๋์ (๊ธฐ์กด VLA๋ ์ด๋ฌํ ๋ช ์์ ๊ตฌ์กฐ ์์)
โข Hidden-state alignment๊ณผ ๊ฐ๋ฒผ์ด ์ ์นํ๋ก stableํ๊ณ scalableํ latent ํ์ต ๋ฌ์ฑ
โข Posterior branch ์ค๊ณ์ ์ ๋น์ฑ: ์ posterior embedding์ด ์ ํํ ํ๋์ ์ ์ฉํ ์ ๋ณด๋ฅผ ํฌํจํ๋์ง ๋ช ํํ ์ด๋ก ์ ์ค๋ช ๋ถ์กฑ. ๋จ์ํ future observation์ ์๋ฒ ๋ฉ์ด ๋ฏธ๋ ๊ด๋ จ ์ ๋ณด๋ฅผ ๋ด๋ณดํ๋์ง ๋ถ๋ช ํ.
โข Latent query์ ์์ dimensionality ์ ํ ๊ธฐ์ค ๋ฏธ๋ช ์: ablation study๋ฅผ ํตํด ์ด๋ค ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ์ฑ๋ฅ๊ณผ ๋ฐฐํฌ ํจ์จ์ฑ์ ๋ฏธ์น๋ ์ํฅ์ ๋ ์์ธํ ๋ถ์ ํ์.
โข Generalization ํ๊ฐ์ ์ ํ: ์ค์ ๋ก๋ด ์์ ์ด 12๊ฐ๋ก ์ ํ์ ์ด๋ฉฐ, ๋งค์ฐ ๋ค์ํ domain shift๋ zero-shot generalization ์๋๋ฆฌ์ค์์์ ์ฑ๋ฅ ๋ถ์กฑ.
โข ๊ณ์ฐ ์ค๋ฒํค๋ ์์ธ ๋ถ์ ๋ถ์กฑ: prior์ posterior branch ๋์ ํ์ต ์ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ๋น์ฉ ์์ธ ๋ถ์ ํ์. ๋ฐฐํฌ ํจ์จ์ฑ ์ฃผ์ฅ์ด ์ฃผ๋ก latency ๊ธฐ์ค.
โข ํ์ ์ฐ๊ตฌ: ๋ ํฐ ๋ชจ๋ธ ์ค์ผ์ผ์์์ ์ฑ๋ฅ, ๋ ๋ค์ํ ๋ก๋ด embodiment, ๊ทน๋จ์ ๋ฏธ๋ ์์ธก ๊ฑฐ๋ฆฌ์์์ ์์ ์ฑ ๊ฐ์ ํ์.
์ดํ: Being-H0.7์ world-action modeling์ latent ๊ณต๊ฐ์ผ๋ก ์ฌ์ ์ํ์ฌ ๋ฏธ๋ ์์ธก์ ์ด๋์ ์ ์งํ๋ฉด์๋ ํฝ์ ์์ฑ์ ๋นํจ์จ์ฑ์ ์ ๊ฑฐํ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. Future-informed dual-branch ์ค๊ณ์ latent query ๊ธฐ๋ฐ ์ธํฐํ์ด์ค๋ ์ฐฝ์์ ์ด๊ณ ํจ๊ณผ์ ์ด๋ฉฐ, ๊ด๋ฒ์ํ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ก๋ด ํ๊ฐ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ๋ค. ๋ค๋ง posterior branch์ ์ ๋น์ฑ, latent ๊ตฌ์กฐ์ ์ด๋ก ์ ๊ทผ๊ฑฐ, ๊ทธ๋ฆฌ๊ณ ์ผ๋ถ ํ์ดํผํ๋ผ๋ฏธํฐ ์ ํ์ ๋ช ํํ๊ฐ ํ์ํ๋ค.