์ ์: Haoyu Xiong, Xiaomeng Xu, Jimmy Wu, Yifan Hou, Jeannette Bohg, Shuran Song | ๋ ์ง: 2025-06-18 | URL: https://arxiv.org/abs/2506.15666 📄 PDF
Figure 1: Vision in Action (ViA) uses an active head
ViA๋ 6-DoF ๋ก๋ด ๋ฅ๊ณผ VR ํ ๋ ์คํผ๋ ์ด์ ์ธํฐํ์ด์ค๋ฅผ ํตํด ์ธ๊ฐ์ ๋ฅ๋์ ์ง๊ฐ ์ ๋ต์ ์ง์ ํ์ตํ์ฌ ์ด์คํ ์กฐ์ ๋ก๋ด์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์์คํ ์ด๋ค.
Figure 5: Policy Learning Camera Setup Comparison Results. We report stage-wise success rates across
Figure 2: VR Teleoperation Comparison. [Left] Traditional RGB streaming suffers from motion-to-photon
์ดํ: ViA๋ ๋ฅ๋์ ์ง๊ฐ, VR ํ ๋ ์คํผ๋ ์ด์ , ์ด์คํ ์กฐ์์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ ํ์ ์ ์์คํ ์ผ๋ก, ์ค๊ฐ 3D ํํ์ ํตํ ์ง์ฐ ์๊ฐ ํด๊ฒฐ๊ณผ ๊ณต์ ๊ด์ฐฐ ๊ณต๊ฐ ๊ฐ๋ ์ด ํนํ ์ฐฝ์์ ์ด๋ฉฐ, ์๊ฐ์ ํ์์ด ์๋ ๋ณต์กํ ์ค์ ์์ ์์ ์ค์ง์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.