์ ์: Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox | ๋ ์ง: 2024-06-12 | URL: https://arxiv.org/abs/2406.08545 📄 PDF
Fig. 1: RVT-2 performing high precision tasks. Given a language instruction, a single RVT-2 model can perform multiple 3
RVT-2๋ ์ ์ ์์ ์์ฐ์ผ๋ก๋ถํฐ ๊ณ ์ ๋ฐ 3D ์กฐ์ ์์ ์ ํ์ตํ ์ ์๋ ๋ฉํฐํ์คํฌ ๋ก๋ด ์กฐ์ ๋ชจ๋ธ๋ก, ์ด์ RVT ๋๋น 6๋ฐฐ ๋น ๋ฅธ ํ์ต ์๋์ 2๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ๋ฉด์ RLBench์์ 82%์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Fig. 3: Training time vs Success rate on RLBench. All
Fig. 2: RVT-2 Architecture. Given the current scene and a task instruction, RVT-2 predicts the next key-frame pose. It c
์ดํ: RVT-2๋ ์ํคํ ์ฒ์ ์์คํ ์ต์ ํ๋ฅผ ํตํด ๊ณ ์ ๋ฐ 3D ์กฐ์์์ ์ ์๋ฏธํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ ์ ์์ฐ์ผ๋ก ์ค์ธ๊ณ ์ ๋ฐ ์์ ์ ์ํํ ์ ์์์ ์ฒ์ ์ ์ฆํ๋ค๋ ์ ์์ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.