์ ์: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang | ๋ ์ง: 2025-07-22 | URL: https://arxiv.org/abs/2507.16815 📄 PDF
Figure 1: We introduce ThinkAct, a reasoning VLA framework capable of thinking before acting. Through
ThinkAct๋ Vision-Language-Action ์ถ๋ก ์์ ์ ์ํด ๊ฐํํ์ต ๊ธฐ๋ฐ ์๊ฐ ์ ์ฌ ๊ณํ์ ํตํด ๊ณ ์์ค ์ถ๋ก ๊ณผ ์ ์์ค ํ๋ ์คํ์ ์ฐ๊ฒฐํ๋ ์ด์ค ์์คํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๋ค์ค๋ชจ๋ฌ LLM์ด ์์ฑํ ์ถ๋ก ๊ณํ์ ์๊ฐ ๊ณํ ์ ์ฌ๋ก ์์ถํ์ฌ ๋ค์ด์คํธ๋ฆผ ํ๋ ๋ชจ๋ธ์ ์กฐ๊ฑดํํ์ฌ ์ฅ๊ธฐ ๊ณํ, ์์์ท ์ ์, ์์ฒด ์์ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ค.
Figure 1: We introduce ThinkAct, a reasoning VLA framework capable of thinking before acting. Through
Figure 2: Overview of our ThinkAct. (a) Given observation ๐๐กand instruction ๐, ThinkAct advances action-
์ดํ: ThinkAct๋ ํ๋ ์ ๋ ฌ ์๊ฐ ๋ณด์์ ๊ธฐ๋ฐ์ผ๋ก ํ ํ์ ์ ์ธ GRPO ๊ฐํํ์ต๊ณผ ์๊ฐ ์ ์ฌ ๊ณํ ์์ถ์ ํตํด Vision-Language-Action ๋ชจ๋ธ์ ๊ตฌ์กฐํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ๋ถ์ฌํ๋ค. ์ฅ๊ธฐ ๊ณํ, ์์์ท ์ ์, ์์ฒด ์์ ๋ฅ๋ ฅ์ ๋์์ ๋ฌ์ฑํ ์ ์์ ๊ตฌ์ฒดํ๋ AI ๋ฐ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.