Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
์ ์: Wenbo Zhang, Tianrun Hu, Hanbo Zhang, Yanyuan Qiao, Yuchu Qin, Yang Li, Jiajun Liu, Tao Kong, Lingqiao Liu, Xiao Ma | ๋ ์ง: 2025-06-11 | URL: https://arxiv.org/abs/2506.09990 📄 PDF
Essence
Chain-of-Action(CoA)์ ์ญ๋ฐฉํฅ ๊ถค์ ์๋ํ๊ท ๋ชจ๋ธ๋ง์ ํตํด ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ํ์ตํ๋ ์๋ก์ด ์๊ฐ-์ด๋ ์ ์ฑ
ํจ๋ฌ๋ค์์ผ๋ก, ๋ชฉํ ์ํ๋ถํฐ ์ญ์์ผ๋ก ํ๋ ์ํ์ค๋ฅผ ์์ฑํ์ฌ ๋์ ์ค์ฐจ๋ฅผ ์ํํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์๊ฐ-์ด๋ ์ ์ฑ
์ ์๋ฐฉํฅ์ผ๋ก ๋ค์ ํ๋์ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ์ต๋์ด ๋์ ์ค์ฐจ ๋ฌธ์ ๋ฅผ ๊ฒช์ผ๋ฉฐ, ACT์ Diffusion Policy ๋ฑ์ด ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ํ๋ ์ฒญํน์ด๋ ๋
ธ์ด์ง ๊ณผ์ ์ ๋์
ํ๋ค.
- Gap: ์๋ฐฉํฅ ์์ธก ํจ๋ฌ๋ค์์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ ํ์ฌ ๊ด์ธก๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์ต์ ํ๋์ด ์ฅ๊ธฐ ๋ชฉํ ๋ฌ์ฑ์ ๋ณด์ฅํ์ง ๋ชปํ๋ค๋ ์ ์ด๋ฉฐ, ๊ธฐ์กด ์ํ ๊ธฐ๋ฒ๋ค์ ์ฆ์๋ง ์น๋ฃํ ๋ฟ ๊ทผ๋ณธ ์์ธ์ ํด๊ฒฐํ์ง ๋ชปํ๋ค.
- Why: ๋ก๋ด ์กฐ์์ ๋ณต์กํ ๋ค๋จ๊ณ ์์
์ ์๊ตฌํ๋ฏ๋ก ๋ชฉํ ์งํฅ์ ํ๋ ์์ฑ์ด ํ์์ ์ด๋ฉฐ, ์ญ์ ์์ฑ์ ํตํ ์ ์ญ-๊ตญ์ ์ผ๊ด์ฑ ๊ฐํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์คํ ์ ๋ขฐ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: CoA๋ keyframe ํ๋(๋ชฉํ ์ธ์ฝ๋ฉ)๋ถํฐ ์์ํ์ฌ ์ญ์์ผ๋ก ํ๋ ํ ํฐ์ ์๋ํ๊ท์ ์ผ๋ก ์์ฑํ๋ฉฐ, ์ด๋ฅผ ์์ ์ ์ผ๋ก ์คํํ๊ธฐ ์ํด ์ฐ์ ํ๋ ํํ, ๋์ ์ ์ง, ์ญ์๊ฐ ์์๋ธ, ๋ค์ค ํ ํฐ ์์ธก ๋ฑ 4๊ฐ์ง ํต์ฌ ์ค๊ณ๋ฅผ ํตํฉํ๋ค.
Achievement
Figure 4 Success rate improvement on RLBench-60, sorted by improvement from high to low. The average success
- RLBench ๋ฒค์น๋งํฌ ์ฑ๋ฅ: 60๊ฐ ์์
์์ ACT ๋๋น 16%, Diffusion Policy ๋๋น 23% ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
- ์ค์ ๋ก๋ด ์กฐ์: 8๊ฐ์ง ์ค์ ์กฐ์ ์์
์์ ACT๋ฅผ 15% ์ด๊ณผ ์ฑ๋ฅ
- ๊ณต๊ฐ ์ผ๋ฐํ: keyframe-๊ธฐ๋ฐ ์ญ์ ์์ฑ์ด ๋ถํฌ ์ธ ์กฐ๊ฑด์์ ๊ฐํ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ ์
- ๊ตฌ์กฐ์ ๋จ์์ฑ: ACT์ ์ ์ฌํ ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ๋ฉด์๋ ํจ๋ฌ๋ค์ ๋ณํ๋ง์ผ๋ก ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ฌ ์ ๊ทผ๋ฒ์ ์ฐ์์ฑ ์
์ฆ
How
- Transformer ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ก ์๊ฐ(CNN + patchify) ๋ฐ ๊ณ ์ ์์ฉ์ฑ ์
๋ ฅ์ ์ฒ๋ฆฌ
- ํ์ต ๋จ๊ณ์์ ํ๋ ์ํ์ค๋ฅผ ์ญ์์ผ๋ก ์ฌ๋ฐฐ์ดํ์ฌ keyframe ํ๋ aT๋ถํฐ a1๊น์ง ์๋ํ๊ท์ ์ผ๋ก ์์ฑ
- Continuous action representation: ์ด์ฐํ๋ก ์ธํ ํด์๋ ์์ค ์ ๊ฑฐ ๋ฐ ์ญ์ ๋์ ์ค์ฐจ ๋ฐฉ์ง
- Multi-token prediction: ํ์ ๊ถค์ (sub-trajectory)์ ๊ตญ์ ์์กด์ฑ ๋ชจ๋ธ๋ง์ผ๋ก ํ์ต ์์ ์ฑ ํฅ์
- Dynamic stop mechanism: ๋ชฉํ๊น์ง์ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ์ผ๋ก ์์ฑ ์ข
๋ฃ ํ๋จ, EOS ํ ํฐ ์์ด ํ๋ฃจํ ์คํ ์คํ
- Reverse temporal ensemble: ์ฌ๋ฌ ์ญ์ ๋กค์์์ ์์๋ธํ์ฌ ์๊ฐ์ ์ค์ ๋ ฌ ์ํ ๋ฐ ๋ถ์ฐ ๊ฐ์
Originality
- ๋ก๋ด ์กฐ์์ ์ญ์ ๊ถค์ ์์ฑ ํจ๋ฌ๋ค์์ ์ต์ด ๋์
ํ์ฌ ์๋ฐฉํฅ ์์ธก์ ๊ทผ๋ณธ์ ํ๊ณ ๊ทน๋ณต
- Action-level Chain-of-Thought ๊ฐ๋
์ผ๋ก ํ๋ ์ํ์ค์ ์ง์ ์ถ๋ก ๊ตฌ์กฐ ์ ์ฉ (์๊ฐ ์ด๋ฏธ์ง, ๋ฐ์ด๋ฉ ๋ฐ์ค ๋ฑ ์ค๊ฐ ํํ ๋ฏธ์ฌ์ฉ)
- Keyframe์ ์๋ํ๊ท ๊ตฌ์กฐ์ ์ด๊ธฐ ํ ํฐ์ผ๋ก ํตํฉํ์ฌ ๊ณ์ธต์ ๋ชจ๋ธ๋ง๊ณผ ํ๋ฃจํ ์คํ์ ๋จ์ผ ํ๋ ์์ํฌ ๋ด์์ ์คํ
- ์ญ์ ์์ฑ์ ์ค์ ๊ตฌํ์ ์ํ 4๊ฐ์ง ํ์ ์ค๊ณ(์ฐ์ ํํ, ๋ค์ค ํ ํฐ, ๋์ ์ ์ง, ์ญ์๊ฐ ์์๋ธ)์ ์ฒด๊ณ์ ์ ์
Limitation & Further Study
- Keyframe ์ ์๊ฐ ๊ทธ๋ฆฌํผ ์ํ ๋ณํ๋ ๊ด์ ์๋ ๊ทผ์ฒ ์ด์์ ๋จ์ํ ํด๋ฆฌ์คํฑ์ ์์กดํ์ฌ, ๋ณต์กํ ์์
์์ ์๋ฏธ์๋ ๋ชฉํ ์ธ์ฝ๋ฉ์ ๋ณด์ฅํ์ง ๋ชปํ ์ ์์
- ์ญ์ ์์ฑ์ ์ด๋ก ์ ์ ๋น์ฑ(์ ์ญ์์ด ์๋ฐฉํฅ๋ณด๋ค ๋์๊ฐ)์ ๋ํ ํ์์ ๋ถ์ ๋ถ์ฌ
- ์ค์ ํ๊ฒฝ์์์ ํ๊ฐ๊ฐ 8๊ฐ ์์
์ ํ์ ๋์ด ์์ด ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ด๋ฒ์ํ ๊ฒ์ฆ ํ์
- ๋์ ํ๊ฒฝ(์์ง์ด๋ ์ฅ์ ๋ฌผ, ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ)์์์ ์ฑ๋ฅ ๋ฏธํ๊ฐ
- ๊ณ์ฐ ๋น์ฉ ๋ถ์ ๋ฐ ACT, Diffusion Policy์์ ์๋ ๋น๊ต ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ๋ก ๋ ์ ๊ตํ ๋ชฉํ ์ธ์ฝ๋ฉ ๋ฐฉ๋ฒ, ์์ ๋ถ๊ฐ๋ฅํ ์ค๋ฅ์ ๋ํ ์ ์ ๋ฉ์ปค๋์ฆ, ํ์ฅ ๊ฐ๋ฅ์ฑ(VLA ๋ชจ๋ธ)์ ๋ํ ๊ฒํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Chain-of-Action์ ๋ก๋ด ์กฐ์์์ ๋์ ์ค์ฐจ ๋ฌธ์ ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ํด ์ญ์ ๊ถค์ ์์ฑ ํจ๋ฌ๋ค์์ ๋์
ํ๋ฉฐ, ํ์ ์ค๊ณ ์์๋ค์ ํตํฉ์ผ๋ก ์๋ฐฉํฅ ๋ฐฉ์์ ๋ช
ํํ ์ํํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ์๊ฐ-์ด๋ ์ ์ฑ
ํ์ต์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์