TTT-Parkour: Rapid Test-Time Training for Perceptive Robot Parkour
์ ์: Shaoting Zhu, Baijun Ye, Jiaxuan Wang, Jiakang Chen, Ziwen Zhuang, Linzhan Mou, Runhan Huang, Hang Zhao | ๋ ์ง: 2026-02-02 | DOI: 10.48550/arXiv.2602.02331 📄 PDF
Essence
Fig. 2: TTT-Parkour. Our framework consists of three stages: (1) Pre-training: A general policy is pre-trained on divers
๋ณธ ๋
ผ๋ฌธ์ RGB-D ์
๋ ฅ์ผ๋ก๋ถํฐ ๊ณ ์ถฉ์ค๋ ๋ฉ์ ์ฌ๊ตฌ์ฑ์ ํตํด ๋ฏธ์ง์ ๋ณต์กํ ์งํ์์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋น ๋ฅธ ํ
์คํธ ์๊ฐ ํ์ธํ๋(TTT)์ ๊ฐ๋ฅํ๊ฒ ํ๋ real-to-sim-to-real ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ์ผ๋ฐ์ ์ธ ๋ณดํ ์ ์ฑ
์ ๊ด๋ฒ์ํ ์งํ ๋ถํฌ์์ ๊ฐ๊ฑด์ฑ์ ๋ณด์ด์ง๋ง, ์ฌ์ ํ์ต ์ ๋ฏธ์ง์ ๊ทน๋๋ก ์ด๋ ค์ด ํ๊ฒฝ์๋ ์ผ๋ฐํ๋์ง ๋ชปํ๋ค. NeRF์ 3DGS ๊ฐ์ ๊ณ ์ถฉ์ค๋ ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฒ์ ์๊ฐ ํฉ์ฑ์ ์ฐ์ํ๋ ๊ณ์ฐ ๋น์ฉ์ด ๋์ ํ
์คํธ ์๊ฐ ์ ์์ ๋ถ์ ํฉํ๋ค.
- Gap: ์ ์ฐจ์ ์ผ๋ก ์์ฑ๋ ์งํ๋ง์ผ๋ก ๋ชจ๋ ํ์ค ํ๊ฒฝ์ ์ปค๋ฒํ ์ ์์ผ๋ฉฐ, ํผ๋ํฌ์๋ ์ฌ๊ตฌ์ฑ ๋ฐฉ๋ฒ์ ์ค์ผ์ผ ๋ชจํธ์ฑ์ด๋ ๊ธฐํํ์ ์๊ณก์ ์ผ๊ธฐํ๋ค. ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ์ ํฉํ ์ถฉ๋ ์ ํ ๋ฉ์๋ฅผ 10๋ถ ์ด๋ด์ ์์ฑํ๋ ๊ฒ์ด ๋ณ๋ชฉ์ด๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋์ ์ ํ๊ฒฝ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ์ฌ์ ํ์ต๋ ์ผ๋ฐ ์ ์ฑ
๊ณผ ์ค์๊ฐ ์ ์์ ๊ฒฐํฉํ์ฌ ๊ทน๋๋ก ๋ณต์กํ ์ฅ์ ๋ฌผ(์๊ธฐ, ๋ง๋, ์์, ์ฌ๋ค๋ฆฌ๊ผด, ์ข์ ๋น ๋ฑ)์ ๋น ๋ฅด๊ฒ ๊ทน๋ณตํ ์ ์์ด์ผ ํ๋ค.
- Approach: ๋ ๋จ๊ณ ํจ๋ฌ๋ค์์ผ๋ก, ์ ์ฐจ์ ์์ฑ ์งํ์์ ์ผ๋ฐ ์ ์ฑ
์ ์ฌ์ ํ์ตํ ํ ํผ๋ํฌ์๋ ์ฌ๊ตฌ์ฑ ํ์ดํ๋ผ์ธ(์๋ ์ค์ผ์ผ/ํ๋ ์ ์ ๋ ฌ ํฌํจ)์ผ๋ก ์ค์ ์บก์ฒ๋ก๋ถํฐ ์๋ฎฌ๋ ์ด์
์ค๋น ๋ฉ์๋ฅผ ์์ฑํ๊ณ ํ
์คํธ ์๊ฐ ํ์ธํ๋์ ์ํํ๋ค.
Achievement
Fig. 4: Real-world experiments. The robot successfully traverses extremely challenging terrains, including: (a) Wedges,
- ๋ ๋จ๊ณ end-to-end ์ง๊ฐ ๋ณดํ ํ์ต ํจ๋ฌ๋ค์: ์ฌ์ ํ์ต๊ณผ ํ
์คํธ ์๊ฐ ํ์ต ๋ชจ๋ ๊ทน๋๋ก ๋์ ์ ์ธ ์งํ ์ํ์ ํ์์ ์์ ์
์ฆ
- ๊ณ ์ ํผ๋ํฌ์๋ ๊ธฐํ ์ฌ๊ตฌ์ฑ ํ์ดํ๋ผ์ธ: RGB-D ์
๋ ฅ์ผ๋ก๋ถํฐ ์๋ฎฌ๋ ์ด์
์ค๋น ๋ฉ์๋ฅผ ๊ณ ์ถฉ์ค๋๋ก ๋น ๋ฅด๊ฒ ์์ฑํ์ฌ real-to-sim-to-real ์ํฌํ๋ก์ฐ ํจ์จ์ฑ ํ๋ณด
- 10๋ถ ์ด๋ด ์์ ํ์ดํ๋ผ์ธ: ์บก์ฒ, ์ฌ๊ตฌ์ฑ, ํ
์คํธ ์๊ฐ ํ์ต์ ๋๋ถ๋ถ์ ์งํ์์ 10๋ถ ์ด๋ด์ ์๋ฃ
- ๊ฐ๊ฑดํ zero-shot sim-to-real ์ ์ด: ํ
์คํธ ์๊ฐ ํ์ต ํ ์ ์ฑ
์ด ์ค์ธ๊ณ์์ ๊ฐ๊ฑดํ ๋ฏผ์ฒฉํ ํ์ฟ ๋ฅด ์ํ ๋ฅ๋ ฅ ๋ฌ์ฑ
How
Fig. 3: Efficient Geometry reconstruction. Our pipeline consists of four stages: (1) Real-World Capture. (2) Feed-forwar
- CNN ๊ธฐ๋ฐ ๊น์ด ์ธ์ฝ๋์ ๊ณ ์ ๊ฐ๊ฐ์ ๊ฒฐํฉํ ๊ด์ฐฐ ๊ณต๊ฐ ์ค๊ณ๋ก ์์ ์ ๋ณดํ์ ์ํ ์ข
ํฉ์ ์ํ ์ ๋ณด ์ ๊ณต
- PPO๋ฅผ ์ด์ฉํ ๊ฐํ ํ์ต์ผ๋ก ์ ์ฐจ์ ์์ฑ ์งํ ๋ค์์ฑ์ ๋ํ ์ฌ์ ํ์ต
- ํผ๋ํฌ์๋ ์ฌ๊ตฌ์ฑ ๋ฐฉ๋ฒ์ ์๋ ์ค์ผ์ผ ๋ณต์ ๋ฐ ํ๋ ์ ์ ๋ ฌ ๋ฉ์ปค๋์ฆ ํตํฉ
- ์ฌ๊ตฌ์ฑ๋ ๋ฉ์์ ๋ํ ์ ์ฑ
์ ๋น ๋ฅธ ํ์ธํ๋์ผ๋ก ํน์ ์งํ ๊ธฐํ ์ ์ฝ ํ์ต
- ๊น์ด ์นด๋ฉ๋ผ ์
๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ํ end-to-end ํ์ต์ผ๋ก ๊ณ ์ ์ํ ์ค ๊ฐ๊ฑด์ฑ ํ๋ณด
- ์ปค๋ฆฌํ๋ผ ํ์ต์ ํตํ ๋จ๊ณ์ ๋์ด๋ ์ฆ๊ฐ๋ก ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์
Originality
- ๋ก๋ด ํ์ฟ ๋ฅด ์์ญ์์ ์ฒ์์ผ๋ก rapid test-time training ํจ๋ฌ๋ค์ ์ ์ฉ
- ์ค์ผ์ผ ๋ชจํธ์ฑ๊ณผ ๊ธฐํํ์ ์๊ณก์ ๊ทน๋ณตํ๋ ์๋ ์ค์ผ์ผ/ํ๋ ์ ์ ๋ ฌ ๊ธฐ๋ฒ์ด ํฌํจ๋ ํผ๋ํฌ์๋ ์ฌ๊ตฌ์ฑ ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ
- ๊ทน๋๋ก ๋์ ์ ์ธ ์งํ(์๊ธฐ, ๋ง๋, ์ข์ ๋น ๋ฑ)์์์ ๋์ ํด๋จธ๋
ธ์ด๋ ํ์ฟ ๋ฅด ์คํ
- ์ฌ์ ํ์ต๊ณผ ํ
์คํธ ์๊ฐ ํ์ต์ ํ์์ฑ์ ์ค์ฆ์ ์ผ๋ก ์
์ฆํ๋ end-to-end ์ง๊ฐ ๋ณดํ ํจ๋ฌ๋ค์
Limitation & Further Study
- 10๋ถ ํ์ดํ๋ผ์ธ์ ํน์ ์งํ ํฌ๊ธฐ์ ๋ณต์ก๋ ๋ฒ์์์๋ง ํ๊ฐ๋์์ผ๋ฉฐ, ๋ ํฐ ๊ท๋ชจ ๋๋ ๊ทน๋๋ก ๋ณต์กํ ์งํ์์์ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- RGB-D ์
๋ ฅ์ ํด์๋์ ๊น์ด ์ ํ๋์ ์์กดํ๋ฉฐ, ์
์ฒํ๋ ๋ฐ์ฌ ํ๋ฉด์์ ์ฌ๊ตฌ์ฑ ํ์ง ์ ํ ๊ฐ๋ฅ์ฑ
- ํผ๋ํฌ์๋ ์ฌ๊ตฌ์ฑ ๋ฐฉ๋ฒ์ด ๋งค์ฐ ์๋ก์ด ๊ธฐํํ์ ํน์ฑ์ ์๋ฒฝํ ํฌ์ฐฉํ์ง ๋ชปํ ์ ์์
- ํ
์คํธ ์๊ฐ ํ์ต ๊ณผ์ ์์์ ๊ณ์ฐ ๋ฆฌ์์ค ์๊ตฌ์ฌํญ๊ณผ ์ค์๊ฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ์ฑ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: ๋ ํฐ ์งํ ๊ท๋ชจ๋ก์ ํ์ฅ, ๋ค์ค ์ผ์ ์ตํฉ ์ ๋ต, ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐญ ์ต์ํ๋ฅผ ์ํ ๋๋ฉ์ธ ๋ฌด์์ํ ์ถ๊ฐ ์ฐ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํผ๋ํฌ์๋ ๊ธฐํ ์ฌ๊ตฌ์ฑ๊ณผ ๋น ๋ฅธ ํ
์คํธ ์๊ฐ ํ์ธํ๋์ ํตํฉํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ฏธ์ง ๋ณต์ก ์งํ ์ํ ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํค๋ ์ค์ฉ์ ์ด๊ณ ํ์ ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. 10๋ถ ์ด๋ด์ ์์ ํ์ดํ๋ผ์ธ๊ณผ ๊ฐ๊ฑดํ sim-to-real ์ ์ด๋ ๋ก๋ด ๋ฐฐํฌ์ ํ์ค์ฑ์ ํฌ๊ฒ ๋์ธ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์