SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention
๐ง Audio Overview ์์ฑ
์ ์ : Isabel Leal, Krzysztof Choromanski, Deepali Jain, Avinava Dubey, Jake Varley, Michael Ryoo, Yao Lu, Frederick Liu, Vikas Sindhwani, Quan Vuong, Tamas Sarlos, Ken Oslund, Karol Hausman, Kanishka Rao | ๋ ์ง : 2023-12-04 | URL : https://arxiv.org/abs/2312.01990 📄 PDF
Essence
Fig. 1: Robotics Transformer policies obtained via Self-Adaptive Robust Attention (SARA) in action for three different m
SARA-RT๋ Robotics Transformer๋ฅผ on-robot ๋ฐฐํฌ์ ์ ํฉํ๋๋ก ์ ํ ์ฃผ์(linear attention)๋ก ๋ณํํ๋ up-training ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, quadratic ๋ณต์ก๋์ ๋ชจ๋ธ์ high quality ์ ์งํ๋ฉด์ ํจ์จํํ๋ค.
Motivation
Known : Transformer ๊ธฐ๋ฐ robotic policies๋ ์ฐ์ํ semantic reasoning ๋ฅ๋ ฅ์ ์ ๊ณตํ์ง๋ง, ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ์์ด quadratic ์๊ฐ ๋ฐ ๊ณต๊ฐ ๋ณต์ก๋๋ก ์ธํ ๊ณ์ฐ ๋น์ฉ์ด ๋งค์ฐ ๋๋ค. ์๋ฅผ ๋ค์ด 35M ํ๋ผ๋ฏธํฐ RT-1๋ ์ต๋ 3Hz ์ฃผํ์๋ก๋ง ๋์ํ๋ค.
Gap : ๊ธฐ์กด linear attention ๋ฐฉ๋ฒ๋ค์ random Gaussian projection์ ์ฌ์ฉํ์ฌ ๋์ ์ ํ๋๋ฅผ ์ ์งํ์ง๋ง ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ํฌ๊ณ (๋ณดํต 4K+ ์ด์์์๋ง ์ค์ฉ์ ), ๊ฐ๋จํ ํจ์(ReLU, exp)๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์์ ๋น ๋ฅด์ง๋ง ์ ํ๋๊ฐ ๋ฎ๋ค๋ trade-off๊ฐ ์กด์ฌํ๋ค.
Why : on-robot deployment์์ ์ค์๊ฐ์ฑ์ ํ์์ ์ด๋ฉฐ, billion-parameter vision-language-action ๋ชจ๋ธ๋ค์ ๋ก๋ด์ ๋ฐฐํฌํ๋ ค๋ฉด ๊ณ์ฐ ํจ์จ์ฑ์ ํ๋ณดํ๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํด์ผ ํ๋ค.
Approach : SARA(Self-Adaptive Robust Attention)๋ ์ ํ ์ฃผ์ ํจ์ ฯ_f๋ฅผ Gaussian ํ๋ ฌ G๋ก ์ ์ฒ๋ฆฌํ์ฌ ๊ฐ์ ํ๊ณ , up-training์ด๋ผ๋ ์๋ก์ด fine-tuning ๋ฐฉ๋ฒ์ ํตํด ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ ํ ์ฃผ์ ๋ฒ์ ์ผ๋ก ๋ณํํ๋ค.
Achievement
Fig. 2: VR navigation via VL attention models on Matterport environments ([21]). The top-down view of the scene is in th
RT-2 ๊ฐ์ํ : 5B ํ๋ผ๋ฏธํฐ vision-language-action ๋ชจ๋ธ(sequence length ~200)์ ์ ํ ์ฃผ์๋ก ๋ณํํ๋ฉด์ high quality ์ ์ง
Point Cloud Transformer ์ต์ ํ : ๋๊ท๋ชจ point cloud(L โ [800, 4000])๋ฅผ ์ฒ๋ฆฌํ๋ PCT ์ ์ฑ
๊ฐ์ํ
O(M+N) ๋ณต์ก๋ ๋ฌ์ฑ : quadratic O(MN) ๋ณต์ก๋๋ฅผ ์ ํ์ผ๋ก ๊ฐ์
Zero-shot navigation ๊ฐ์ : VR navigation ํ๊ฒฝ์์ Gaussian ์ ์ฒ๋ฆฌ๋ฅผ ํตํด ReLU ๋ฐ exp variant์ ์ฑ๋ฅ ํฅ์
How
Fig. 2: VR navigation via VL attention models on Matterport environments ([21]). The top-down view of the scene is in th
์ปค๋ํ(kernelization) ๊ด์ ์์ kernel function K(x, y) = exp(x^โคy)๋ฅผ bi-linearization ๊ฐ๋ฅํ ํํ๋ก ํํ
ฯ_rand_f(z) = f(Gz) ํ์์ผ๋ก Gaussian ํ๋ ฌ G๋ฅผ ์ฌ์ฉํ randomized feature map ์ ์ฉ
Up-training ํ๋ก์ธ์ค๋ฅผ ํตํด matrix G๋ฅผ ํ๋ จํ์ฌ ์๋ณธ softmax-attention์ ๋ชจ๋ฐฉํ๋๋ก ํ์ต
์ฌ์ ํ์ต๋ ๋๋ ์ด๋ฏธ fine-tuned๋ Transformer ๊ธฐ๋ฐ ์ ์ฑ
์ ์ ํ ์ฃผ์ counterpart๋ก ๋ณํ
์๊ฐ-์ธ์ด(VL) ๋ชจ๋ธ์ CLIP ์๋ฒ ๋ฉ์ ํ์ฉํ zero-shot ์ ์ด ๋ฉ์ปค๋์ฆ ์ ์
Originality
Up-training์ด๋ผ๋ ์๋ก์ด fine-tuning ํจ๋ฌ๋ค์ ์ ์ โ ๊ธฐ์กด ๋ชจ๋ธ์ ์ฌํ๋ จ ์์ด ํจ์จ์ ์ธ ๋ฒ์ ์ผ๋ก ๋ณํ
Gaussian ์ ์ฒ๋ฆฌ๋ฅผ ํตํด simple linear attention ํจ์์ ์ ํ๋๋ฅผ dramaticํ๊ฒ ๊ฐ์ ํ๋ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ํธ๋ฆญ ์ ์
Robotics Transformer ๋ฐฐํฌ์ ์ค์ง์ ๋ฌธ์ (์๊ฐ/๊ณต๊ฐ ๋ณต์ก๋)์ ๋ํ ์ง์ ์ ํด๊ฒฐ์ฑ
์ ๊ณต
Vision-language ๋ชจ๋ธ์ zero-shot navigation agent๋ก ํ์ฉํ๋ ์ฐฝ์์ ์ ๊ทผ๋ฒ
Limitation & Further Study
๋
ผ๋ฌธ ๋ฐ์ท๋ณธ์์ ์ค์ on-robot deployment์ ์ฑ๋ฅ ๋ฉํธ๋ฆญ(latency, throughput ๋ฑ)์ด ๊ตฌ์ฒด์ ์ผ๋ก ์ ์๋์ง ์์
Gaussian ํ๋ ฌ G์ ์ฐจ์ m ์ ํ์ ๋ํ ๋ช
ํํ ๊ฐ์ด๋๋ผ์ธ ๋ถ์ฌ (m = d vs m = 2048 ์ ํ ๊ธฐ์ค ๋ถ๋ช
ํ)
RT-2 ๋ฐ PCT ์ธ ๋ค๋ฅธ ๋ก๋ณดํฑ ๋ชจ๋ธ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ ํ์
Up-training ํ๋ก์ธ์ค์ ์๋ ด์ฑ ๋ฐ ์ต์ ํ ์ด๋ก ์ ๋ํ ์์ธ ๋ถ์ ํ์
๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์ค์ ๋ฌผ๋ฆฌ์ ์์
(manipulation, grasping)์์์ ์ฑ๊ณต๋ฅ ๋น๊ต ์คํ ํ๋ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : SARA-RT๋ Robotics Transformer์ on-robot ๋ฐฐํฌ๋ผ๋ ์ค์ํ ์ค์ ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ณ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, up-training๊ณผ Gaussian ์ ์ฒ๋ฆฌ๋ผ๋ ๊ฐ๋จํ์ง๋ง ํ์ ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๋ค๋ง, ๊ตฌ์ฒด์ ์ธ ์ฑ๋ฅ ๋ฒค์น๋งํฌ์ ๊ด๋ฒ์ํ ํ๊ฐ๊ฐ ๋ณด๊ฐ๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ contribution์ด ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com