From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation
๐ง Audio Overview ์์ฑ
์ ์ : Yifu Yuan, Haiqin Cui, Yibin Chen, Zibin Dong, Fei Ni, Longxin Kou, Jinyi Liu, Pengyi Li, Yan Zheng, Jianye Hao | ๋ ์ง : 2025-05-13 | URL : https://arxiv.org/abs/2505.08548 📄 PDF
Essence
Figure 1 Overview of FSD. FSD unlocks visual aids reasoning and generation through Spatial Relationship
FSD๋ Vision-Language Model์ spatial relationship reasoning์ ํตํ ์ค๊ฐ ํํ(visual aids) ์์ฑ์ ์ถ๊ฐํ์ฌ, ๋ก๋ด ์กฐ์์์ zero-shot ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํค๋ ๋ชจ๋ธ์ด๋ค.
Motivation
Known : Vision-Language-Action(VLA) ๋ชจ๋ธ์ VLM์ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ด ์กฐ์์ ์ํํ์ง๋ง, embodied ๋ฐ์ดํฐ์
์ ๋ถ์กฑ๊ณผ ์ด์ง์ฑ์ผ๋ก ์ธํด unseen scenario์์ robust zero-shot ์ฑ๋ฅ์ ๋ฌ์ฑํ์ง ๋ชปํ๊ณ ์๋ค.
Gap : ํ์ฌ VLA ๋ชจ๋ธ๋ค์ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ embodiment ์ด์ง์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง ๋ชปํด ์๋ก์ด ์๋๋ฆฌ์ค์ ์ผ๋ฐํ๋์ง ์์ผ๋ฉฐ, visual understanding๊ณผ robotic action ์ฌ์ด์ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๊ฐ ๋ถ์กฑํ๋ค.
Why : ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ๋ ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์ ์ ์ํ ์ ์๋ embodied AI์ ํต์ฌ์ด๋ฉฐ, spatial reasoning์ ํตํ ์ค๊ฐ ํํ์ embodiment์ ๋ฌด๊ดํ unified ์ง์ ํํ์ ์ ๊ณตํ ์ ์๋ค.
Approach : FSD๋ Spatial Relationship-Focused CoT(SrCoT)๋ฅผ ํตํด ๊ฐ์ฒด ์ขํ์ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ reasoning anchor๋ก ์ฌ์ฉํ์ฌ visual aids(spatial affordance boxes/points, visual traces)๋ฅผ ์์ฑํ๊ณ , ๊ณ์ธต์ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ๊ณผ self-consistency ๋ฉ์ปค๋์ฆ์ผ๋ก ํ์ตํ๋ค.
Achievement
Figure 1 Overview of FSD. FSD unlocks visual aids reasoning and generation through Spatial Relationship
Spatial reasoning ๋ฒค์น๋งํฌ ์ฑ๊ณผ : 8๊ฐ ๋ฒค์น๋งํฌ์์ spatial reasoning๊ณผ embodied reference ๋ฅ๋ ฅ์ outstanding performance ๋ฌ์ฑ
Zero-shot ๋ก๋ด ์กฐ์ ์ฑ๋ฅ : SimplerEnv์์ 40.6%, ์ค์ ๋ก๋ด 8๊ฐ task์์ 72% ์ฑ๊ณต๋ฅ ๋ก ๊ธฐ์กด baseline ๋๋น 30% ํฅ์
Visual aids generation benchmark : 300๊ฐ ์์์
์ฃผ์ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ VABench ์ ์
Cross-embodiment ์ผ๋ฐํ : Visual aids๋ฅผ ํตํด robot embodiment์ ๋ฌด๊ดํ ์ผ๋ฐํ ๋ฌ์ฑ
How
Figure 3 Inspired by the process of human reasoning, FSD uses a spatial relationship graph as an anchor to derive
SrCoT(Spatial Relationship-Focused CoT) : ๊ฐ์ฒด ์ค์ฌ ์ขํ์ spatial relationships์ reasoning anchor๋ก ํ๋ multi-step reasoning์ ํตํด visual aids ์์ฑ
Hierarchical data construction pipeline : Large-scale embodied datasets๊ณผ common sense data๋ฅผ ๊ฒฐํฉํ weak-to-strong capability enhancement training
Self-consistency mechanism : Spatial coordinates๋ฅผ visual signals๊ณผ alignํ์ฌ understanding๊ณผ generation ๋ฅ๋ ฅ ๊ฐํ
Visual aids definition : Spatial affordance boxes([x1, y1, x2, y2]), spatial affordance points, visual traces๋ฅผ ์ ๊ทํ๋ ์ด๋ฏธ์ง ์ขํ([0, 1000]ยฒ)๋ก ์ ์
Zero-shot deployment : ์์ฑ๋ visual aids๋ฅผ ๊ธฐ๋ฐ์ผ๋ก simple planning methods๋ฅผ ํตํด action ์คํ
Originality
SrCoT์ novelํ ์ ์ฉ : ๊ธฐ์กด CoT๋ฅผ spatial relationship ๊ธฐ๋ฐ์ผ๋ก ํ์ฅํ์ฌ embodied AI์ ๋ง์ถคํ reasoning ํ๋ ์์ํฌ ์ ์
Visual aids ํตํฉ ์ ๊ทผ : Spatial affordances์ visual traces๋ฅผ unified framework๋ก ๊ฒฐํฉํ์ฌ embodiment-agnostic ํํ ์คํ
Reasoning-driven ํจ๋ฌ๋ค์ : ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ data-driven ์ ๊ทผ์์ reasoning-driven ์์ฑ ๋ฐฉ์์ผ๋ก ์ ํ
VABench ๋ฒค์น๋งํฌ : Visual aids generation์ ์ ํ์ฑ์ ํ๊ฐํ ์ ์๋ ์ต์ด์ ๋์ ์ ๋ฒค์น๋งํฌ ์ ์
Limitation & Further Study
Real robot ํ๊ฐ์ ์ ํ : 8๊ฐ task๋ง์ผ๋ก ํ๊ฐ๋์์ผ๋ฉฐ, ๋ ๋ค์ํ ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
Computational cost ๋ถ์ ๋ถ์ฌ : SrCoT ์ถ๋ก ๋ฐ visual aids ์์ฑ์ computational overhead์ ๋ํ ์์ธํ ๋ถ์ ๋ฐ ์ต์ ํ ๋ฐฉ์ ๋ฏธ์ ์
Visual occlusion ์ฒ๋ฆฌ : ๋ถ๋ถ์ ์ผ๋ก ๊ฐ๋ ค์ง ๊ฐ์ฒด๋ ๋ณต์กํ scene์์์ spatial reasoning ์ฑ๋ฅ ํ๊ณ ๊ฐ๋ฅ์ฑ
Language instruction ๋ณต์ก๋ : ๋งค์ฐ ๋ณต์กํ๊ฑฐ๋ ์์์ ์ธ spatial relationship์ ํฌํจํ instruction์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฏธํ๊ฐ
ํ์์ฐ๊ตฌ ๋ฐฉํฅ : (1) ๋ ๋ค์ํ embodiment(ํด๋จธ๋
ธ์ด๋, ์ด๋ํ ์กฐ์ ๋ก๋ด)์ ๋ํ ํ์ฅ, (2) Dynamic scene์์์ temporal visual traces ์์ธก, (3) Self-consistency ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ๊ธฐ๋ฐ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : FSD๋ spatial reasoning์ ํตํ visual aids ์์ฑ์ผ๋ก ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๋ค์ํ ๋ฒค์น๋งํฌ์ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ๊ฒ์ฆ๋ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ICLR 2026 ๋ฐํ ๋
ผ๋ฌธ์ผ๋ก์ embodied AI์ ์ค์ํ ์ง์ ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com