Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
์ ์: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang | ๋ ์ง: 2024-12-05 | URL: https://arxiv.org/abs/2412.04455 📄 PDF
Essence
Figure 2. Overview of Code-as-Monitor. Given task instructions and prior information, the Constraint Generator derives t
VLM์ ํ์ฉํ์ฌ spatio-temporal constraint satisfaction ๋ฌธ์ ๋ก ๋ก๋ด ์คํจ๋ฅผ ์ ์ํํ๊ณ , constraint elements๋ฅผ ์ถ์ํํ์ฌ VLM ์์ฑ ์ฝ๋๋ก ์ค์๊ฐ ๋ชจ๋ํฐ๋งํ๋ Code-as-Monitor(CaM) ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.
Motivation
- Known: ์ต๊ทผ LLM/VLM ๊ธฐ๋ฐ ์ฐ๊ตฌ๋ค์ด ๋ฐ์์ ์คํจ ๊ฐ์ง(reactive failure detection)๋ ๋ฌ์ฑํ์ผ๋, ๊ณ์ฐ ๋น์ฉ์ด ๋๊ณ 3D spatio-temporal ์ธ์ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ฉฐ, ์๋ฐฉ์ ์คํจ ๊ฐ์ง(proactive failure detection)๋ ๊ฑฐ์ ํ๊ตฌ๋์ง ์์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฐ์์ ๊ฐ์ง์ ์๋ฐฉ์ ๊ฐ์ง๋ฅผ ๋์์ ๋ฌ์ฑํ์ง ๋ชปํ๋ฉฐ, ๋์ ์ ๋ฐ๋์ ์ค์๊ฐ ํจ์จ์ฑ์ ํจ๊ป ๋ง์กฑํ๋ open-set ์คํจ ๊ฐ์ง ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ๋ก๋ด์ด ๋ณต์กํ ํ๊ฒฝ์์ ์ฅ์๊ฐ ์์
์ ์ํํ ๋ ์์์น ๋ชปํ ์คํจ ๋ฐฉ์ง์ ์์ธก ๊ฐ๋ฅํ ์คํจ ์๋ฐฉ์ด ๋ชจ๋ ํ์์ ์ด๋ฉฐ, ์ด๋ ํ๋ฃจํ ๋ก๋ด ์์คํ
์ ์ ๋ขฐ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: Task instruction์ผ๋ก๋ถํฐ constraint๋ฅผ ์ถ์ถํ๊ณ constraint elements(์ , ์ , ๋ฉด ๋ฑ์ ๊ธฐํํ์ ์ถ์ํ)๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ํ ํ, VLM์ด ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก monitor code๋ฅผ ์์ฑํ์ฌ ์ถ์ ๋ constraint elements์ ๋ํด ์คํํ๋ ๋ฐฉ์์ด๋ค.
Achievement
Figure 1. For the task โMove the pan with lobster to the stove without losing the lobsterโ, (a) reactive failure detecti
- ํตํฉ ํ๋ ์์ํฌ: ๋ฐ์์ ๊ฐ์ง์ ์๋ฐฉ์ ๊ฐ์ง๋ฅผ spatio-temporal constraint satisfaction ๋ฌธ์ ๋ก ํตํฉํ๋ ์ต์ด์ ์๋
- Constraint Elements: constraint ๊ด๋ จ entity/part๋ฅผ ์ฝคํฉํธํ ๊ธฐํํ์ ์์๋ก ์ถ์ํํ์ฌ ์ถ์ ๋จ์ํ ๋ฐ visual prompting ์ฉ์ด
- ์ฑ๋ฅ ํฅ์: ์ฌ๊ฐํ ์ธ๋ ํ์์ ๊ธฐ์ ์ ๋๋น 28.7% ๋์ ์ฑ๊ณต๋ฅ ๊ณผ 31.8% ๋จ์ถ๋ ์คํ ์๊ฐ ๋ฌ์ฑ
- ์ค์๊ฐ ํจ์จ์ฑ: VLM์ ์ด๊ธฐ ํธ์ถ ์์ ์๋ง ์ฌ์ฉํ๊ณ monitor code ์คํ์ผ๋ก ๋ฐ๋ณต์ ๊ฐ์ง๋ฅผ ์ํํ์ฌ ์ค์๊ฐ ๋ชจ๋ํฐ๋ง ๊ฐ๋ฅ
- ๋ค์ค ํ๊ฒฝ ๊ฒ์ฆ: CLIPort, Omnigibson, RL-Bench ์๋ฎฌ๋ ์ดํฐ ๋ฐ ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ ์ฑ๋ฅ ์
์ฆ
How
Figure 2. Overview of Code-as-Monitor. Given task instructions and prior information, the Constraint Generator derives t
- Constraint Generator: Task instruction๊ณผ multi-view RGB-D observations์ผ๋ก๋ถํฐ textual constraints ๋์ถ
- Constraint Painter: ํ์ต๋ ConSeg ๋ชจ๋ธ๊ณผ off-the-shelf tracker(Co-Tracker)๋ฅผ ์ด์ฉํ์ฌ constraint elements๋ฅผ RGB ์ด๋ฏธ์ง์ ์๊ฐ์ ์ผ๋ก ํ์
- Code Generation: VLM(GPT-4o)์ด ์๊ฐ์ constraint elements์ textual constraints๋ฅผ ์
๋ ฅ๋ฐ์ constraint satisfaction ํ๊ฐ ์ฝ๋ ์์ฑ
- Monitor Execution: ์์ฑ๋ monitor code๋ฅผ ์ถ์ ๋ constraint element ์์น์ ๋ํด ๋ฐ๋ณต ์คํํ์ฌ ์คํจ ๊ฐ์ง ๋ฐ ์์ธ ํผ๋๋ฐฑ ์ ๊ณต
- Closed-loop Integration: ๊ฐ์ง๋ ์คํจ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก re-planning ํธ๋ฆฌ๊ฑฐํ์ฌ open-loop ์ ์ด ์ ์ฑ
๊ณผ ๊ฒฐํฉ
Originality
- ์ด์ค ๊ฐ์ง ํตํฉ: reactive์ proactive failure detection์ unified constraint framework์ผ๋ก ์ฒ์ ํตํฉ
- Constraint Elements ๋์
: VLM์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ ๊ธฐํํ์ ์ถ์ํ๋ก ์ ๋ฐ๋์ ํจ์จ์ฑ ๋์ ๋ฌ์ฑ
- Code-as-Monitor ํจ๋ฌ๋ค์: LLM/VLM์ ๋ชจ๋ํฐ๋ง์ ์์ฑ ๋จ๊ณ์๋ง ์ ํํ๊ณ ์คํ ๋จ๊ณ์์๋ ์ฝ๋ ํ๊ฐ๋ก ์ค์๊ฐ์ฑ ํ๋ณด
- Open-set ์ผ๋ฐํ: ๋ฏธ๋ฆฌ ์ ์๋์ง ์์ ์คํจ์ ์๋ก์ด entity/scene์ ๋ํ ์ ์ ๋ฅ๋ ฅ ์ ์
Limitation & Further Study
- VLM์ด ์ด๊ธฐ constraint ์์ฑ ์์ ์ ํ์ํ๋ฏ๋ก, ์ด๊ธฐ ํธ์ถ ์ง์ฐ์ด ๋ฐ์ํ ์ ์์
- Constraint elements ๊ฒ์ถ์ ์ํด ConSeg ๋ชจ๋ธ ํ์ต์ด ํ์ํ๋ฉฐ, ๋งค์ฐ ์๋ก์ด ๋๋ฉ์ธ์์๋ ์ถ๊ฐ annotation์ด ํ์ํ ์ ์์
- ํ์ฌ ์คํ์ manipulation ์ค์ฌ์ด๋ฏ๋ก navigation ๋ฑ ๋ค๋ฅธ ๋ก๋ด ์์
์์ญ์ผ๋ก์ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์์ฐ๊ตฌ: ๋ค์ค๋ชจ๋ฌ constraint ํํ(์๊ฐ, ํ ๋ฑ), ๋ ๋ณต์กํ ์ํธ์์ฉ ์๋๋ฆฌ์ค, ์ ๋ก์ท constraint element ๊ฒ์ถ ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ open-set ๋ฐ์์ /์๋ฐฉ์ ์คํจ ๊ฐ์ง๋ฅผ ์ฒ์์ผ๋ก ํตํฉํ๋ Code-as-Monitor ํจ๋ฌ๋ค์์ ์ ์ํ๋ฉฐ, constraint elements๋ผ๋ ์ฐฝ์์ ์ถ์ํ๋ก VLM์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ค์๊ฐ ํจ์จ์ฑ์ ์์ถฉ์ ํด๊ฒฐํ ์ฐ์ํ ๊ธฐ์ฌ์ด๋ค. ๋ค์ํ ํ๊ฒฝ๊ณผ ๋ก๋ด ํ๋ซํผ์์์ ๊ด๋ฒ์ํ ๊ฒ์ฆ๊ณผ ๋ช
ํํ ํ๋ ์์ํฌ ์ค๊ณ๋ก ๋์ ๊ฐ์น๋ฅผ ์ง๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์