DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment

Essence

Fig. 1: Illustration of our motivation. Previous works use LLM to generate only high-level textual plans. Therefore, Low

DoReMi는 LLM으로 고수준 계획과 실행 제약조건을 동시에 생성하고, VLM으로 실행 중 제약 위반을 지속적으로 감지하여 계획-실행 불일치를 즉시 탐지하고 복구하는 로봇 작업 프레임워크이다.

Known: 기존 연구들은 LLM을 이용해 고수준 텍스트 계획을 생성하고 저수준 제어기가 실행하는 계층적 접근법을 사용했다. 하지만 실제 환경에서 저수준 실행이 고수준 계획에서 벗어날 수 있다.
Gap: 기존 방법들은 각 계획 단계가 완료된 후에만 피드백을 통합하여 재계획하므로, 실행 중 발생하는 불일치에 즉시 대응하지 못한다. 이로 인해 작업 완료 시간이 증가하고 효율성이 떨어진다.
Why: 로봇이 계획-실행 불일치를 즉시 감지하고 복구할 수 있다면 작업 성공률을 높이고 작업 완료 시간을 단축할 수 있으며, 복잡한 실세계 로봇 작업의 실용성을 크게 향상시킬 수 있다.
Approach: DoReMi는 LLM의 이중 역할(계획 생성과 제약조건 생성)과 VLM의 제약 감시를 결합한다. 실행 중 VLM이 제약 위반을 감지하면 LLM이 즉시 재계획을 수행하여 복구한다.

Fig. 2: Previous methods perform open-loop planning or only re-plan when the previous skill is finished. Our DoReMi

Fig. 3: Open-ended scene descriptions of VLMs are ambiguous. DoReMi leverages the LLM to reason specific constraints

LLM에 few-shot in-context 프롬핑을 통해 현재 상태와 기본 기술 집합을 바탕으로 다음 기술과 해당 제약조건을 함께 생성
VLM을 주기적으로 호출하여 LLM이 생성한 특정 제약조건(constraint)에 대해 현재 이미지가 만족하는지 여부를 이진 질문(binary query)으로 검증
VLM이 제약 위반을 탐지하면 피드백을 LLM 프롬프트에 포함시켜 즉시 재계획 수행
재계획 결과로 새로운 기술과 제약조건을 생성하여 실행 단계로 돌아감

LLM을 계획 생성과 제약조건 생성의 이중 역할로 활용하는 새로운 패러다임 제시
VLM의 개방형 장면 설명(open-ended scene description)의 모호성 문제를 LLM 기반 제약조건으로 명확하고 정밀한 질의(precise query)로 변환
실행 단계 중 즉각적인 재계획을 가능하게 하는 execution-level feedback 메커니즘 도입으로 기존의 plan-level feedback 접근법과 차별화

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: DoReMi는 LLM과 VLM을 창의적으로 결합하여 로봇 작업의 계획-실행 불일치 문제를 즉시 감지하고 복구하는 실용적인 프레임워크를 제시했으며, 명확한 동기, 체계적인 방법론, 견실한 실험을 통해 높은 학술적 가치와 로봇 제어 분야의 실질적 기여를 입증했다.