Physical AI — Paper Curation

347

리뷰 완료

MECE 카테고리

2026-06-14

큐레이션 일자

Research Timeline

Physical AI 분야는 2018년 Ha와 Schmidhuber의 World Models 논문이 생성적 신경 세계 모델(generative neural world model) 개념을 제시하면서 본격적인 학문적 토대를 마련했고, 2022년 Google의 RT-1과 SayCan, PaLM-E의 등장으로 대규모 언어 모델(LLM)을 로봇 행동에 접지(grounding)하는 패러다임이 확립되었다. 이 시기 VLMaps와 CLIP-Fields는 CLIP 특징을 3D 재구성과 융합한 개방형 어휘 의미 지도(open-vocabulary semantic map)를 선보였으며, 동시에 3D Gaussian Splatting(2023, Kerbl 등)의 등장은 실시간 사실적 렌더링을 통해 실-가상-실(real-to-sim-to-real) 파이프라인의 기반을 마련했다. 2023년에는 Voyager, DEPS, SayPlan이 LLM을 평생 학습(lifelong learning) 플래너로 활용하는 흐름을 열었고, Chi 등의 Diffusion Policy와 Open X-Embodiment(RT-X) 데이터셋이 확산 기반 행동 생성과 교차 형태(cross-embodiment) 전이 학습이라는 두 축을 형성했다. 2024년은 Vision-Language-Action(VLA) 모델이 통합 패러다임으로 자리잡은 해로, OpenVLA, π0, Octo가 오픈소스 일반화 백본을 확립했고 CogACT와 3D-VLA가 인지와 행동을 분리한 확산 행동 전문가(diffusion action expert) 구조를 제시했으며, HumanPlus와 H2O는 RGB 카메라만으로 휴머노이드 전신 원격조작을 가능케 했다. 2025년에는 π0.5, GR-3, Gemini Robotics 1.5, Being-H0.5 같은 대규모 일반화 '로봇 두뇌'와 VLA-Adapter, TinyVLA, BitVLA 같은 경량·1비트 양자화 모델로 분야가 양극화되었고, CoT-VLA·ThinkAct·OneTwoVLA가 명시적 System-2 추론을 도입했으며, RoboPAIR가 촉발한 적대적 공격(adversarial attack) 연구에 대응해 RationalVLA의 합리적 거부(rational refusal)와 Fast-in-Slow 같은 이중 시스템 안전 구조가 등장했다. 또한 SIMPLER, AutoEval, RoboArena가 자율 평가 병목을 해소하고, OneDP·Consistency Policy의 단일 단계 증류로 실시간 추론이 가능해졌다. 향후 분야는 3D Gaussian Splatting, GPU 병렬 시뮬레이션, 생성적 디지털 트윈을 결합한 통합 real-to-sim-to-real 학습 환경 위에서 강화학습 미세조정(RFT)과 세계 모델 기반 검증을 결합하고, PointWorld가 시사하듯 행동과 장면을 3D 포인트 흐름으로 통합하는 신경-기호적(neuro-symbolic) 체화 일반 지능을 향해 수렴할 것으로 전망된다.

🔗 Interactive Paper Network →

Research Insights 7 findings

융합

VLA와 World Model 융합

Vision-Language-Action 모델과 World Model이 빠르게 융합되고 있으며, DiWA, NORA-1.5, TriVLA, UniVLA, Motus 등 다수의 연구에서 world model을 VLA의 post-training 또는 내부 모듈로 통합하는 추세가 강하게 관찰된다. 이는 단순 모방학습의 한계를 넘어 로봇이 미래 상태를 예측하며 행동을 계획하는 방향으로 패러다임이 전환되고 있음을 의미한다.

VLA Policy Training and Adaptation · Vision-Language-Action Model Architectures · LLM-Augmented Embodied Agent Frameworks [1368] [1494] [1596] [1599] [1481] [1632] [1626] [1631]

🏛 World Model 통합 VLA는 실제 로봇 배포 신뢰성을 높이므로, 관련 평가 기준 및 안전성 검증 프레임워크 수립이 시급하다.

융합

3D표현과 VLA 정책 통합

3D Gaussian Splatting, point cloud, 3D scene graph 등 3D 표현 기술이 VLA 정책 학습과 결합되는 연구가 급증하고 있다. DP3, 3DFA, SpatialVLA, PointWorld, GauDP, RE3SIM 등이 3D 표현을 통해 sim-to-real 전이와 공간 이해를 동시에 개선한다. 이는 2D 이미지 기반 정책의 한계를 극복하는 핵심 방향으로 부상하고 있다.

3D Simulation and Robot Manipulation · VLA Policy Training and Adaptation · Vision-Language-Action Model Architectures [1288] [1289] [1290] [1523] [1401] [1576] [1517]

🏛 3D 인식 기반 로봇 정책의 실용화를 위해 표준화된 3D 데이터셋 구축 및 공개 인프라 지원 정책이 필요하다.

신흥 트렌드

RL 기반 VLA 미세조정 부상

사전학습된 VLA 모델을 강화학습으로 미세조정하는 연구들이 2025년을 기점으로 급격히 증가하고 있다. VLA-RL, SimpleVLA-RL, ConRFT, GR-RL, VLA-RFT, FLaRe 등이 SFT 대비 분포 외 시나리오 대응력과 dexterous manipulation 성능을 크게 향상시킴을 보여준다. 이는 대규모 데이터 수집 없이도 성능을 개선할 수 있는 핵심 방법론으로 자리잡고 있다.

VLA Policy Training and Adaptation · Vision-Language-Action Model Architectures · Robotic Safety and Efficiency Systems [1620] [1573] [1338] [1411] [1619] [1394] [1532]

🏛 RL 기반 VLA 미세조정 기술의 표준화와 보상 함수 설계 가이드라인 마련이 산업 현장 적용을 가속화할 것이다.

연구 갭

LLM 로봇 편향·안전 연구 부족

LLM/VLM 기반 로봇 시스템의 편향성과 jailbreak 취약점에 관한 연구(1440, 1458, 1550, 1501)는 1041편 중 극소수에 불과하며, 실질적인 방어 메커니즘이나 정책 프레임워크를 제시하는 논문은 더욱 희소하다. 로봇이 인종·성별 고정관념을 물리적으로 재현하거나 폭력적 명령을 수행할 수 있다는 심각한 위험이 입증되었음에도 체계적 대응 연구가 크게 부족하다.

Robotic Safety and Efficiency Systems · LLM-Augmented Embodied Agent Frameworks · VLA Policy Training and Adaptation [1440] [1458] [1550] [1501]

🏛 LLM 기반 로봇 시스템의 안전성 인증 제도와 편향성 감사 의무화를 위한 법·제도적 기반 마련이 시급하다.

신흥 트렌드

인간 비디오 기반 로봇 학습

로봇 하드웨어 없이 대규모 인간 비디오 데이터만으로 로봇 정책을 사전학습하는 연구가 2025년 이후 급부상하고 있다. EgoScale, DreamDojo, UniSkill, ZeroMimic, Phantom, Human2Robot 등이 수만 시간의 이고센트릭 비디오를 활용해 로봇 데이터 수집 비용을 획기적으로 절감하는 방법을 제시한다. 이는 로봇 학습의 데이터 병목 문제를 해결하는 새로운 패러다임으로 주목받고 있다.

VLA Policy Training and Adaptation · 3D Simulation and Robot Manipulation · Vision-Language-Action Model Architectures [1376] [1355] [1601] [1634] [1515] [1425]

🏛 인간 행동 비디오 데이터의 공공 아카이브 구축 및 로봇 학습용 활용 허가 체계 정비가 연구 생태계 발전을 견인할 것이다.

융합

듀얼시스템 VLA 아키텍처 수렴

인지과학의 System 1(빠른 직관)/System 2(느린 추론) 개념을 VLA 아키텍처에 적용하는 연구들이 다수 수렴하고 있다. Fast-in-Slow, Hume, DualVLN, OpenHelix, ThinkAct, OneTwoVLA 등이 고속 제어와 심층 추론을 분리하거나 통합하는 다양한 방식을 탐구하며, 이 설계 철학이 VLA 아키텍처의 새로운 표준으로 자리잡아가고 있다.

Vision-Language-Action Model Architectures · VLA Policy Training and Adaptation · Robotic Safety and Efficiency Systems [1391] [1428] [1414] [1509] [1584] [1503]

🏛 듀얼시스템 VLA 표준 아키텍처 확립을 위한 벤치마크와 평가 기준 국제 표준화 논의를 선도할 필요가 있다.

감소 추세

단순 행동복제 정책의 쇠퇴

초기 VLA 연구의 근간이었던 단순 Behavior Cloning 기반 정책(BeT, ACT 등)은 diffusion policy, flow matching, RL 기반 미세조정 등 더 강력한 방법론들에 의해 대체되는 추세가 뚜렷하다. 2024-2025년 신규 연구들은 대부분 단순 BC를 베이스라인으로만 사용하며, 핵심 기여는 생성 모델이나 RL을 결합한 고급 정책 학습 방법에 집중되고 있다.

VLA Policy Training and Adaptation · 3D Simulation and Robot Manipulation [1316] [1362] [1339] [1502] [1375] [1580]

🏛 차세대 로봇 교육 및 산업 인력 양성 커리큘럼에서 생성 모델 기반 정책 학습 및 강화학습 통합 기술 역량을 핵심으로 설정해야 한다.

3D Simulation and Robot Manipulation 109편 ▶

3D Simulation and Robot Manipulation Timeline

Category Overview

3D Simulation and Robot Manipulation 카테고리는 로봇의 실제 환경에서의 조작과 제어를 위한 시뮬레이션 기술을 다룬다. Humanoid Robot Teleoperation 분야에서는 인간의 동작을 실시간으로 로봇에 전달하는 기술이 발전하고 있으며, [1451], [1426], [1498]과 같은 논문들이 전신 제어 및 모방 학습을 통한 휴머노이드 로봇 조작을 제시하고 있다. 3D Gaussian Splatting Rendering 기술은 [1290]에서 실시간 방사 필드 렌더링을 통해 시각화 성능을 획기적으로 향상시켰다. 3D Point-Based Robot Manipulation과 관련하여 [1354], [1355]는 대규모 데이터셋과 손재주 있는 조작 환경을 제공하고 있으며, Physics-Based Garment & Activity Simulation은 [1355]에서 의류 조작의 물리적 시뮬레이션을 포함하고 있다. Parallel GPU Robot Simulation과 Digital Twin 기술은 [1469], [1484]를 통해 대규모 병렬 처리와 실제-시뮬레이션-실제(Real-to-Sim-to-Real) 파이프라인을 구현하고 있으며, [1420], [1417], [1430]과 같은 대규모 벤치마크 환경들이 embodied AI의 실용화를 가속화하고 있다.

Humanoid Robot Teleoperation: 휴머노이드 로봇 원격조종(Humanoid Robot Teleoperation)은 인간의 신체 동작을 감지하여 로봇이 실시간으로 모방하고 수행하도록 하는 기술입니다. 이 분야의 연구들은 인간-로봇 상호작용(Human-Robot Interaction)의 효율성을 극대화하기 위해 전신 제어(Whole-Body Control) 및 모방 학습(Imitation Learning) 기법을 활용합니다. [1451]에서는 인간의 동작으로부터 휴머노이드 로봇의 실시간 전신 원격조종 학습을 제시하며, [1498]에서는 범용적이고 민첩한 인간-휴머노이드 상호조종 시스템을 제안합니다. [1426]에서는 인간의 움직임을 로봇이 그림자처럼 따라가고 모방하는 방식을 통해 자연스러운 조종을 가능하게 합니다. 또한 [1572]에서는 시뮬레이션 환경에서 학습한 정책을 실제 환경에 적용하는 시뮬-투-리얼(Sim-to-Real) 강화학습 기법으로 시각 기반의 민첩한 조작(Dexterous Manipulation)을 구현합니다.
3D Gaussian Splatting Rendering: 3D 가우시안 스플래팅 렌더링(3D Gaussian Splatting Rendering)은 실시간 방사 필드 렌더링(radiance field rendering)을 위한 혁신적인 기술로, 복잡한 3D 장면을 고속으로 렌더링할 수 있습니다. [1290]에서 제시된 기본 기술은 3D 공간의 가우시안 분포를 활용하여 포토리얼리스틱한 이미지를 빠르게 생성하며, 기존의 신경망 기반 방식보다 훨씬 빠른 처리 속도를 제공합니다. 로봇 조작 및 시뮬레이션 분야에서는 이 기술이 현실적인 훈련 데이터 생성에 활용되고 있으며, [1523]과 [1527]에서 볼 수 있듯이 합성 데이터(synthetic data)를 통한 로봇 학습 성능 향상에 기여하고 있습니다. [1625]의 Real-to-Sim-to-Real 프레임워크처럼 현실 세계와 시뮬레이션 환경 간의 간격을 줄이는 데에도 적극 활용되어, 로봇의 시각 네비게이션(visual navigation)과 조작 능력 향상을 가능하게 합니다. 이러한 고급 렌더링 기술의 발전은 로봇 시스템의 훈련 효율성을 크게 개선하고 현실 세계 적용 성능을 높이는 핵심 요소입니다.
3D Point-Based Robot Manipulation: 3D 포인트 기반 로봇 조작(3D Point-Based Robot Manipulation)은 3D 점군(point cloud) 데이터를 활용하여 로봇이 복잡한 조작 작업을 수행하도록 하는 기술 분야입니다. 이 분야의 주요 연구들은 현실 세계의 로봇 작업을 시뮬레이션 환경으로 전환하고 다시 실제 환경에 적용하는 Real-to-Sim-to-Real 접근 방식 [1297]과 비전 언어 모델(Vision Language Model)을 활용한 동작 이해 [1301]을 포함하고 있습니다. 또한 대규모 생성형 AI 모델을 로봇 제어에 적용하는 연구 [1403]와 3D 월드 모델(world model)을 확장하여 현실 세계의 로봇 조작 문제를 해결하는 방법 [1517]이 진행되고 있습니다. 더불어 소수의 시연(few demonstrations)으로부터 정밀한 조작 능력을 학습하는 기술 [1558]이 개발되어, 로봇이 더욱 효율적이고 적응적인 조작을 수행할 수 있도록 하고 있습니다.
Physics-Based Garment & Activity Simulation: Physics-Based Garment & Activity Simulation은 로봇이 의류와 같은 변형 가능한 물체를 조작하고 실제 가정 환경에서 다양한 활동을 수행하는 능력을 개발하기 위한 연구 분야입니다. [1355] DexGarmentLab은 섬세한 손가락 조작(Dexterous Manipulation)을 통해 의류를 다루는 환경을 제공하며, [1420] Habitat 2.0은 가정용 로봇이 물건을 정리하고 배치하는 재배열(Rearrangement) 작업을 학습하도록 설계되었습니다. [1354] Dex1B와 같은 대규모 학습 데이터셋은 로봇의 조작 능력을 향상시키기 위한 방대한 시연(Demonstrations) 정보를 제공합니다. [1430] iGibson 1.0은 상호작용 기반 작업(Interactive Tasks)을 위한 포괄적인 시뮬레이션 환경(Simulation Environment)을 구축하여 현실적인 가정 환경을 모델링합니다. 이러구 연구들은 [1317] BEHAVIOR-1K과 같은 인간 중심의 벤치마크(Benchmark)와 함께 체현된 AI(Embodied AI)의 발전을 촉진하며, 로봇이 복잡한 물리 역학(Physics-Based Dynamics)을 이해하면서 실세계 작업을 수행할 수 있게 하는 것을 목표로 합니다.
Equivariant 3D Robot Manipulation: 이동 로봇의 조작 작업에서 3차원 장면 표현과 동형(Equivariant) 학습의 중요성이 점차 증대되고 있습니다. [1559]의 RVT(Robotic View Transformer)는 다중 시점의 3D 객체 조작을 위해 트랜스포머 기반의 시각 처리를 제안하며, [1529]의 ReKep는 시공간적 관계 키포인트 추론(Spatio-Temporal Reasoning of Relational Keypoint)을 통해 로봇의 조작 능력을 향상시킵니다. [1302]의 Adapt3R은 도메인 전이(Domain Transfer) 상황에서 적응형 3D 장면 표현을 학습하여 다양한 환경에 대한 일반화 성능을 개선합니다. [1567]의 SE(3)-동형 로봇 학습 및 제어 튜토리얼은 회전과 병진을 포함한 3D 강체 변환에 대한 동형성(Equivariance)을 수학적으로 엄밀하게 다루어, 로봇 조작 시스템의 기하학적 불변성을 보장합니다. 이러한 연구들은 카메라 관점 변화, 객체 배치 변화 등 입력의 변환에 불변하는 안정적이고 샘플 효율적인 로봇 학습을 실현하는 데 기여합니다.
Parallel GPU Robot Simulation: # Parallel GPU Robot Simulation (4편) 병렬 GPU 로봇 시뮬레이션은 대규모 로봇 조작(Robot Manipulation) 작업을 고속으로 처리하기 위한 핵심 기술입니다. [1469]의 ManiSkill3는 GPU 병렬화를 통해 로봇 시뮬레이션과 렌더링(Rendering)을 동시에 가속화하여 학습 효율을 극대화합니다. [1483]의 MuBlE는 MuJoCo 물리 엔진(Physics Engine)과 Blender를 통합하여 고충실도의 시뮬레이션 환경(Simulation Environment)과 벤치마크(Benchmark)를 제공합니다. [1484]의 MuJoCo Playground는 인터랙티브한 시뮬레이션 플랫폼으로서 다양한 로봇 제어 연구를 지원합니다. [1573]의 SimpleVLA-RL은 이러한 병렬 GPU 시뮬레이션 환경을 활용하여 대규모 강화학습(Reinforcement Learning) 기반의 비전-언어-액션(Vision-Language-Action) 모델 학습을 확장합니다.
Digital Twin Robot Simulation: 디지털 트윈(Digital Twin) 기술을 활용한 로봇 시뮬레이션은 실제 환경에서의 로봇 조작 학습을 위한 대규모 합성 데이터 생성을 가능하게 합니다. GRUtopia [1417]는 도시 규모의 일반 로봇들을 시뮬레이션할 수 있는 확장 가능한 플랫폼을 제시하며, 다양한 환경에서의 로봇 행동 학습을 지원합니다. RoboTwin 시리즈 [1551][1552]는 듀얼암(Dual-Arm) 로봇의 조작 작업을 위한 생성형 디지털 트윈(Generative Digital Twin) 기술과 벤치마크를 제공하여, 현실 세계로의 효과적인 전이 학습(Transfer Learning)을 촉진합니다. 이러한 디지털 트윈 기반 시뮬레이션은 물리 엔진(Physics Engine)의 정확성과 대규모 합성 데이터의 이점을 결합하여 로봇 조작 정책 학습의 효율성을 크게 향상시킵니다.
Articulated Object Part Estimation: Articulated Object Part Estimation(관절형 객체 부위 추정)은 로봇이 복잡한 물체의 각 부분을 인식하고 이해하여 조작할 수 있도록 하는 기술입니다. 이 분야는 로봇 매니퓨레이션(Robot Manipulation) 작업에서 물체의 움직이는 부분들을 정확히 감지하고 그에 맞는 affordance(어포던스)를 학습하는 데 중점을 두고 있습니다. ManipVQA[1468]는 로봇의 어포던스와 물리적 제약을 주입하여 조작 가능성을 높였으며, SKT[1574]는 상태 인식 키포인트 궤적(State-Aware Keypoint Trajectories)을 시각 정보와 통합함으로써 더욱 정교한 부위 추정을 가능하게 합니다. UniAff[1597]는 도구 사용(Tool Usage)을 위한 통일된 어포던스 표현(Unified Representation of Affordances)을 제시하여 다양한 관절형 물체에 적용 가능한 일반화된 접근법을 제안합니다. 이러한 연구들은 시뮬레이션 환경에서 실제 로봇 조작으로의 전이(Transfer)를 촉진하며, 인공지능 기반의 지능형 로봇 시스템 개발에 기여합니다.

📌 핵심: 3D Gaussian Splatting 기반 real-to-sim-to-real 파이프라인과 GPU 병렬 시뮬레이션이 결합되어 sim-to-real 전이 성공률이 58% 이상에 도달하는 등 급격한 성능 향상이 이루어지고 있다.
⚠ 갭: 유연체(deformable object)나 의류 등 비강체 물체 조작을 위한 고충실도 시뮬레이션과 대규모 학습 데이터 생성 파이프라인이 여전히 부족하다.
🏛 정책: GPU 병렬 로봇 시뮬레이션 인프라의 오픈소스 생태계 지원과 표준 벤치마크 국제화를 통해 연구 효율성을 높여야 한다.

Humanoid Robot Teleoperation 20 ▶

#1 2025.03 4/5

BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

저자: Yunfan Jiang, Ruohan Zhang, Josiah Wong, Chen Wang, Yanjie Ze, Hang Yin, Cem Gokmen, Shuran Song, Jiajun Wu, Li Fei-Fei | 날짜: 2025.03

Figure 1: Everyday household activities enabled by BEHAVIOR ROBOT SUITE (BRS), show-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Everyday household activities enabled by BEHAVIOR ROBOT SUITE (BRS), show-* BEHAVIOR Robot Suite (BRS)는 가정용 일상 작업을 수행하기 위한 양팔 협력, 안정적 네비게이션, 광범위한 말단 장치 도달성을 갖춘 전신 조작 로봇을 위한 통합 프레임워크를 제시한다. JoyLo 원격 조작 인터페이스와 WB-VIMA 시각운동 정책 학습 알고리즘을 통해 실세계 가정 작업 수행을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

BEHAVIOR Robot Suite는 가정용 일상 작업을 위한 전신 조작 로봇의 완전한 생태계를 제시하는 포괄적 연구로, JoyLo의 창의적인 저비용 설계와 WB-VIMA의 계층적 자동회귀 정책 학습이 결합되어 실세계 가정 로봇의 실질적 진전을 이룬다. 특히 하드웨어, 데이터 수집, 알고리즘을 완전히 오픈소스화함으로써 커뮤니티 확산 가능성이 높으며, 다중 도메인의 체계적 통합을 통해 로봇 학습 연구에 의미 있는 기여를 한다.

#2 2025.02 4/5

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

저자: Georgios Kamaras, Subramanian Ramamoorthy | 날짜: 2025.02

Fig. 1.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1.* Deformable Linear Object(DLO) 조작을 위해 likelihood-free inference로 물리 파라미터의 사후분포를 추정하고, 이를 domain randomisation에 활용하여 시뮬레이션에서 학습한 정책을 실제 환경에 zero-shot으로 배포하는 end-to-end Real2Sim2Real 프레임워크를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LFI 기반 파라미터 추정과 domain randomisation, model-free RL을 정교하게 통합하여 vision-based DLO 조작의 Real2Sim2Real 문제를 해결하는 novel하고 기술적으로 견고한 접근을 제시하며, zero-shot deployment의 실증을 통해 실용적 가치를 입증한다.

#3 2023.12 4/5

Any-point Trajectory Modeling for Policy Learning

저자: Chuan Wen, Xingyu Lin, John So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel | 날짜: 2023.12

Fig. 1: Given a task instruction and the initial positions of any set of points in an image frame, our Any-point Traject

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Given a task instruction and the initial positions of any set of points in an image frame, our Any-point Traject* Any-point Trajectory Modeling (ATM)은 액션 라벨이 없는 비디오에서 임의의 점들의 미래 궤적을 예측하도록 사전 학습된 궤적 모델을 활용하여, 최소한의 액션-라벨 데이터로도 강건한 visuomotor 정책 학습을 가능하게 하는 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

비디오 데이터를 정책 학습에 효과적으로 활용하는 새로운 접근법으로, 임의의 점 궤적이라는 단순하면서도 강력한 표현을 통해 높은 성능과 일반성을 동시에 달성했다. 광범위한 실험과 명확한 프레임워크로 로봇 학습 분야에 의미 있는 기여를 한다.

#4 2025.05 4/5

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations

저자: Anthony Liang, Pavel Czempin, Matthew Hong, Yutai Zhou, Erdem Biyik, Stephen Tu | 날짜: 2025.05

Figure 1: Overview of CLAM. CLAM consists of a latent inverse dynamics model, fϕ, which in-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of CLAM. CLAM consists of a latent inverse dynamics model, fϕ, which in-* CLAM은 라벨이 없는 관찰 데이터로부터 로봇 정책을 학습하기 위해 continuous latent action space를 사용하며, action decoder를 jointly training하여 실제 환경 액션으로의 grounding을 보장하는 방법을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

CLAM은 continuous latent action space와 joint decoder training이라는 명확한 기술적 혁신으로 unlabeled 데이터 기반 로봇 정책 학습의 실질적 성능을 획기적으로 향상시키며, 비용이 많이 드는 expert 데이터 수집의 필요성을 크게 감소시키는 highly significant contribution을 제시한다.

저자: Toru Lin, Kartik Sachdev, Linxi Fan, Jitendra Malik, Yuke Zhu | 날짜: 2025.02

Figure 1: Overview. We train a humanoid robot with two multi-fingered hands to perform a range of contact-

Essence

![Figure 2](figures/fig2.webp) *Figure 2: A sim-to-real RL recipe for vision-based dexterous manipulation. We close the environment* 본 논문은 휴머노이드 로봇의 다중 손가락 손을 이용한 시각 기반 정교한 조작을 위해 sim-to-real RL을 적용하는 실용적인 레시피를 제시하며, 자동화된 실-시뮬레이션 튜닝, 일반화된 보상 설계, 분할-정복 정책 증류, 하이브리드 객체 표현을 통합한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 sim-to-real RL을 실제 휴머노이드 다중 손가락 조작으로 처음 확장하는 실용적이고 포괄적인 솔루션을 제시하며, 자동화된 시스템 식별과 정책 증류 등 여러 혁신을 통해 높은 성공률과 일반화 능력을 입증한다. 다만 미본 객체 성능과 방법의 복잡성 개선에는 여지가 있다.

Equivariant 3D Robot Manipulation 17 ▶

#21 2024.03 4/5

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

저자: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu | 날짜: 2024.03

Fig. 1: 3D Diffusion Policy (DP3) is a visual imitation learning algorithm that marries 3D visual representations with d

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Overview of 3D Diffusion Policy (DP3). Above: In the training phase, DP3 simultaneously trains its perception mo* 3D Diffusion Policy (DP3)는 점군(point cloud) 기반의 3D 시각 표현을 diffusion policy와 결합하여 로봇 모방 학습에서 적은 데이터로 높은 일반화 성능을 달성하는 방법을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DP3는 개념적으로 단순하면서도 3D 표현과 diffusion policy의 시너지를 효과적으로 활용하여 적은 데이터로 높은 성능과 일반화를 달성한 실용적인 방법이며, 광범위한 평가를 통해 로봇 시각 모방 학습에서 3D 표현의 중요성을 설득력 있게 입증한다.

#22 2024.08 4/5

A Survey of Embodied Learning for Object-Centric Robotic Manipulation

저자: Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang, Lap-Pui Chau | 날짜: 2024.08

Fig. 1. An illustration of robotic manipulation system (left) and the typology of embodied learning methods for object-c

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. An illustration of robotic manipulation system (left) and the typology of embodied learning methods for object-c* 본 논문은 object-centric robotic manipulation을 위한 embodied learning의 최신 동향을 체계적으로 조사하며, embodied perceptual learning, embodied policy learning, embodied task-oriented learning의 세 가지 주요 분야로 분류하여 종합적인 서베이를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 object-centric robotic manipulation을 위한 embodied learning의 최신 동향을 체계적이고 포괄적으로 정리한 우수한 서베이이며, 기존 연구와 달리 최신 generative/foundation models을 포함하고 perception-policy-task의 통합적 관점을 제시함으로써 로봇 조작 분야 연구자들에게 매우 유용한 참고자료가 될 것으로 판단된다.

#23 2025.03 4/5

Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning

저자: Albert Wilcox, Mohamed Ghanem, Masoud Moghani, Pierre Barroso, Benjamin Joffe, Animesh Garg | 날짜: 2025.03

Figure 1: (a) Adapt3R facilitates zero-shot transfer to novel embodiments and viewpoints. (b) Adapt3R can

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Adapt3R extracts scene representations from RGBD inputs for use with a variety of imitation learning* Adapt3R는 calibrated RGBD 카메라로부터 3D 장면 표현을 추출하여 모방 학습(IL) 알고리즘의 조건으로 사용하는 관찰 인코더이며, pretrained 2D backbone으로 의미론적 정보를 추출하고 3D 정보는 end-effector에 상대적인 localization에만 사용하여 novel embodiment과 camera viewpoint으로의 zero-shot transfer를 실현한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Adapt3R은 semantic 정보와 3D localization을 명확히 분리하는 설계 철학으로 기존 3D 기반 방법의 한계를 체계적으로 해결하며, 광범위한 실험과 실제 성과로 multitask imitation learning에서 embodiment과 viewpoint generalization의 중요한 진전을 이루었다.

저자: Tete Xiao, Ilija Radosavovic, Trevor Darrell, Jitendra Malik | 날짜: 2022.03

Essence

실제 이미지에서 자기감독학습(self-supervised learning)으로 시각 표현을 사전학습한 후, 동결된 인코더 위에서 강화학습으로 모터 제어 정책을 학습하는 방법을 제시하며, 지도학습 기반 인코더를 크게 능가한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 자기감독학습 기반 시각 표현이 모터 제어에 매우 효과적임을 처음 체계적으로 보여주는 중요한 기여이며, 실제 이미지의 활용, 인코더 동결 패러다임, 벤치마크 제공을 통해 시각-기반 제어 연구를 크게 진전시킨다.

저자: Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei | 날짜: 2023.07

Figure 1: VOXPOSER extracts language-conditioned affordances and constraints from LLMs and grounds

Essence

![Figure 1](figures/fig1.webp) *Figure 1: VOXPOSER extracts language-conditioned affordances and constraints from LLMs and grounds* LLM의 affordance 추론 능력과 code-writing 능력을 활용하여 3D value map을 생성하고, 이를 model-based planning으로 로봇 trajectory 합성에 활용하는 zero-shot 로봇 조작 방법론.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

VoxPoser는 LLM의 높은 수준 추론과 code 생성 능력을 3D 로봇 조작에 처음으로 효과적으로 연결한 혁신적 방법으로, zero-shot 일반화와 실제 로봇 적용 가능성을 보여주는 의미 있는 기여이다. 다만 affordance 정확성, 장기 계획, 계산 효율성 측면의 개선이 필요하다.

3D Point-Based Robot Manipulation 8 ▶

#38 2025.08 4/5

3D FlowMatch Actor: Unified 3D Policy for Single- and Dual-Arm Manipulation

저자: Nikolaos Gkanatsios, Jiahe Xu, Matthew Bronars, Arsalan Mousavian, Tsung-Wei Ke, Katerina Fragkiadaki | 날짜: 2025.08

Figure 1: Top: 3DFA is a flow-matching policy built atop 3D Diffuser Actor [12]. It encodes the

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Top: 3DFA is a flow-matching policy built atop 3D Diffuser Actor [12]. It encodes the* 3D FlowMatch Actor (3DFA)는 flow matching을 사용한 trajectory prediction과 3D pretrained visual representation을 결합하여 단일 팔 및 양팔 로봇 조작을 위한 통합 정책을 제시하며, 이전 3D diffusion 기반 정책 대비 30배 이상 빠른 학습과 추론을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

3DFA는 flow matching을 로봇 정책에 적용하여 획기적 효율성 개선을 달성하고, 양팔 조작에서 새로운 state-of-the-art를 수립하며, 광범위한 실세계 평가와 ablation을 통해 실용적 로봇 정책의 모범적 사례를 제시하는 고도로 영향력 있는 연구이다.

#39 2025.02 4/5

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

저자: Shivansh Patel, Xinchen Yin, Wenlong Huang, Shubham Garg, Hooshang Nayyeri, Li Fei-Fei, Svetlana Lazebnik, Yunzhu Li | 날짜: 2025.02

Fig. 1: Capabilities of Our Framework. IKER is designed to han-

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Framework Overview. Iterative Keypoint Reward (IKER) is a visually grounded reward generated by Vision-Language * VLM을 활용하여 RGB-D 관찰과 자연어 지시로부터 keypoint 기반 reward 함수(IKER)를 동적으로 생성하고, real-to-sim-to-real 루프를 통해 로봇 조작 정책을 학습 및 배포하는 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 VLM의 시각적 이해와 RL의 최적화를 real-to-sim-to-real 루프로 통합하여 개방형 환경에서의 적응적 다단계 로봇 조작을 달성하는 창의적이고 실용적인 접근법을 제시한다. 반복적 reward 개선과 환경 피드백 기반 동적 계획이 핵심 강점이며, 다양한 실제 작업 시연을 통해 효과성을 입증했다.

#40 2024.06 4/5

A3VLM: Actionable Articulation-Aware Vision Language Model

저자: Siyuan Huang, Haonan Chang, Yuhan Liu, Yimeng Zhu, Hao Dong, Peng Gao, Abdeslam Boularias, Hongsheng Li | 날짜: 2024.06

Figure 1. Sequential inference with prompts. To answer the first question, A3VLM identifies the corresponding action typ

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Articulation Representation in A3VLM* A3VLM은 로봇 중심의 행동 학습 대신 물체 중심의 관절 구조(articulation)와 행동 가능성(affordance)을 인식하는 Vision Language Model로, 비용이 많이 드는 로봇 상호작용 데이터 수집을 최소화하면서도 다양한 로봇에 적용 가능한 표현을 학습한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

A3VLM은 로봇 조작 문제에 대한 object-centric 패러다임을 제시하며, VLM을 활용하여 물체의 관절 구조와 행동 가능성을 효과적으로 인식하는 혁신적인 접근법이다. 비용 효율성, 로봇 독립성, 실제 환경에서의 강건성을 동시에 달성하여 실용적 가치가 높고 후속 연구에 큰 영감을 줄 수 있는 의미 있는 기여이다.

저자: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé, Andrey Kolobov, Furong Huang, Jianwei Yang | 날짜: 2024.12

Figure 1: An illustration of our method. The first image shows the original robot’s observation, while the second

Essence

![Figure 1](figures/fig1.webp) *Figure 1: An illustration of our method. The first image shows the original robot’s observation, while the second* Visual trace prompting 기법을 통해 VLA 모델의 spatial-temporal 인식을 향상시켜 로봇 조작 작업의 성능을 개선한 연구이다. 150K 로봇 조작 궤적 데이터셋을 수집하고 TraceVLA 모델을 개발하여 시뮬레이션과 실제 로봇 환경에서 우수한 성능을 입증했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Visual trace prompting은 직관적이면서도 효과적인 기법으로, VLA 모델의 공간-시간 인식을 실질적으로 개선하며 광범위한 실험(시뮬레이션 및 실제 로봇)을 통해 우수한 성능을 일관되게 입증했다. ICLR 2025 게재 논문으로서 로봇 조작 분야의 실질적 기여도가 높다.

3D Gaussian Splatting Rendering 9 ▶

#46 2023.08 4/5

3D Gaussian Splatting for Real-Time Radiance Field Rendering

저자: Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis | 날짜: 2023.08

Fig. 1. Our method achieves real-time rendering of radiance fields with quality that equals the previous method with the

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Our method achieves real-time rendering of radiance fields with quality that equals the previous method with the* 3D Gaussian Splatting은 3D 가우시안 표현과 실시간 렌더링 알고리즘을 결합하여 고품질의 novel-view synthesis를 1080p 해상도에서 30fps 이상으로 달성하는 방법이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

3D Gaussian Splatting은 radiance field 렌더링에서 품질과 속도의 근본적 트레이드오프를 해결하는 획기적 방법으로, 실시간 고품질 novel-view synthesis를 처음으로 실현한 매우 중요한 기여이다.

#47 2025.04 4/5

ApexNav: An Adaptive Exploration Strategy for Zero-Shot Object Navigation with Target-centric Semantic Fusion

저자: Mingjie Zhang, Yuheng Du, Chengkai Wu, Jinni Zhou, Zhenchao Qi, Jun Ma, Boyu Zhou | 날짜: 2025.04

Fig. 1: Real-world Demonstration of ApexNav. We test ApexNav on various

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: System Architecture of ApexNav. Before the episode, an LLM offline generates a similar object list. The agent bu* ApexNav는 의미론적 정보의 환경 분포를 분석하여 강한 의미론적 신호가 있을 때는 의미 기반 탐색을, 약할 때는 기하학 기반 탐색으로 적응적으로 전환하고, target-centric semantic fusion을 통해 노이즈가 있는 탐지에도 강건한 zero-shot object navigation 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ApexNav는 의미론적 신호와 기하학적 정보의 효율적 트레이드오프를 통해 zero-shot object navigation의 효율성과 신뢰도를 모두 향상시킨 우수한 연구이다. 실환경 검증과 강력한 벤치마크 성능, 체계적인 ablation study를 통해 각 컴포넌트의 효과를 명확히 입증했으나, 적응형 전환 기준의 명확화와 더 광범위한 실환경 실험이 필요하다.

#48 2024.02 4/5

Genie: Generative Interactive Environments

저자: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel | 날짜: 2024.02

Figure 1 | A whole new world: Genie is capable of converting a variety of different prompts into

Essence

![Figure 1](figures/fig1.webp) *Figure 1 | A whole new world: Genie is capable of converting a variety of different prompts into* Genie는 인터넷 비디오로부터 완전히 비감독 방식으로 학습된 첫 번째 생성형 인터랙티브 환경으로, 텍스트, 이미지, 스케치 등 다양한 프롬프트로부터 프레임 단위로 제어 가능한 가상 세계를 생성할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Genie는 비감독 행동 학습과 인터랙티브 환경 생성의 새로운 패러다임을 제시하는 매우 혁신적인 연구로, Foundation Model 규모에서 프레임 단위 제어성을 달성하며 미래의 일반화된 에이전트 훈련을 위한 중요한 기초를 마련한다.

#49 2023.07 4/5

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

저자: Adrien Bardes, Jean Ponce, Yann LeCun | 날짜: 2023.07

Figure 1: Multi-task self-supervised learning of content and motion features. MC-JEPA com-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Multi-task self-supervised learning of content and motion features. MC-JEPA com-* MC-JEPA는 광학 흐름 추정과 콘텐츠 특성 학습을 단일 공유 인코더 내에서 결합하는 자기 지도 학습 방법으로, 두 목표가 서로 상호 이득을 주어 모션 정보를 포함하는 콘텐츠 특성을 학습한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MC-JEPA는 자기 지도 학습에서 광학 흐름과 콘텐츠 학습을 통합하는 창의적이고 기술적으로 견고한 방법으로, 다양한 시각 작업에서 단일 인코더로 우수한 성능을 달성하는 의미 있는 기여를 한다.

#50 2025.02 4/5

Openfly: A comprehensive platform for aerial vision-language navigation

저자: Yunpeng Gao, Chenhui Li, Zhongrui You, Junli Liu, Zhen Li, Pengan Chen, Qizhi Chen, Zhonghan Tang, Liansheng Wang, Penghui Yang, Yiwen Tang, Yuhang Tang, Shuai Liang, Songyi Zhu, Ziqin Xiong, Yifei Su, Xinyi Ye, Jianan Li, Yan Ding, Dong Wang, Xuelong Li, Zhigang Wang, Bin Zhao | 날짜: 2025.02

Figure 1: Overview of OpenFly. This work consists of (1) the integration of 4 rendering engines, significantly

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of OpenFly. This work consists of (1) the integration of 4 rendering engines, significantly* OpenFly는 항공 Vision-Language Navigation을 위한 종합 플랫폼으로, 4개 렌더링 엔진, 자동화된 데이터 생성 툴체인, 100k 궤적의 대규모 데이터셋, 그리고 keyframe-aware VLN 모델을 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

OpenFly는 항공 VLN 연구의 데이터 부족 문제를 획기적으로 해결한 종합 플랫폼으로, 다중 렌더링 엔진 통합, 완전 자동화 파이프라인, 100k 규모 벤치마크를 통해 embodied AI 분야에 중요한 기여를 한다. 제안된 keyframe-aware 모델도 항공 VLN의 특수성을 반영한 효과적인 접근법이다.

#51 2025.02 4/5

Re$^3$Sim: Generating High-Fidelity Simulation Data via 3D-Photorealistic Real-to-Sim for Robotic Manipulation

저자: Xiaoshen Han, Minghuan Liu, Yilun Chen, Junqiu Yu, Xiaoyang Lyu, Yang Tian, Bolun Wang, Weinan Zhang, Jiangmiao Pang | 날짜: 2025.02

Figure 1: Illustration of RE3SIM. a) RE3SIM allows zero-shot policy transfer on various tasks. b) The system pipeline to

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Illustration of RE3SIM. a) RE3SIM allows zero-shot policy transfer on various tasks. b) The system pipeline to* RE3SIM은 3D 재구성과 신경 렌더링 기술을 활용하여 실제 환경을 고충실도로 복제한 후, 물리 기반 시뮬레이터 내에서 로봇 조작 정책을 학습하는 real-to-sim-to-real 파이프라인이다. 순수 시뮬레이션 데이터만으로 평균 58% 이상의 성공률로 zero-shot sim-to-real 전이를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RE3SIM은 3D 재구성과 신경 렌더링을 효과적으로 결합하여 sim-to-real 갭을 크게 줄이는 실용적인 시스템으로, 최소한의 인간 개입으로 대규모 고품질 시뮬레이션 데이터를 생성할 수 있는 점에서 로봇 학습 분야에 중요한 기여를 한다.

#52 2025.05 4/5

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

저자: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg | 날짜: 2025.05

Figure 1: Real2Render2Real generating robot training data for the task of “Put the Mug on the Coffee Maker”.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Real2Render2Real generating robot training data for the task of “Put the Mug on the Coffee Maker”.* Real2Render2Real (R2R2R)은 스마트폰으로 촬영한 3D 객체 스캔과 단일 인간 시연 영상으로부터 동역학 시뮬레이션이나 로봇 하드웨어 없이 대규모 로봇 훈련 데이터를 생성하는 파이프라인이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

R2R2R은 동역학 시뮬레이션과 로봇 하드웨어라는 두 가지 주요 병목을 제거하여 스마트폰 입력만으로 대규모 로봇 훈련 데이터를 생성하는 획기적인 방법을 제시한다. 단일 인간 시연으로 150배 데이터의 성능을 달성한다는 실증적 결과와 VLA/모방 학습 호환성은 로봇 학습 확장의 실질적 경로를 제시하는 중요한 기여이다.

#53 2025.06 4/5

Revised identification of strain gradient elastic parameters

저자: Luca Placidi, Anil Misra, Gabriele La Valle, Casey Rodriguez | 날짜: 2025.06

Essence

granular micromechanics 프레임워크에서 strain gradient 탄성 매개변수 식별 시 grain-pair objective relative displacement의 오류를 수정하고, Christoffel symbols 형태의 수정된 항들이 strain energy 기여도와 식별된 elastic parameters를 어떻게 변경하는지 보여준다.

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 strain gradient elasticity의 미세역학적 식별에서 중요한 수학적 오류를 정확히 수정하고, Christoffel symbol 형태의 보정항을 엄밀히 도출하여 strain gradient elastic parameters의 신뢰성을 향상시킨다. 제한된 길이에도 불구하고 rigorous한 수학적 증명과 실용적 analytical expressions을 제공함으로써 나노재료 모델링의 정확성 강화에 기여한다.

#54 2025.02 4/5

VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion

저자: Shaoting Zhu, Linzhan Mou, Derun Li, Baijun Ye, Runhan Huang, Hang Zhao | 날짜: 2025.02

Fig. 1: Our VR-Robo introduces a unified real-to-sim-to-

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Our VR-Robo introduces a unified real-to-sim-to-* 3D Gaussian Splatting을 활용하여 실제 환경을 포토리얼리스틱한 디지털 트윈으로 재구성하고, 이를 시뮬레이션에 통합하여 RL 기반 시각 네비게이션 정책을 학습한 후 실제 로봇에 무영점 전이하는 Real-to-Sim-to-Real 프레임워크를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RGB 기반 시각 네비게이션과 로컬로모션의 sim-to-real 갭을 포토리얼리즘과 물리 상호작용의 결합으로 효과적으로 해결하며, 실제 로봇 배포에서의 무영점 전이를 달성한 실용적이고 창의적인 접근법이다.

Physics-Based Garment & Activity Simulation 13 ▶

#55 2025.05 4/5

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

저자: Lik Hang Kenny Wong, Xueyang Kang, Kaixin Bai, Jianwei Zhang | 날짜: 2025.05

Fig. 1. Timeline illustrating the evolution of navigation (top) and manipulation (bottom) research in Embodied AI from

Essence

![Figure 2](figures/fig2.webp) *Fig. 2. A taxonomy of this survey, focusing on two main tasks of Embodied AI: Navigation and Manipulation. We discuss th* 본 논문은 Embodied AI 시대에 로봇의 네비게이션과 조작 작업을 위한 Physics Simulator의 역할을 종합적으로 분석하고, sim-to-real 전이의 간극을 좁히기 위한 시뮬레이터 속성, 벤치마크, 평가 지표 및 최신 방법론을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 Embodied AI 시대의 navigation과 manipulation 연구를 포괄적으로 정리한 시의적절한 설문조사로, 현대적 simulator 기술과 최신 방법론(world model, geometric equivariance, VLA)을 체계적으로 분석하여 연구자들의 도구 선택과 방법론 설계에 실질적 가이드를 제공한다.

#56 2024.03 4/5

BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation

저자: Chengshu Li, Ruohan Zhang, Josiah Wong, Cem Gokmen, Sanjana Srivastava, Roberto Martín-Martín, Chen Wang, Gabrael Levine, Wensi Ai, Benjamin Martinez, Hang Yin, Michael Lingelbach, Minjune Hwang, Ayano Hiranaka, Sujay Garlanka, Arman Aydin, Sharon Lee, Jiankai Sun, Mona Anvari, Manasi Sharma, Dhruva Bansal, Samuel Hunter, Kyu-Young Kim, Alan Lou, Caleb R Matthews, Ivan Villa-Renteria, Jerry Huayang Tang, Claire Tang, Fei Xia, Yunzhu Li, Silvio Savarese, Hyowon Gweon, C. Karen Liu, Jiajun Wu, Li Fei-Fei | 날짜: 2024.03

Figure 1: Developing a Human-Centered Benchmark for Embodied AI. Left: human preference score over

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Developing a Human-Centered Benchmark for Embodied AI. Left: human preference score over* BEHAVIOR-1K는 1,461명의 일반인 조사를 통해 도출한 1,000개의 일상 활동을 정의하고, 이를 realistic physics simulation과 rendering을 지원하는 OMNIGIBSON 환경에서 실행할 수 있는 embodied AI 벤치마크이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

BEHAVIOR-1K는 human-grounded survey, 대규모 diverse activities, realistic physics simulation을 통합하여 embodied AI 연구의 새로운 표준을 제시한 획기적인 벤치마크이다. 실제 인간 필요에 기반한 설계와 unprecedented scale의 다양성은 로봇 학습 커뮤니티에 significant impact을 미칠 것으로 예상된다.

#57 2025.06 4/5

Dex1B: Learning with 1B Demonstrations for Dexterous Manipulation

저자: Jianglong Ye, Keyi Wang, Chengjing Yuan, Ruihan Yang, Yiquan Li, Jiyue Zhu, Yuzhe Qin, Xueyan Zou, Xiaolong Wang | 날짜: 2025.06

Fig. 1: The Dex1B benchmark consists of 1B generated high-quality demonstrations for grasping (top) and articulation (mi

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: The Dex1B benchmark consists of 1B generated high-quality demonstrations for grasping (top) and articulation (mi* 생성 모델과 최적화 방법을 결합하여 10억 개의 고품질 손가락 조작 시연을 생성한 Dex1B 데이터셋과 이를 활용하는 DexSimple 방법을 제시하여 손가락 조작 작업의 성능을 22% 향상시켰다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 생성 모델과 최적화를 결합하여 10억 개의 대규모 손가락 조작 시연 데이터셋을 체계적으로 구성하고, 이를 활용한 간단하면서도 효과적한 학습 방법으로 최고 성능을 달성한 중요한 기여이다. 데이터셋의 규모, 다양성, 품질 측면에서 혁신적이며 실제 로봇 실험을 통한 검증도 충분하다.

#58 2025.05 4/5

DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy

저자: Yuran Wang, Ruihai Wu, Yue Chen, Jiarui Wang, Jiaqi Liang, Ziyu Zhu, Haoran Geng, Jitendra Malik, Pieter Abbeel, Hao Dong | 날짜: 2025.05

Figure 1: Overview. DexGarmentLab includes three major components: Environment, Automated

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview. DexGarmentLab includes three major components: Environment, Automated* 의류 조작을 위한 첫 번째 양손 기민한 손가락 조작 환경 DexGarmentLab을 제시하고, 단일 전문가 시연으로부터 자동 데이터 생성 및 Hierarchical gArment-manipuLation pOlicy (HALO)를 통해 다양한 의류 형상과 변형에 대한 일반화를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DexGarmentLab은 양손 기민한 의류 조작이라는 도전적인 영역에서 첫 번째 종합적 환경과 알고리즘을 제시하며, 자동화된 데이터 수집과 HALO 정책을 통해 실질적인 일반화 성과를 달성한 매우 우수한 연구이다.

#59 2024.03 4/5

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

저자: Alexander Khazatsky, Karl Pertsch, Suraj Nair, Ashwin Balakrishna, Sudeep Dasari, Siddharth Karamcheti, Soroush Nasiriany, Mohan Kumar Srirama, Lawrence Yunliang Chen, Kirsty Ellis, Peter David Fagan, Joey Hejna, Masha Itkina, Marion Lepert, Yecheng Jason Ma, Patrick Tree Miller, Jimmy Wu, Suneel Belkhale, Shivin Dass, Huy Ha, Arhan Jain, Abraham Lee, Youngwoon Lee, Marius Memmel, Sungjae Park, Ilija Radosavovic, Kaiyuan Wang, Albert Zhan, Kevin Black, Cheng Chi, Kyle Beltran Hatch, Shan Lin, Jingpei Lu, Jean Mercat, Abdul Rehman, Pannag R Sanketi, Archit Sharma, Cody Simpson, Quan Vuong, Homer Rich Walke, Blake Wulfe, Ted Xiao, Jonathan Heewon Yang, Arefeh Yavary, Tony Z. Zhao, Christopher Agia, Rohan Baijal, Mateo Guaman Castro, Daphne Chen, Qiuyu Chen, Trinity Chung, Jaimyn Drake, Ethan Paul Foster, Jensen Gao, Vitor Guizilini, David Antonio Herrera, Minho Heo, Kyle Hsu, Jiaheng Hu, Muhammad Zubair Irshad, Donovon Jackson, Charlotte Le, Yunshuang Li, Kevin Lin, Roy Lin, Zehan Ma, Abhiram Maddukuri, Suvir Mirchandani, Daniel Morton, Tony Nguyen, Abigail O'Neill, Rosario Scalise, Derick Seale, Victor Son, Stephen Tian, Emi Tran, Andrew E. Wang, Yilin Wu, Annie Xie, Jingyun Yang, Patrick Yin, Yunchu Zhang, Osbert Bastani, Glen Berseth, Jeannette Bohg, Ken Goldberg, Abhinav Gupta, Abhishek Gupta, Dinesh Jayaraman, Joseph J Lim, Jitendra Malik, Roberto Martín-Martín, Subramanian Ramamoorthy, Dorsa Sadigh, Shuran Song, Jiajun Wu, Michael C. Yip, Yuke Zhu, Thomas Kollar, Sergey Levine, Chelsea Finn | 날짜: 2024.03

Fig. 1: We introduce DROID (Distributed Robot Interaction Dataset), an “in-the-wild” robot manipulation dataset with 76k

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: We introduce DROID (Distributed Robot Interaction Dataset), an “in-the-wild” robot manipulation dataset with 76k* DROID는 북미, 아시아, 유럽의 564개 장면과 86개 작업에서 수집한 76k개의 시연 궤적(350시간)을 포함하는 대규모 다양한 로봇 조작 데이터셋이며, 이를 통해 훈련한 정책이 높은 성능과 일반화 능력을 보인다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DROID는 로봇 조작의 대규모 분산 데이터 수집의 실질적 가치를 입증하고, in-the-wild 환경에서의 unprecedented 장면 다양성(564 scenes)과 지리적 다양성을 통해 로봇 정책의 일반화 능력을 크게 향상시키는 의미 있는 기여이다. 단일 하드웨어 스택 제약과 제한된 평가 실험은 아쉬우나, 오픈소스 공개와 명확한 기여로 로봇 학습 커뮤니티에 중대한 영향을 미칠 것으로 예상된다.

#60 2024.05 4/5

Evaluating Real-World Robot Manipulation Policies in Simulation

저자: Xuanlin Li, Kyle Hsu, Jiayuan Gu, Karl Pertsch, Oier Mees, Homer Rich Walke, Chuyuan Fu, Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, Sergey Levine, Jiajun Wu, Chelsea Finn, Hao Su, Quan Vuong, Ted Xiao | 날짜: 2024.05

Fig. 1:

Essence

![Figure 1](figures/fig1.webp) *Fig. 1:* 실제 로봇 데이터로 훈련한 조작 정책을 시뮬레이션 환경에서 평가하기 위해 SIMPLER라는 시뮬레이션 환경 모음을 제안하고, 제어 및 시각적 차이를 완화하여 실제 성능과 높은 상관관계를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

로봇 조작 정책 평가의 확장성과 재현성 문제를 실질적으로 해결하는 중요한 기여이며, 체계적인 실험과 오픈소스 공개를 통해 커뮤니티에 즉시 영향을 미칠 수 있는 실용적인 프레임워크를 제시한다.

#61 2021.06 4/5

Habitat 2.0: Training Home Assistants to Rearrange their Habitat

저자: Andrew Szot, Alex Clegg, Eric Undersander, Erik Wijmans, Yili Zhao, John Turner, Noah Maestre, Mustafa Mukadam, Devendra Chaplot, Oleksandr Maksymets, Aaron Gokaslan, Vladimir Vondrus, Sameer Dharur, Franziska Meier, Wojciech Galuba, Angel Chang, Zsolt Kira, Vladlen Koltun, Jitendra Malik, Manolis Savva, Dhruv Batra | 날짜: 2021.06

Figure 1: A mobile manipulator (Fetch robot) simulated in Habitat 2.0 performing rearrangement tasks in a

Essence

![Figure 1](figures/fig1.webp) *Figure 1: A mobile manipulator (Fetch robot) simulated in Habitat 2.0 performing rearrangement tasks in a* Habitat 2.0는 가정용 로봇의 물체 재배치 작업을 학습하기 위한 고성능 물리 시뮬레이션 플랫폼이며, ReplicaCAD 데이터셋, 최적화된 시뮬레이터, Home Assistant Benchmark를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Habitat 2.0은 embodied AI 연구를 위한 완전한 인프라(데이터, 시뮬레이터, 벤치마크)를 제공하며, 100배 성능 향상으로 대규모 실험을 가능하게 하고, RL vs SPA 비교를 통해 이동 조작 문제에 대한 실질적 통찰을 제시한다.

#62 2020.12 4/5

iGibson 1.0: a Simulation Environment for Interactive Tasks in Large Realistic Scenes

저자: Bokui Shen, Fei Xia, Chengshu Li, Roberto Martín-Martín, Linxi Fan, Guanzhi Wang, Claudia Pérez-D'Arpino, Shyamal Buch, Sanjana Srivastava, Lyne P. Tchapmi, Micael E. Tchapmi, Kent Vainio, Josiah Wong, Li Fei-Fei, Silvio Savarese | 날짜: 2020.12

Fig. 1: Robot performs an interactive task in iGibson 1.0. It operates

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Robot performs an interactive task in iGibson 1.0. It operates* iGibson 1.0은 15개의 완전히 상호작용 가능한 현실적 실내 장면(108개 방)을 포함하는 로봇 시뮬레이션 환경으로, 대규모 장면에서 조작과 네비게이션을 포함한 대화형 작업을 학습할 수 있게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

iGibson 1.0은 대규모 현실적 환경에서 완전한 물리 기반 상호작용을 지원하는 획기적인 로봇 시뮬레이션 플랫폼으로, 조작, 모바일 조작, 네비게이션 등 다양한 embodied AI 작업 연구를 가능하게 한다. 풍부한 도구 지원과 오픈소스 공개를 통해 로봇공학 커뮤니티에 큰 영향을 미칠 것으로 기대된다.

#63 2023.10 4/5

Learning Interactive Real-World Simulators

저자: Sherry Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie Kaelbling, Dale Schuurmans, Pieter Abbeel | 날짜: 2023.10

Figure 1: A universal simulator (UniSim). The simulator of the real-world learns from broad data with diverse

Essence

![Figure 1](figures/fig1.webp) *Figure 1: A universal simulator (UniSim). The simulator of the real-world learns from broad data with diverse* 인터넷 데이터로부터 학습된 generative model을 기반으로 인간, 로봇 등의 상호작용에 대한 시각적 결과를 시뮬레이션하는 universal simulator (UniSim)를 제안한다. 다양한 데이터셋을 통합하여 언어 지시, 로봇 제어, 인간 활동 등 다양한 모달리티의 행동을 입력받아 일관성 있는 비디오를 생성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 이질적인 다중 데이터셋을 unified 인터페이스로 통합하여 interactive real-world simulator를 구축한 의미 있는 작업으로, video diffusion model을 활용한 기술적 구현과 다양한 응용 가능성을 보여준다. 다만 현실성 검증의 정량성과 실제 로봇 환경에서의 광범위한 검증이 추가되면 더욱 강력한 기여가 될 수 있다.

#64 2023.11 4/5

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

저자: Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan | 날짜: 2023.11

Figure 1: 25 example tasks generated and corresponding skills learned by RoboGen. Readers are encouraged to visit our pr

Essence

![Figure 1](figures/fig1.webp) *Figure 1: 25 example tasks generated and corresponding skills learned by RoboGen. Readers are encouraged to visit our pr* RoboGen은 생성형 모델을 활용하여 로봇이 자동으로 다양한 작업, 장면, 학습 감독을 생성하고 이를 통해 규모 있는 로봇 기술 학습을 가능하게 하는 자동화 파이프라인이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RoboGen은 foundation 모델의 한계를 인식하면서도 그 강점을 창의적으로 활용하여 로봇 스킬 학습의 자동화와 규모 확대라는 의미 있는 문제를 해결한 논문이다. 완전 자동화된 파이프라인과 다양한 작업 생성이라는 성과는 주목할 만하나, 현실 환경으로의 적용 검증이 필요하다.

#65 2023.07 4/5

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning

저자: Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf | 날짜: 2023.07

Figure 1: SayPlan Overview (top). SayPlan operates across two stages to ensure scalability: (left)

Essence

![Figure 1](figures/fig1.webp) *Figure 1: SayPlan Overview (top). SayPlan operates across two stages to ensure scalability: (left)* SayPlan은 3D Scene Graph (3DSG) 표현을 활용하여 LLM 기반 대규모 로봇 태스크 계획을 확장 가능하게 만드는 접근법이다. 의미론적 검색, 고전적 경로 계획 통합, 반복 재계획 파이프라인을 통해 멀티룸, 멀티플로어 환경에서 실행 가능한 계획을 생성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

SayPlan은 3DSG의 계층적 구조를 영리하게 활용하여 멀티룸, 멀티플로어 대규모 환경에서 LLM 기반 로봇 계획의 확장성 문제를 실질적으로 해결한 강력한 연구이다. 의미론적 검색, 경로 계획 통합, 반복 재계획 조합으로 실행 가능하고 신뢰성 있는 계획을 보장하여 실제 로보틱스 응용 가능성을 입증한다.

#66 2023.11 4/5

Time-Transient Wireless RF Sensor with Differentiative Detecting Capability for Target Ionic Solution of Water and Dielectric Objects Introduced into Water

저자: Sobhan Gholami, EMre Unal, Hilmi Volkan Demir | 날짜: 2023.11

Essence

![Figure 2](figures/fig2.webp) *Fig. 2. Proposed sensor’s structure. W=65 mm, L=50 mm, d= 15.2 mm* 포셀린 용기 외부에 설치 가능한 마이크로스트립 기반 무선 RF 센서를 제안하며, 670-730 MHz 대역에서 작동하여 물의 이온 농도 변화와 고체 오염물을 동시에 감지할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

물 절약이라는 실제적 필요성을 해결하는 혁신적인 마이크로파 센서를 제시했으며, 두꺼운 포셀린 벽을 투과하는 외부 설치 가능한 무선 감지 방식은 기존 센서 연구에서 보지 못한 독창적 접근이다. 다만 다양한 용기 재질 적응성과 실제 환경에서의 장기 안정성 검증이 추가로 필요하다.

#67 2024.02 4/5

Towards Diverse Behaviors: A Benchmark for Imitation Learning with Human Demonstrations

저자: Xiaogang Jia, Denis Blessing, Xinkai Jiang, Moritz Reuss, Atalay Donat, Rudolf Lioutikov, Gerhard Neumann | 날짜: 2024.02

Essence

![Figure 3](figures/fig3.webp) *Figure 3: D3IL Visualizations. This figure provides an overview of various tasks and behaviors* 이 논문은 인간의 행동 다양성을 학습할 수 있는 imitation learning 알고리즘을 평가하기 위해 D3IL이라는 벤치마크 데이터셋과 환경을 제안하고, 다중 모드 행동의 다양성을 정량화하는 메트릭을 도입한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 imitation learning의 중요한 과제인 다양한 인간 행동 학습을 평가하기 위한 포괄적이고 잘 설계된 벤치마크를 제시하며, 실용적인 정량화 메트릭과 광범위한 실증 평가를 통해 향후 알고리즘 개발에 명확한 기준을 제공한다.

Articulated Object Part Estimation 26 ▶

#68 2022.06 4/5

Behavior Transformers: Cloning $k$ modes with one stone

저자: Nur Muhammad Mahi Shafiullah, Zichen Jeff Cui, Ariuntuya Altanzaya, Lerrel Pinto | 날짜: 2022.06

Figure 1: Unconditional rollouts from BeT models trained from multi-modal demonstartions on the CARLA,

Essence

![Figure 3](figures/fig3.webp) *Figure 3: Architecture of Behavior Transformer. (A) The continuous action binning using k-means algorithm* Behavior Transformer (BeT)는 transformer 아키텍처에 action discretization과 multi-task action correction을 결합하여 unlabeled demonstration data에서 multi-modal continuous actions를 학습하는 기법이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

BeT는 transformer의 강점과 action discretization을 창의적으로 결합하여 multi-modal behavior learning의 중요한 문제를 우아하게 해결한다. 광범위한 실험과 ablation study로 방법의 효과성을 충분히 입증했으며, behavior cloning 분야에 의미 있는 기여를 한다.

#69 2022.10 4/5

CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory

저자: Nur Muhammad Mahi Shafiullah, Chris Paxton, Lerrel Pinto, Soumith Chintala, Arthur Szlam | 날짜: 2022.10

Fig. 1: Our approach, CLIP-Fields, integrates multiple views of a

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Our approach, CLIP-Fields, integrates multiple views of a* CLIP-Fields는 공간 좌표를 CLIP, Detic, Sentence-BERT 등 웹 사전학습 모델의 의미론적 임베딩으로 매핑하는 암묵적 신경 필드로, 직접 인간 감독 없이 로봇의 3D 의미론적 메모리로 작동한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

CLIP-Fields는 웹 사전학습 모델을 활용한 약한 감독 학습으로 인간 주석을 완전히 제거하면서도 개방 어휘 기반 3D 의미론적 메모리를 구축하는 혁신적 접근법이다. 로봇 응용의 실용성과 적은 데이터로도 우수한 성능을 보여주는 점에서 매우 중요한 기여이나, 실제 로봇 환경에서의 대규모 평가 및 동적 장면 처리는 향후 과제이다.

#70 2023.09 4/5

Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs

저자: Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias | 날짜: 2023.09

Figure 1: This is an illustration of the proposed pipeline. The system inputs are the positional input Pu, user input Lu

Essence

![Figure 1](figures/fig1.webp) *Figure 1: This is an illustration of the proposed pipeline. The system inputs are the positional input Pu, user input Lu* Open-Vocabulary 3D Scene Graph (OVSG)는 자유형식 텍스트 쿼리를 통해 객체, 에이전트, 영역 등 다양한 엔티티를 문맥 인식적으로 localize하는 프레임워크이다. 기존의 고정된 시맨틱 레이블 기반 방식과 달리, 미리 정의되지 않은 카테고리와 관계도 처리할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

OVSG는 open-vocabulary 능력을 3D scene graph에 통합하여 로봇이 자연스러운 문맥 기반 지시를 이해할 수 있도록 한 의미 있는 기여이다. 실제 로봇 실험과 새로운 데이터셋을 통해 실용성을 입증했으나, scene reconstruction 정확도와 확장성 측면에서 개선의 여지가 있다.

#71 2022.03 4/5

CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object Navigation

저자: Samir Yitzhak Gadre, Mitchell Wortsman, Gabriel Ilharco, Ludwig Schmidt, Shuran Song | 날짜: 2022.03

Figure 1. The PASTURE benchmark for L-ZSON. Text speci-

Essence

![Figure 2](figures/fig2.webp) *Figure 2. CLIP on Wheels (CoW) overview. A CoW uses a* 로봇이 자연언어 설명만으로 임의의 물체를 찾을 수 있도록 CLIP 기반의 학습 없는 네비게이션 방법 CoW를 제안하고, 이를 평가하기 위한 Pasture 벤치마크를 소개한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 현실적인 로봇 응용을 위해 학습 없는 언어 기반 객체 네비게이션을 체계적으로 연구하며, 새로운 벤치마크와 광범위한 실증 분석을 통해 open-vocabulary 모델의 네비게이션 적응 가능성을 명확히 보여준다. 베이스라인의 단순성과 강력한 성능, 그리고 종합적인 평가 프레임워크는 향후 연구의 중요한 기준을 제시한다.

#72 2025.02 4/5

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

저자: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Zhang Chen, Tianrui Guan, Fanlian Zeng, Ka Num Lui, Yuyao Ye, Yitao Liang, Yaodong Yang, Yuanpei Chen | 날짜: 2025.02

Figure 1: We propose DexGraspVLA, a hierarchical VLA

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Overview of DexGraspVLA. A pre-trained VLM-based high-level planner (purple) decomposes prompts into object-* DexGraspVLA는 Vision-Language model을 고수준 계획자로, diffusion 기반 저수준 행동 컨트롤러를 학습하는 계층적 VLA 프레임워크로, foundation model을 통해 언어·시각 입력을 도메인 불변 표현으로 변환하여 모방 학습의 일반화를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DexGraspVLA는 foundation model과 imitation learning의 상보적 강점을 계층적으로 통합하여 cluttered real-world scenario에서 unprecedented 90+% 일반화 성능을 달성한 의미 있는 기여이며, 장기 task, adversarial robustness, failure recovery를 동시 달성함으로써 실용적 dexterous grasping 로봇의 실현 가능성을 크게 높였다.

저자: Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang | 날짜: 2023.03

Essence

![Figure 3](figures/fig3.webp) *Fig. 3: The framework of Grounding DINO. We present the overall framework, a feature* Grounding DINO는 Transformer 기반 detector DINO와 grounded pre-training을 결합하여 언어 입력(카테고리명 또는 referring expressions)으로 임의의 객체를 탐지하는 open-set object detector를 제시한다. 핵심은 언어와 비전 모달리티를 세 단계(feature enhancer, language-guided query selection, cross-modality decoder)에서 긴밀히 융합하는 것이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Grounding DINO는 Transformer 기반 detector의 structural advantage를 활용하여 세 단계 모두에서 tight language-vision fusion을 구현함으로써, open-set object detection의 새로운 SOTA를 수립했다. 포괄적인 벤치마크 평가와 실용적 응용 사례를 통해 높은 연구 가치를 입증한다.

#77 2020.04 4/5

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

저자: Arjun Majumdar, Ayush Shrivastava, Stefan Lee, Peter Anderson, Devi Parikh, Dhruv Batra | 날짜: 2020.04

Fig. 1. We propose a compatibility model (right) for path selection in vision-and-

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. We propose a compatibility model (right) for path selection in vision-and-* 웹에서 수집한 대규모 이미지-텍스트 쌍으로 사전학습한 VLN-BERT 모델을 제안하여, 시각-언어 네비게이션 작업에서 객체 참조의 시각적 기초(grounding)를 개선한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

웹 규모의 비정체화된 시각-언어 데이터를 embodied 네비게이션에 효과적으로 활용하는 실질적인 방법을 제안하며, 명확한 성능 개선과 체계적인 ablation study를 통해 학습 커리큘럼의 가치를 입증한 견고한 연구이다.

#78 2023.04 4/5

L3MVN: Leveraging Large Language Models for Visual Target Navigation

저자: Bangguo Yu, Hamidreza Kasaei, Ming Cao | 날짜: 2023.04

Fig. 1: Visual target navigation example. The robot explores

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: The architecture of the target navigation framework. The framework takes RGB-D images as input to generate a* 대형 언어모델(LLM)을 활용하여 의미적 맵과 프론티어 선택을 통해 미지의 환경에서 시각적 목표 항법을 수행하는 프레임워크를 제안한다. Zero-shot과 feed-forward 두 가지 패러다임으로 상식적 추론을 이용한 효율적 탐색을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LLM의 상식적 지식을 의미적 탐색에 활용하는 창의적인 접근으로 학습 비용을 크게 절감하면서도 우수한 일반화 성능을 달성했다. Zero-shot 학습 능력과 실제 로봇 실험을 통해 실용성을 입증한 의미 있는 연구이나, 실시간 성능과 다양한 환경에서의 확장성 검증이 필요하다.

저자: Siyuan Huang, Iaroslav Ponomarenko, Zhengkai Jiang, Xiaoqi Li, Xiaobin Hu, Peng Gao, Hongsheng Li, Hao Dong | 날짜: 2024.03

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Overview of ManipVQA: We created a comprehensive vision-language dataset by merging existing datasets and* ManipVQA는 Multi-Modal Large Language Model (MLLM)에 로봇 조작 작업을 위한 affordance 인식과 물리적 개념 이해를 주입하는 프레임워크이다. Visual Question-Answering 형식의 통합 데이터셋과 fine-tuning 전략을 통해 로봇 조작 성능을 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ManipVQA는 MLLM을 로봇 조작 작업에 적응시키기 위한 포괄적이고 창의적인 접근법을 제시하며, unified VQA format과 통합된 robotic dataset을 통해 affordance 이해와 물리적 추론 능력을 효과적으로 주입한다. 코드와 데이터셋 공개를 통해 연구 커뮤니티에 의미 있는 기여를 하지만, 실제 로봇에서의 검증과 더 광범위한 도메인으로의 확장이 필요하다.

#83 2025.04 4/5

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision

저자: Xiaofeng Han, Shunpeng Chen, Zenghuang Fu, Zhe Feng, Lue Fan, Dong An, Changwei Wang, Li Guo, Weiliang Meng, Xiaopeng Zhang, Rongtao Xu, Shibiao Xu | 날짜: 2025.04

Figure 1: The overview figure illustrates the overall framework of multimodal fusion and VLMs for robot vision. Various

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The overview figure illustrates the overall framework of multimodal fusion and VLMs for robot vision. Various * 로봇 비전을 위한 멀티모달 융합 기법과 Vision-Language Model(VLM)의 응용을 체계적으로 리뷰하며, encoder-decoder, attention, graph neural network 등의 융합 전략과 SLAM, 3D 객체 감지, 네비게이션, 조작 등 핵심 로봇 태스크에서의 실제 구현을 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 리뷰는 로봇 비전 분야에서 멀티모달 융합과 VLM의 응용을 가장 포괄적으로 다룬 첫 번째 종합 리뷰로서, 5개 핵심 로봇 태스크, cross-modal self-supervised learning, lightweight fusion 등을 체계적으로 분석하고 명확한 미래 방향을 제시하여 향후 로봇 비전 연구의 중요한 참고 자료가 될 수 있다.

#84 2022.03 4/5

R3M: A Universal Visual Representation for Robot Manipulation

저자: Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta | 날짜: 2022.03

Figure 1: Pre-Training Reusable Representations for Robot Manipulation (R3M): We pre-train a visual

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Pre-Training Reusable Representations for Robot Manipulation (R3M): We pre-train a visual* Ego4D 인간 비디오 데이터셋에서 pre-train한 R3M 시각 표현을 제안하여, 로봇 조작 작업의 data-efficient 학습을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

R3M은 인간 비디오 pre-training을 통해 로봇 조작의 data-efficient 학습을 달성한 중요한 실증 연구로, 실제로 다운로드 가능한 artifact를 제공함으로써 로봇 학습 커뮤니티의 standard tool 역할 가능성이 높다. 다만 실제 로봇 검증의 확장성과 표현 해석가능성 개선이 향후 과제이다.

#85 2025.02 4/5

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

저자: Yuheng Ji, Huajie Tan, Jiayu Shi, Xiaoshuai Hao, Yuan Zhang, Hengyuan Zhang, Pengwei Wang, Mengdi Zhao, Yao Mu, Pengju An, Xinda Xue, Qinghang Su, Huaihai Lyu, Xiaolong Zheng, Jiaming Liu, Zhongyuan Wang, Shanghang Zhang | 날짜: 2025.02

Figure 1. Overview of RoboBrain. RoboBrain consists of three key robotic capabilities: planning capability, affordance p

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Overview of RoboBrain. RoboBrain consists of three key robotic capabilities: planning capability, affordance p* RoboBrain은 로봇 조작을 위해 Planning Capability, Affordance Perception, Trajectory Prediction의 세 가지 핵심 능력을 갖춘 통합 MLLM 모델이며, 이를 학습하기 위해 ShareRobot이라는 대규모 고품질 이질 데이터셋을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RoboBrain은 로봇 조작을 위한 세 가지 핵심 능력을 체계적으로 정의하고 이를 통합한 MLLM과 고품질 데이터셋을 함께 제시하여, 로봇 AI의 구체적 실행 능력 향상에 의미 있는 기여를 한다.

#86 2024.06 4/5

RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics

저자: Wentao Yuan, Jiafei Duan, Valts Blukis, Wilbert Pumacay, Ranjay Krishna, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox | 날짜: 2024.06

Figure 1: ROBOPOINT is a Vision-Language Model that predicts affordance points based on language

Essence

![Figure 1](figures/fig1.webp) *Figure 1: ROBOPOINT is a Vision-Language Model that predicts affordance points based on language* RoboPoint는 언어 지시를 받아 로봇의 정확한 행동 지점(affordance keypoint)을 예측하는 Vision-Language Model로, 자동 합성 데이터 생성 파이프라인을 통해 실제 데이터 수집 없이 학습된다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RoboPoint는 자동화된 합성 데이터 파이프라인과 점 기반 행동 공간을 결합하여 대규모 실제 데이터 수집 없이도 로봇 공간 추론을 크게 향상시킨 혁신적인 접근법이며, 조작, 네비게이션, AR 등 다양한 응용 분야의 확장성이 높지만 실제 로봇 시스템에서의 검증 강화가 필요하다.

#87 2024.09 4/5

SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation

저자: Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu | 날짜: 2024.09

Fig. 1.

Essence

![Figure 2](figures/fig2.webp) *Fig. 2.* 본 논문은 Vision-Language Model(VLM)을 활용한 State-aware Keypoint Trajectories(SKT)를 제안하여 다양한 의류 상태에서 로봇의 의류 조작 성능을 향상시킨다. 합성 데이터셋을 통해 단일 모델로 여러 의류 유형을 처리할 수 있는 통합 접근법을 구현한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 VLM을 의류 조작에 창의적으로 적용하여 단일 모델로 다양한 의류 상태를 처리하는 혁신적 접근법을 제시한다. 합성 데이터 활용과 reasoning 기반 설계로 확장성과 적응성을 크게 개선하여 assistive robotics 분야에 중요한 기여를 한다.

#88 2025.01 4/5

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

저자: Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li | 날짜: 2025.01

Fig. 1: We present SpatialVLA, a spatial-enhanced vision-language-action model that is trained on 1.1 Million real robot

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Overview of SpatialVLA. Given an image observation ot and a task instruction L, the model processes the image* 로봇 조작을 위한 3D 공간 이해를 강화한 VLA 모델 SpatialVLA를 제안하며, Ego3D Position Encoding과 Adaptive Action Grids를 통해 이질적인 로봇 간 일반화 가능한 공간 표현을 학습한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 VLA 모델에 체계적인 3D 공간 이해를 도입하고 이질적 로봇 간 일반화를 달성한 중요한 기여를 제시하며, 광범위한 실험을 통해 제안 방법의 효과를 입증했으나, 카메라 의존성과 이산화 해상도 제약 등의 한계가 존재한다.

저자: Haoran Jiang, Jin Chen, Qingwen Bu, Li Chen, Modi Shi, Yanjie Zhang, Delong Li, Chuanzhe Suo, Chuang Wang, Zhihui Peng, Hongyang Li | 날짜: 2025.12

Figure 1: Introducing WholeBodyVLA, a humanoid system that operates on Agibot X2 robot and

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Introducing WholeBodyVLA, a humanoid system that operates on Agibot X2 robot and* WholeBodyVLA는 Vision-Language-Action 프레임워크로 humanoid 로봇의 대규모 공간에서 end-to-end 전신 조작-이동(loco-manipulation) 제어를 가능하게 한다. Unified latent learning으로 저비용 영상에서 학습하고 LMO RL policy로 정확한 이동 실행을 보장한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

WholeBodyVLA는 humanoid loco-manipulation의 오랜 과제를 action-free 영상 학습과 맞춤형 RL policy로 창의적으로 해결한 강력한 기여이다. 실제 로봇에서의 입증과 21.3% 성능 향상이 실질적 가치를 증명하나, 단일 플랫폼 검증과 이산 명령 제약은 향후 개선 대상이다.

Digital Twin Robot Simulation 8 ▶

#94 2025.10 4/5

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

저자: Suhwan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee | 날짜: 2025.10

Figure 1: Overview of D2E framework. (1) The OWA Toolkit captures 335.6 hours of rich desktop demon-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of D2E framework. (1) The OWA Toolkit captures 335.6 hours of rich desktop demon-* D2E는 데스크톱 환경(게임 등)에서 수집한 대규모 비전-액션 데이터를 사전학습 자료로 사용하여 로봇 조작 및 네비게이션 같은 구체화된 AI 작업으로 전이 학습하는 프레임워크를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

D2E는 데스크톱 환경을 구체화 AI의 실질적 사전학습 자료로 확립하는 종합 프레임워크를 제시하며, 공개 자료와 효율적 도구(OWA, Generalist-IDM, VAPT)를 통해 재현성과 실용성을 담보한다. 데이터 수집 비용 대비 로봇 성능의 우수한 달성은 AI 구체화 연구의 확장성 문제에 획기적 해결책을 제공한다.

저자: Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna | 날짜: 2024.06

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Manipulate Anything Framework. The process begins by inputting a scene representation* Vision-Language Model을 활용하여 실제 로봇 환경에서 특권 정보나 사전 설계된 스킬 없이 자동으로 로봇 조작 시연 데이터를 생성하는 Manipulate-Anything 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Manipulate-Anything은 VLM의 상식적 지식을 체계적으로 활용하여 실제 로봇 환경에서 확장 가능한 자동 데이터 생성을 달성한 혁신적인 프레임워크이며, 생성된 데이터가 인간 시연보다 우수한 정책을 학습시킬 수 있다는 놀라운 결과는 로봇 학습의 미래를 큰 변화시킬 수 있는 잠재력을 시사한다.

#99 2025.06 4/5

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

저자: Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Zixuan Li, Qiwei Liang, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu | 날짜: 2025.06

Figure 1: Overview of RoboTwin 2.0. RoboTwin 2.0 is a scalable framework for bimanual manipu-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of RoboTwin 2.0. RoboTwin 2.0 is a scalable framework for bimanual manipu-* RoboTwin 2.0는 MLLM 기반 자동 코드 생성과 시뮬레이션 인루프 피드백을 활용하여 대규모 이원팔 조작 데이터를 생성하는 확장 가능한 프레임워크이며, 구조화된 domain randomization을 통해 sim-to-real 전이를 크게 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RoboTwin 2.0는 MLLM 기반 자동 코드 생성, 폐루프 피드백, 다축 domain randomization, 체구 특화 적응을 결합하여 이원팔 조작 연구의 중요한 기반을 제공하며, 367% sim-to-real 개선과 공개 자산/코드로 높은 실용성을 보여준다.

#100 2024.09 4/5

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)

저자: Yao Mu, Tianxing Chen, Shijia Peng, Zanxin Chen, Zeyu Gao, Yude Zou, Lunkai Lin, Zhiqiang Xie, Ping Luo | 날짜: 2024.09

Fig. 1: RoboTwin Benchmark.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: RoboTwin Benchmark.* RoboTwin은 3D generative foundation model과 LLM을 활용한 generative digital twin 프레임워크로, 2D 이미지로부터 다양한 3D 객체 모델을 생성하고 dual-arm 로봇 작업을 위한 synthetic 데이터셋과 real-world-aligned 벤치마크를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

RoboTwin은 AIGC와 LLM을 창의적으로 결합하여 dual-arm 로봇 학습을 위한 scalable data generation과 evaluation 프레임워크를 제시한 의미 있는 연구이다. 단일 이미지에서 digital twin을 생성하는 cost-effective 방식과 40-70% 성능 향상은 실용적 가치가 높으나, early version 단계에서 dataset 규모, 다양한 플랫폼 검증, LLM reliability에 대한 추가 연구가 필요하다.

#101 2023.04 4/5

Visual Instruction Tuning

저자: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee | 날짜: 2023.04

Essence

언어 전용 GPT-4를 활용하여 다중모달 시각-언어 명령어 추종 데이터를 생성하고, 이를 통해 vision encoder와 LLM을 연결한 end-to-end 다중모달 모델 LLaVA를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 다중모달 명령어 튜닝이라는 미개척 영역에 처음으로 체계적으로 접근하였으며, GPT-4를 활용한 효율적인 데이터 생성 방법과 end-to-end 다중모달 모델 학습을 통해 뛰어난 성능을 달성했다. 오픈소스 공개와 함께 시각-언어 이해의 일반 목적 어시스턴트 개발에 중요한 기초를 마련한 영향력 있는 연구이다.

Parallel GPU Robot Simulation 8 ▶

저자: Yunchao Ma, Yizhuang Zhou, Yunhuan Yang, Tiancai Wang, Haoqiang Fan | 날짜: 2025.10

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Breakdown of the model running time. From a plain* π0 레벨의 multi-view VLA를 단일 소비자 GPU에서 30Hz 프레임 레이트로 실행하기 위해 모델 추론 오버헤드를 제거하는 최적화 기법들을 제시하고, 실시간 로봇 제어를 위한 Full Streaming Inference 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 VLA의 실시간 실행이 불가능하다는 기존 인식을 깨고, 체계적인 엔지니어링 기법들을 통해 30Hz 실시간 처리를 달성함으로써 로봇 제어의 새로운 가능성을 제시한다. 단순하지만 효과적인 최적화 기법들과 Full Streaming Inference 프레임워크는 실용적 가치가 높으며, 구체적인 코드 공개는 재현성을 보장한다.

#109 2025.09 4/5

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

저자: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding | 날짜: 2025.09

Figure 1 | Overview of SimpleVLA-RL. SimpleVLA-RL is an efficient RL framework for VLA that im-

Essence

![Figure 1](figures/fig1.webp) *Figure 1 | Overview of SimpleVLA-RL. SimpleVLA-RL is an efficient RL framework for VLA that im-* SimpleVLA-RL은 Vision-Language-Action 모델의 학습을 강화학습(RL)을 통해 확장하는 효율적인 프레임워크로, 데이터 부족 문제를 해결하고 실제 로봇 작업에서 SFT를 능가하는 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

SimpleVLA-RL은 RL을 VLA 학습에 효과적으로 적용하여 데이터 부족 문제를 해결하고 실제 로봇 성능을 향상시킨 중요한 기여이며, "pushcut" 현상의 발견은 새로운 연구 방향을 제시한다. 다만 계산 비용과 실제 환경 검증의 확대가 향후 과제이다.

LLM-Augmented Embodied Agent Frameworks 196편 ▶

LLM-Augmented Embodied Agent Frameworks Timeline

Category Overview

# LLM-Augmented Embodied Agent Frameworks LLM 증강 구현화 에이전트 프레임워크(LLM-Augmented Embodied Agent Frameworks)는 대규모 언어모델(Large Language Model)과 물리적 환경에서 작동하는 로봇 및 AI 에이전트를 통합하는 차세대 기술 분야이다. 이 카테고리는 언어 이해 능력을 활용하여 복잡한 다중 작업(multi-task) 수행, 장기 지평 계획(long-horizon planning), 그리고 새로운 작업 학습을 가능하게 하는 통합 시스템을 다룬다. 세계 모델(World Model)과 시각-언어-행동 정책(Vision-Language-Action Policy, VLA)의 결합을 통해 에이전트는 환경을 동적으로 이해하고 상황에 맞는 행동을 생성할 수 있다[1305, 1445]. 특히 마인크래프트와 같은 복잡한 시뮬레이션 환경에서의 언어 기반 네비게이션(language-guided navigation)과 생성형 세계 모델(generative world model)은 에이전트의 추론 및 계획 능력을 강화한다[1303, 1400, 1359]. 강화학습 기반 미세조정(reinforcement fine-tuning)과 선호도 기반 학습(preference-based learning)은 기초 모델(foundation model)의 성능을 실제 로봇 작업에 맞게 최적화하는 핵심 기술이다[1338, 1418, 1380]. 이 분야의 연구들은 일반화 가능한 다목적 에이전트(generalist agent) 개발과 지속적 기술 연쇄 학습(lifelong skill chaining)을 목표로 하며, 시뮬레이션 데이터 생성과 실세계 적용 간의 격차를 줄이는 데 중점을 두고 있다[1294, 1321, 1408, 1452].

Language-Guided Minecraft Agent Systems: 언어 기반 마인크래프트 에이전트 시스템(Language-Guided Minecraft Agent Systems)은 대규모 언어모델(Large Language Model, LLM)을 활용하여 자율 에이전트가 마인크래프트 환경에서 복잡한 작업을 수행하도록 하는 기술이다. [1442], [1482]와 같은 연구들은 메모리 증강(Memory-Augmented) 기술과 멀티모달(Multi-modal) 처리를 통해 에이전트가 장시간의 작업을 계획하고 실행할 수 있도록 한다. [1353], [1460]의 논문들은 자연언어를 통한 태스크 및 모션 플래닝(Task and Motion Planning) 기능을 제시하며, 에이전트가 인터랙티브한 계획 수립(Interactive Planning)을 통해 환경과 상호작용한다. [1561], [1459]는 3D 장면 그래프(3D Scene Graph)와 상태 표현(State Representation)을 활용하여 개방형 환경(Open World)에서 장기 지평 작업을 수행하는 방법을 제안한다. 이러한 시스템들은 자연언어 지시사항(Language-Guided Instructions)을 구체적인 행동 계획으로 변환하여 복잡한 멀티태스킹(Multi-task) 환경에서의 에이전트 자율성을 향상시킨다.
Embodied AI & World Model Survey: 신체화된 인공지능(Embodied AI)과 세계 모델(World Model)에 대한 최근 연구 동향을 다루는 본 서브카테고리는 대규모 언어모델(Large Language Model, LLM)이 구체적인 물리적 환경에서의 의사결정과 행동을 어떻게 향상시키는지를 종합적으로 분석한다. [1303], [1445]와 같은 논문들은 LLM이 네비게이션(navigation), 지시 따르기(instruction following), 행동 계획(action planning) 등의 구체적 작업에서 어떻게 적용되는지 보여준다. [1596], [9092]에서 강조하는 비전-언어-행동(Vision-Language-Action, VLA) 통합 프레임워크는 시각적 인식, 언어 이해, 실제 행동 실행을 함께 아우르는 통합적 접근 방식의 중요성을 부각한다. [1478], [1492], [1509]와 같은 연구들은 신경과학에서 영감을 받은 프레임워크부터 사이버-물리 공간 정렬(cyber-physical space alignment)에 이르기까지 다양한 혁신적 방법론을 제시하고 있다. 이러한 연구들은 체화된 지능이 단순한 알고리즘적 계산을 넘어 실제 환경과의 상호작용을 통해 구현되어야 한다는 인식을 반영하고 있다.
World Model-Guided VLA Policy Learning: World Model-Guided VLA Policy Learning은 시각-언어-행동(VLA, Vision-Language-Action) 모델의 정책 학습을 세계 모델(world model)의 지도 하에 수행하는 프레임워크입니다. 이 접근 방식은 환경의 동역학(dynamics)을 사전에 학습한 세계 모델을 활용하여 VLA 에이전트가 더욱 효율적이고 일반화된 정책을 획득하도록 돕습니다[1631]. 확산 모델(diffusion model)과 자기회귀(autoregressive) 방식을 결합한 하이브리드 접근법[1429]부터 강화 학습 기반의 미세조정(reinforcement fine-tuning)[1619]까지 다양한 기법들이 제안되고 있습니다. 이러한 방법들은 복잡한 다중 도메인(multi-domain) 환경에서 일반화 성능을 향상시키며[1472], 시각적 세부정보(visual details)의 중요성을 강조하면서 현실적인 에이전트 제어 성능을 개선합니다[1359]. 결과적으로 World Model-Guided VLA Policy Learning은 구체화된 AI 에이전트(embodied AI agent)의 강화 학습과 정책 최적화를 위한 핵심적인 기술 방향을 제시합니다.
Lifelong Skill Chaining with LLMs: # Lifelong Skill Chaining with LLMs 본 서브카테고리는 대규모 언어모델(Large Language Models, LLMs)을 활용하여 로봇이 지속적으로 새로운 기술(skill)을 습득하고 이를 연쇄적으로 결합하여 복잡한 작업을 해결하는 프레임워크를 다룬다. 기존의 강화학습(Reinforcement Learning, RL) 기반 접근과 달리 LLMs의 언어 이해 능력을 활용하여 작업 분해(task decomposition), 보상 설계(reward shaping), 그리고 정책 학습(policy learning)을 통합적으로 수행한다. [1516]에서 제시된 언어모델 기반 강화학습(Language Model Guided RL)과 [1583]의 텍스트 기반 보상 생성(Text2Reward) 방식은 자연언어를 통해 인간의 의도를 효과적으로 로봇에 전달하며, [1623]의 오픈엔디드 에이전트(Open-Ended Embodied Agent) 구현은 장기적 학습(Lifelong Learning)의 실현성을 보여준다. 이러한 접근들은 벤치마크 데이터셋 [1457]과 [1322]를 통해 검증되며, 스케일러블한 사전학습(Scalable Pre-Training) [1578]과 자가부스트래핑(Bootstrap) [1321] 방식으로 지속 가능한 기술 축적을 가능하게 한다.
Generalist Agent Pretraining at Scale: 대규모 사전학습을 통한 범용 에이전트(Generalist Agent) 개발은 LLM 기반 embodied agent의 핵심 연구 분야입니다. [1294]에서는 다양한 로봇 작업을 통합 학습하는 범용 에이전트 아키텍처를 제시하여, 단일 모델이 여러 도메인의 작업을 수행할 수 있음을 보여주었습니다. [1418]은 대규모 언어 모델을 활용한 강화학습 사전학습 과정에서 효과적인 지도 신호를 제공하는 방법론을 제안하여, 에이전트의 학습 효율성을 크게 향상시켰습니다. [1477]의 MineDojo는 인터넷 규모의 데이터셋을 활용하여 마인크래프트 환경에서 개방형 목표를 수행하는 에이전트를 학습하는 프레임워크를 구축했습니다. [1586]은 대규모 언어 모델을 기반으로 사용자의 개인화된 선호도를 반영하는 로봇 어시스턴트를 개발하여, 실제 환경에서의 실용성을 입증했습니다.
Reinforcement Fine-Tuning for Foundation Models: 기초 모델(Foundation Models)의 강화학습 기반 미세조정(Reinforcement Fine-Tuning)은 구체화된 에이전트(Embodied Agent)를 위한 LLM 증강 프레임워크의 핵심 기술이다. 이 접근법은 로봇이 실제 환경에서 상호작용하며 얻은 피드백을 통해 대규모 언어모델(LLM)을 지속적으로 개선하는 프로세스를 의미한다. [1380]과 [1389]의 연구들은 로봇의 추론 능력을 강화하고 탐색 전략(Exploration Strategy)을 최적화하기 위해 강화학습 신호를 활용하는 방법을 제시하고 있다. [1416]과 [1621]의 논문들은 인터랙티브 환경(Interactive Environment)에서 언어모델을 그라운딩(Grounding)하고 대규모 벤치마크를 통해 성능을 평가하는 체계적인 방법론을 제공한다. 이러한 미세조정 기법들은 로봇이 자연언어 지시를 정확하게 이해하고 실제 환경에서 효과적으로 실행할 수 있도록 강화한다.
LLM-Driven Simulation Data Generation: LLM-Driven Simulation Data Generation은 대규모 언어 모델(Large Language Model, LLM)을 활용하여 로봇 및 자율주행 분야에서 필요한 시뮬레이션 데이터를 자동으로 생성하는 기술입니다. [1400]의 GAIA-1과 [1408]의 GenSim은 LLM이 자연어 지시사항을 이해하고 이를 시뮬레이션 환경의 구체적인 태스크와 시나리오로 변환하는 방식을 제시합니다. [1452]와 [1540]의 RoboGen은 이러한 생성된 데이터를 통해 로봇이 실제 환경에서 수행할 수 있는 다양한 작업을 학습하도록 하며, 무한에 가까운 학습 데이터의 자동 생성을 가능하게 합니다. 이러한 접근 방식은 전통적인 수동 데이터 수집의 비용과 시간을 절감하면서도, embodied agent가 더욱 다양하고 복잡한 환경에 적응할 수 있도록 합니다. LLM-Driven Simulation Data Generation은 로봇 학습(Robot Learning)과 자율주행 시스템의 성능 향상을 위한 핵심 기술로 주목받고 있습니다.
Preference-Based Long-Horizon Planning: # Preference-Based Long-Horizon Planning (2편) Preference-Based Long-Horizon Planning은 대규모 언어 모델(Large Language Models, LLM)을 활용하여 구체화된 에이전트(Embodied Agent)가 장기 계획(Long-Horizon Planning)을 수립하는 과정에서 사용자의 선호도(Preference)를 반영하는 기술 영역입니다. [1474]의 Multi-Scale Embodied Memory는 다양한 시간 스케일의 메모리 구조를 통해 에이전트가 시각-언어-행동(Vision-Language-Action) 정보를 통합하여 더욱 정교한 장기 계획을 수립할 수 있도록 지원합니다. [1579]의 State-Maintaining Language Models는 에이전트가 환경의 상태 변화를 동적으로 추적하면서 현실적인 추론(Embodied Reasoning)을 수행할 수 있게 함으로써 선호도 기반 계획의 실행 가능성을 높입니다. 이러한 접근 방식들은 [1474]와 [1579]를 통해 메모리 관리와 상태 유지라는 두 가지 핵심 메커니즘으로 장기적인 목표 달성을 추구합니다. 이는 로봇 네비게이션, 일상 작업 수행, 대화형 에이전트 등 다양한 실세계 응용(Real-World Applications)에 필수적인 기술입니다.

📌 핵심: LLM/VLM 기반 계층적 에이전트 프레임워크가 장기 지평 작업(long-horizon task)에서 기존 단일 정책 대비 압도적 성능 우위를 보이며, 오픈월드 환경 적응 능력이 급격히 향상되고 있다.
⚠ 갭: LLM 기반 로봇의 편향성·jailbreak 취약점에 대한 체계적 방어 연구 및 실제 배포 안전성 검증 방법론이 심각하게 부족하다.
🏛 정책: LLM 기반 로봇 에이전트의 실사회 배포 전 의무적 안전성 평가 프로토콜 수립과 편향성 감사 제도화가 필요하다.

Reinforcement Fine-Tuning for Foundation Models 12 ▶

#110 2024.10 5/5

Jailbreaking LLM-Controlled Robots

저자: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas | 날짜: 2024.10

Figure 1: Jailbreaking LLM-controlled robots.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Jailbreaking LLM-controlled robots.* LLM 기반 로봇 제어 시스템의 보안 취약점을 조사하기 위해 RoboPAIR 알고리즘을 제안하며, 이는 채팅봇 jailbreak와 달리 실제 물리적 해로운 행동을 유도하는 최초의 공격 방식이다.

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 5

본 연구는 LLM 제어 로봇의 물리적 안전성 위협을 최초로 체계적으로 입증한 중요한 보안 연구로, 실제 배포된 상용 로봇에 대한 jailbreak 성공은 AI 안전 분야에서 획기적인 발견이다. 다만 방어 메커니즘에 대한 구체적 제안은 후속 연구로 남겨져 있어 실제 배포 환경에서의 완전한 방어 책임은 산업체에 전가되는 측면이 있다.

#111 2025.08 4/5

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

저자: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Hongyao Tang, Jianye Hao | 날짜: 2025.08

Figure 1 Overview of the Embodied-R1 framework and its zero-shot manipulation performance.

Essence

![Figure 1](figures/fig1.webp) *Figure 1 Overview of the Embodied-R1 framework and its zero-shot manipulation performance.* Embodied-R1은 '포인팅'을 통일된 embodiment-agnostic 중간 표현으로 정의하고, Reinforced Fine-tuning(RFT)으로 훈련된 3B VLM으로서 로봇 조작의 perception-action gap을 효과적으로 극복한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Embodied-R1은 포인팅이라는 명확한 중간 표현과 RFT 기반 훈련 방식으로 embodied AI의 오래된 perception-action gap 문제에 우아한 해결책을 제시하며, 실제 로봇에서의 강력한 zero-shot 성능으로 그 실질적 가치를 입증한다.

#112 2024.03 4/5

ExploRLLM: Guiding Exploration in Reinforcement Learning with Large Language Models

저자: Runyu Ma, Jelle Luijkx, Zlatan Ajanovic, Jens Kober | 날짜: 2024.03

Fig. 1: Graphical overview of ExploRLLM.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Graphical overview of ExploRLLM.* ExploRLLM은 대규모 언어 모델(LLM)이 생성한 정책 코드로 RL 에이전트의 탐색을 유도하면서, 잔차 RL 에이전트가 FM의 물리적 이해 부족을 보완하는 방식으로 로봇 조작 작업의 샘플 효율성과 수렴성을 개선한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ExploRLLM은 FM과 RL의 장점을 효과적으로 결합하여 로봇 조작의 샘플 효율성을 크게 개선하는 실용적인 방법을 제시하며, 특히 LLM 기반 탐색 전략의 혁신성과 실제 로봇에서의 zero-shot 전이 성공은 높은 가치를 가진다. 다만 평가 범위 확대와 일반화 가능성 검증이 필요하다.

#113 2024.12 4/5

FlowPolicy: Enabling Fast and Robust 3D Flow-based Policy via Consistency Flow Matching for Robot Manipulation

저자: Qinglun Zhang, Zhen Liu, Haoqiang Fan, Guanghui Liu, Bing Zeng, Shuaicheng Liu | 날짜: 2024.12

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#114 2024.02 4/5

Genie: Generative Interactive Environments

Figure 1 | A whole new world: Genie is capable of converting a variety of different prompts into

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#115 2023.02 4/5

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning

저자: Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer | 날짜: 2023.02

Figure 1: The GLAM method: we use an LLM as agent policy in an interactive textual RL

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The GLAM method: we use an LLM as agent policy in an interactive textual RL* 본 논문은 Large Language Model(LLM)을 대화형 환경에서 agent policy로 사용하며 online Reinforcement Learning으로 점진적으로 업데이트하여 functional grounding을 달성하는 GLAM 방법을 제안한다. 텍스트 기반 BabyAI 환경에서 LLM의 표본 효율성, 일반화 능력, online learning의 영향을 실증적으로 검증한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM을 interactive environment에서 online RL로 grounding하는 중요한 첫 시도로서, 체계적인 실험과 명확한 분석을 통해 LLM 기반 policy의 sample efficiency 및 일반화 능력을 입증한다. 다만 텍스트 기반 제한 환경과 단일 모델 계열 평가라는 제약이 있으나, 공개 도구(Lamorel)와 함께 RL 커뮤니티에 기여할 가치 있는 연구이다.

저자: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan | 날짜: 2025.10

Figure 1 | X-VLA employs distinctive learnable embeddings, referred to as soft prompt, to effectively

Essence

![Figure 1](figures/fig1.webp) *Figure 1 | X-VLA employs distinctive learnable embeddings, referred to as soft prompt, to effectively* X-VLA는 소프트 프롬프트(Soft Prompt) 기법을 도입하여 이질적인 로봇 플랫폼 간 cross-embodiment 학습을 효과적으로 처리하는 scalable Vision-Language-Action 모델이다. 0.9B 파라미터 규모로 6개 시뮬레이션 벤치마크와 3개 실로봇에서 SOTA 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

X-VLA는 soft prompt를 통한 우아하고 효율적인 cross-embodiment 처리 방식으로 VLA 분야의 중요한 진전을 이룬다. 파라미터 효율성과 광범위한 실증 평가를 통해 실제 로봇 응용 분야에서의 높은 실용성을 입증하며, flow-matching 기반 아키텍처의 안정성과 확장성은 향후 generalist 로봇 모델 개발의 주요 방향을 제시한다.

Lifelong Skill Chaining with LLMs 49 ▶

#122 2025.04 4/5

$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization

저자: Physical Intelligence, Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Manuel Y. Galliker, Dibya Ghosh, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Z. Ren, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, James Tanner, Quan Vuong, Homer Walke, Anna Walling, Haohuan Wang, Lili Yu, Ury Zhilinsky | 날짜: 2025.04

Fig. 1: The π0.5 model transfers knowledge from a heterogeneous range of data sources, including other robots, high-leve

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: The π0.5 model transfers knowledge from a heterogeneous range of data sources, including other robots, high-leve* π0.5는 heterogeneous한 다중 데이터 소스(다양한 로봇, 웹 데이터, 의미론적 예측)에서 co-training하여 실제 가정에서 장시간의 복잡한 조작 작업을 수행할 수 있는 Vision-Language-Action 모델이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

π0.5는 heterogeneous 데이터 소스의 체계적 통합을 통해 VLA 모델의 실제 환경 일반화 문제를 처음으로 실질적으로 해결한 성과이며, 계층적 의미론적 구조와 co-training 프레임워크는 로봇 학습의 중요한 설계 원칙을 제시한다.

#123 2026.01 4/5

A Pragmatic VLA Foundation Model

저자: Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng | 날짜: 2026.01

Figure 1. Overview of LingBot-VLA. We scale dual-arm robot data collected in the real world for pre-training. LingBot-VL

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Overview of LingBot-VLA. We scale dual-arm robot data collected in the real world for pre-training. LingBot-VL* LingBot-VLA는 약 20,000시간의 실제 로봇 데이터로 학습한 Vision-Language-Action 기초 모델로, 효율적인 학습과 다중 플랫폼 일반화 능력을 갖춘다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LingBot-VLA는 실제 로봇 학습의 스케일링 거동을 최초로 실증하고 대규모 다양한 데이터와 효율적 훈련 인프라를 통해 실용적이고 일반화 가능한 VLA 기초 모델을 제시하며, 오픈 소스 공개로 로봇 학습 커뮤니티에 현저한 기여를 한다.

#124 2025.03 4/5

An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation

저자: Lu Shi, Yuxuan Xu, Shiyu Wang, Jinhao Huang, Wenhao Zhao, Yufei Jia, Zike Yan, Weibin Gu, Guyue Zhou | 날짜: 2025.03

Fig. 1.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1.* 본 논문은 Real-Sim-Real (RSR) 루프 프레임워크를 제안하여 differentiable simulation을 활용해 시뮬레이션 파라미터를 반복적으로 개선하고 실제 세계 조건과 정렬시킴으로써 sim-to-real 갭을 해소한다. 정보 이론 기반의 비용 함수를 통해 다양하고 대표적인 실세계 데이터 수집을 유도하여 시뮬레이션 정제의 효율성을 극대화한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 information theory 기반의 informative cost function을 통해 sim-to-real 전이 문제를 체계적으로 해결하는 새로운 RSR 루프 프레임워크를 제시하며, differentiable simulation과 기존 RL 알고리즘의 통합으로 실무 적용 가능성이 높다. 다만 실세계 실험의 범위 확대와 계산 비용 분석이 추후 과제이다.

#125 2025.03 4/5

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

저자: Zhiyuan Zhou, Pranav Atreya, You Liang Tan, Karl Pertsch, Sergey Levine | 날짜: 2025.03

Figure 1: We introduce AutoEval, a system for scalable, automated real robot evaluation of generalist robot policies.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: We introduce AutoEval, a system for scalable, automated real robot evaluation of generalist robot policies.* AutoEval은 대규모 로봇 정책 평가의 병목을 해결하기 위해 자동화된 성공 감지와 장면 리셋 기능을 갖춘 실세계 자율 평가 시스템으로, 인간 개입을 99% 이상 감소시키면서 24시간 연속 평가를 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

AutoEval은 generalist 로봇 정책 평가의 심각한 확장성 문제를 실질적으로 해결하는 혁신적인 시스템으로, 자동화된 리셋과 성공 감지를 통해 인간 개입을 극적으로 줄이면서도 신뢰할 수 있는 결과를 제공한다. 공개 벤치마킹 플랫폼 제공으로 로봇 학습 커뮤니티에 중대한 기여를 한다.

#126 2023.10 4/5

Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

저자: Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao-Hua Sun, Joseph J. Lim | 날짜: 2023.10

Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision

Essence

![Figure 1](figures/fig1.webp) *Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision* BOSS는 기본 primitive 스킬 세트로부터 LLM의 지도를 받아 스킬 체이닝을 통해 복잡한 장기 작업을 수행할 수 있는 스킬 라이브러리를 자동으로 구축하는 방법론이다. 최소한의 감독으로 환경과의 상호작용을 통해 의미 있는 스킬 조합을 학습한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

BOSS는 LLM의 상식 지식과 강화학습의 환경 상호작용을 창의적으로 결합하여 최소 감독으로 장기 복잡 작업을 학습하는 문제의 실용적이고 확장 가능한 해결책을 제시한다. 실험 검증과 실제 로봇 시연을 통해 높은 신뢰성을 확보했으며, 로봇 학습 분야의 중요한 기여이다.

#127 2025.02 4/5

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

저자: Yue Yang, Linfeng Zhao, Mingyu Ding, Gedas Bertasius, Daniel Szafir | 날짜: 2025.02

Fig. 1. The example illustrates how Observation Space Shift (OSS) occurs

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. The example illustrates how Observation Space Shift (OSS) occurs* 로봇의 시각 기반 장기 작업 수행 시, 선행 스킬의 실행으로 인한 관찰 공간 변화(Observation Space Shift, OSS)가 후속 스킬의 성능을 심각하게 저하시키는 문제를 식별하고, 이를 평가하기 위한 BOSS 벤치마크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 시각 기반 로봇 학습에서 간과되어온 OSS 문제를 명확히 정의하고 체계적인 벤치마크를 제공함으로써 장기 작업 수행의 근본적 과제를 드러낸다. 데이터 증강의 한계를 증명하고 알고리즘적 솔루션의 필요성을 강조하여 향후 연구의 명확한 방향을 제시하는 가치 있는 기여이다.

#128 2023.08 4/5

BridgeData V2: A Dataset for Robot Learning at Scale

저자: Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine | 날짜: 2023.08

Figure 1 (BridgeData V2) We propose a large-scale robotic manipulation dataset containing 60,096

Essence

![Figure 1](figures/fig1.webp) *Figure 1 (BridgeData V2) We propose a large-scale robotic manipulation dataset containing 60,096* 저비용 공개 로봇으로 24개 환경에서 수집한 60,096개 궤적으로 이루어진 대규모 로봇 조작 데이터셋 BridgeData V2를 제안하며, 다양한 imitation learning 및 offline RL 방법들과의 호환성을 검증한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

BridgeData V2는 기존 로봇 데이터셋의 한계를 해결하는 대규모 다양한 벤치마크로서, 공개 저비용 로봇과 다양한 환경·기술·조건화 방식을 통해 범용성과 재현 가능성을 모두 확보하였다. 6가지 방법론에 대한 포괄적 평가와 스케일링 분석은 로봇 학습 연구의 데이터-중심 접근법의 중요성을 강하게 입증하며, 공개 자원으로서 학계에 상당한 기여를 할 것으로 판단된다.

#129 2021.12 4/5

CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

저자: Oier Mees, Lukas Hermann, Erick Rosete-Beas, Wolfram Burgard | 날짜: 2021.12

Fig. 1: CALVIN is a benchmark to learn many long-horizon language-conditioned tasks over a range of four manipulation en

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: CALVIN is a benchmark to learn many long-horizon language-conditioned tasks over a range of four manipulation en* CALVIN은 장기간 언어 조건부 로봇 조작 작업을 위한 오픈소스 시뮬레이션 벤치마크로, 자연어 명령을 따라 다단계 조작 작업을 수행하도록 학습하는 에이전트를 평가한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

CALVIN은 자연어 기반 장기 로봇 조작의 표준화된 첫 벤치마크로서 로봇 학습 커뮤니티에 중대한 기여를 한다. 높은 평가 난이도와 유연한 설계로 미래 연구를 촉진할 것으로 기대되나, 시뮬레이션 환경의 한계와 현실 적용 검증이 필요하다.

#130 2025.06 4/5

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

저자: Wenxuan Song, Jiayi Chen, Pengxiang Ding, Yuxin Huang, Han Zhao, Donglin Wang, Haoang Li | 날짜: 2025.06

Figure 1: Acceleration effect of CEED-VLA on OpenVLA and LLaVA-VLA. Left: Comparison

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Acceleration effect of CEED-VLA on OpenVLA and LLaVA-VLA. Left: Comparison* Vision-Language-Action (VLA) 모델의 추론 속도를 향상시키기 위해 consistency distillation과 early-exit decoding을 결합한 CEED-VLA를 제안하며, 4배 이상의 가속화를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

CEED-VLA는 consistency distillation과 early-exit decoding을 결합하여 VLA 추론을 획기적으로 가속화하며, 실제 로봇 배포에서 4배 이상의 속도 개선을 달성하면서도 조작 성능을 유지하는 실용적이고 일반화 가능한 해결책을 제시한다.

저자: Agrim Gupta, Linxi Fan, Surya Ganguli, Li Fei-Fei | 날짜: 2022.03

Essence

![Figure 2](figures/fig2.webp) *Figure 2: MetaMorph. We ﬁrst process an arbitrary robot by creating a 1D sequence of tokens* Transformer 기반의 MetaMorph을 제안하여 모듈식 로봇 설계 공간에서 다양한 로봇 형태에 대해 일반화 가능한 범용 제어기를 학습한다. 로봇의 형태정보를 Transformer의 조건화 모달리티로 취급하여 조합적 일반화와 제로샷 일반화를 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 로봇 공학에서 Transformer 기반 범용 제어기 학습의 새로운 패러다임을 제시하며, 높은 제어복잡도의 다양한 로봇 형태에 대한 제로샷 일반화를 달성했다. 모듈식 로봇 시스템의 실용화를 위한 중요한 기여이나, 실제 하드웨어 검증과 다른 설계 공간으로의 일반화가 후속과제이다.

#150 2023.02 4/5

MimicPlay: Long-Horizon Imitation Learning by Watching Human Play

저자: Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar | 날짜: 2023.02

Figure 1: Human is able to complete a long-horizon task much faster than a teleoperated robot. This

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Human is able to complete a long-horizon task much faster than a teleoperated robot. This* MimicPlay는 저비용의 인간 플레이 데이터에서 고수준 계획을 학습하고 소량의 원격조종 데이터에서 저수준 제어 정책을 학습하는 계층적 모방 학습 프레임워크로, 장기 조작 작업의 데이터 효율성을 대폭 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

MimicPlay는 데이터 수집 비용이라는 모방 학습의 근본적 문제를 창의적으로 해결하면서 실제 로봇 작업에서 우수한 성능을 입증한 의미있는 연구이다. 인간과 로봇 데이터의 상보적 활용이라는 새로운 패러다임은 로봇 학습의 확장성을 크게 향상시킬 수 있는 잠재력을 보여준다.

Fig. 1: We propose an open, large-scale dataset for robot learning curated from 21 institutions across the globe. The da

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: We propose an open, large-scale dataset for robot learning curated from 21 institutions across the globe. The da* 21개 기관에서 수집한 22종의 로봇 데이터를 통합한 대규모 Open X-Embodiment 데이터셋을 제시하고, 이를 활용하여 여러 로봇 플랫폼에 긍정적 전이를 보이는 RT-X 범용 로봇 정책을 개발했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

로봇 학습에 대규모 X-embodiment 데이터셋과 범용 정책이라는 새로운 패러다임을 제시한 중대한 기여로, 표준화된 인프라 제공으로 향후 로봇 AI 연구의 기초를 다졌다. 다만 절대 데이터 규모와 메커니즘 이해 측면에서는 추가 발전이 필요하다.

#155 2024.05 4/5

Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

저자: Murtaza Dalal, Tarun Chiruvolu, Devendra Chaplot, Ruslan Salakhutdinov | 날짜: 2024.05

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Method overview. PSL decomposes tasks into a list of regions and stage termination conditions* Plan-Seq-Learn (PSL)은 LLM의 고수준 계획, motion planning의 시퀀싱, RL의 저수준 제어 학습을 통합하여 사전 정의된 스킬 라이브러리 없이 장시간 로봇 작업을 해결한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

PSL은 LLM, motion planning, RL의 상호 보완적 강점을 창의적으로 통합하여 사전 정의된 스킬 없이 장시간 로봇 작업을 효율적으로 해결하는 실질적이고 강력한 방법을 제시한다. 광범위한 실험과 명확한 설명으로 높은 가치의 기여를 입증한다.

저자: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He | 날짜: 2024.09

Essence

이 논문은 heterogeneous robot embodiments 및 tasks에 걸쳐 대규모 데이터로 사전학습하여 로봇 정책의 generalization 성능을 향상시키는 Heterogeneous Pre-trained Transformers (HPT)를 제안한다. 서로 다른 센서와 구동기를 가진 다양한 로봇 embodiments의 proprioception과 vision 정보를 shared latent space로 정렬하여 task-agnostic, embodiment-agnostic한 기초 모델을 학습한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

이 논문은 로봇 학습의 중요한 과제인 heterogeneous embodiments 간 knowledge transfer를 multimodal alignment와 대규모 사전학습으로 해결하는 실질적이고 체계적인 방법을 제시한다. 52개 datasets을 통한 광범위한 실험과 scaling laws의 입증은 로봇 도메인에서의 귀중한 기여이다. 다만 tokenizer 설계의 일반성, sim-to-real gap, 표현 공간에 대한 깊이 있는 분석 등에서 개선 여지가 있다.

#162 2023.07 4/5

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

저자: Huy Ha, Pete Florence, Shuran Song | 날짜: 2023.07

Figure 1: Language-guided Skill Acquisition enables scalable robot learning. In the data generation stage, a LLM takes

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Language-guided Skill Acquisition enables scalable robot learning. In the data generation stage, a LLM takes* LLM 기반 고수준 계획과 sampling-based robot planner를 활용하여 언어-레이블 로봇 데이터 생성을 확장하고, 이를 diffusion policy를 통해 다중 작업 언어-조건 visuo-motor 정책으로 증류하는 로봇 스킬 획득 프레임워크를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 계획과 sampling-based planning을 결합한 자동 로봇 데이터 생성과 multi-task diffusion policy 학습의 novel한 통합 프레임워크를 제시하며, 33.2% 성능 향상과 함께 로봇 스킬 습득의 확장 가능성을 입증한다. 다중 작업 벤치마크와 함께 로봇 학습 분야에 의미 있는 기여를 하고 있다.

#163 2023.06 4/5

SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling

저자: Jesse Zhang, Karl Pertsch, Jiahui Zhang, Joseph J. Lim | 날짜: 2023.06

Fig. 1: SPRINT is a scalable approach for pre-training robot policies with a rich repertoire of skills while minimizing

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: SPRINT is a scalable approach for pre-training robot policies with a rich repertoire of skills while minimizing * SPRINT는 대규모 언어 모델(LLM)을 활용한 instruction relabeling과 offline RL 기반 cross-trajectory skill chaining을 통해 로봇 정책 사전학습을 위한 인간 주석 비용을 크게 줄이는 확장 가능한 접근법이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

SPRINT는 LLM과 offline RL을 창의적으로 결합하여 로봇 정책 사전학습의 인간 주석 비용을 획기적으로 감소시키는 실질적이고 확장 가능한 방법을 제시한다. 실험 결과도 우수하나, 생성된 instruction의 품질 보증과 다양한 도메인에서의 검증이 추가되면 더욱 강력한 기여가 될 것이다.

#164 2023.09 4/5

Text2Reward: Reward Shaping with Language Models for Reinforcement Learning

저자: Tianbao Xie, Siheng Zhao, Chen Henry Wu, Yitao Liu, Qian Luo, Victor Zhong, Yanchao Yang, Tao Yu | 날짜: 2023.09

Figure 1: An overview of TEXT2REWARD of three stages: Expert Abstraction provides an abstraction

Essence

![Figure 1](figures/fig1.webp) *Figure 1: An overview of TEXT2REWARD of three stages: Expert Abstraction provides an abstraction* LLM을 활용하여 자연어로 기술된 목표로부터 자동으로 dense reward function을 생성하고 형성하는 data-free 프레임워크 Text2Reward를 제시한다. 생성된 reward code는 해석 가능하고 실행 가능한 프로그램 형태로, 기존의 inverse RL이나 sparse reward 기반 방법들보다 넓은 범위의 작업을 지원한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM 기반 reward code 자동 생성으로 RL의 오랜 challenge인 reward design을 혁신적으로 해결하며, Pythonic 추상화와 code execution feedback을 통해 높은 해석성과 신뢰성을 달성했다. 광범위한 로봇 벤치마크와 실제 로봇 배포로 실용성을 입증하고 human-in-the-loop 파이프라인으로 실무 적용 가능성을 보여주는 ICLR 2024의 우수 논문이다.

저자: Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Jason Ma, Dinesh Jayaraman | 날짜: 2025.03

Fig. 1: ZeroMimic distills robotic manipulation skills from egocentric web videos for zero-shot deployment across divers

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: ZeroMimic distills robotic manipulation skills from egocentric web videos for zero-shot deployment across divers* ZeroMimic은 EpicKitchens 데이터셋의 일반 인간 비디오로부터 로봇 조작 스킬을 직접 추출하여, 로봇별 데모나 탐색 없이 즉시 배포 가능한 이미지 목표 조건부 스킬 정책을 생성하는 첫 번째 시스템이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ZeroMimic은 in-the-wild 인간 비디오로부터 로봇 조작 스킬을 직접 추출하는 실질적이고 확장 가능한 접근법을 제시하며, 71%대의 현실적 성공률로 실용성을 입증한다. 로봇 학습의 데이터 병목을 해소하는 중요한 진전이지만, 평가 범위 확대와 실패 분석 강화가 향후 과제이다.

LLM-Driven Simulation Data Generation 16 ▶

#171 2024.03 4/5

3D-VLA: A 3D Vision-Language-Action Generative World Model

저자: Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan | 날짜: 2024.03

Figure 1. Examples from our 3D Embodied Instruction Tuning Dataset.

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Overview of our 3D-VLA pipeline. The left part shows our goal-generation capability. Our model can imagine the* 3D-VLA는 3D 인식, 추론, 행동을 생성형 월드 모델로 통합하는 embodied foundation model이며, 3D LLM 위에 interaction token과 diffusion model을 결합하여 로봇의 목표 이미지/포인트 클라우드 생성과 행동 예측을 수행한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

3D-VLA는 embodied AI의 새로운 패러다임을 제시하며, 3D 인식과 월드 모델 기반 행동 생성을 통합한 점에서 혁신적이다. 대규모 3D embodied 데이터셋 구축과 multimodal goal generation 능력은 로봇 조작 분야에 상당한 기여를 할 수 있으나, 실제 로봇 환경에서의 검증이 필요하다.

#172 2025.01 4/5

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

저자: Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Yue Liao, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren | 날짜: 2025.01

Figure 1: An overview of ENERVERSE. With camera ob-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: An overview of ENERVERSE. With camera ob-* EnerVerse는 chunk-wise autoregressive video diffusion과 sparse memory를 활용하여 instruction으로부터 embodied future space를 예측하고, multi-view video generation과 4D Gaussian Splatting 기반 data flywheel을 통해 로봇 조작을 위한 generative foundation model을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

EnerVerse는 video diffusion을 로봇 조작에 체계적으로 align하면서 3D spatial prior 학습과 data flywheel을 통해 sim-to-real gap을 해결하는 포괄적인 framework를 제시하며, chunk-wise autoregressive와 sparse memory 설계는 독창적이고 실용적이다.

Figure 1: Key features of GRUtopia.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#177 2023.10 4/5

Learning Interactive Real-World Simulators

저자: Sherry Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie Kaelbling, Dale Schuurmans, Pieter Abbeel | 날짜: 2023.10

Figure 1: A universal simulator (UniSim). The simulator of the real-world learns from broad data with diverse

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#178 2024.10 4/5

ManiSkill3: GPU Parallelized Robotics Simulation and Rendering for Generalizable Embodied AI

Fig. 1: Multiple distinct task categories are displayed, ranging from room-scale tasks to humanoid interactions and draw

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#179 2024.12 4/5

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

저자: Yi Chen, Yuying Ge, Weiliang Tang, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu | 날짜: 2024.12

Figure 1. The overview of Moto, which utilizes Latent Motion Tokens as a bridging “language” for autoregressive pretrain

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Overview of Moto’s three training stages: (1) The Latent Motion Tokenizer encodes key visual motions between v* 이 논문은 비디오에서 비지도 학습으로 latent motion token을 학습하여 로봇 조작 태스크를 위한 사전학습의 중간 표현으로 사용하고, Moto-GPT를 통해 motion token의 자동회귀 예측으로 motion prior를 학습한 후 co-fine-tuning으로 실제 로봇 제어로 전이하는 방법을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 latent motion token을 통해 비디오 사전학습과 로봇 제어를 우아하게 연결하는 창의적인 접근을 제시하며, motion prior의 학습과 전이에 대한 명확한 검증을 제공한다. 데이터 효율성과 해석 가능성 측면에서 로봇 학습에 의미 있는 기여를 하지만, 실제 로봇 환경에서의 광범위한 검증과 다양한 조작 복잡도에 대한 일반화 능력 증명이 필요하다.

#180 2025.12 4/5

Motus: A Unified Latent Action World Model

저자: Hongzhe Bi, Hengkai Tan, Shenghao Xie, Zeyuan Wang, Shuhe Huang, Haitian Liu, Ruowen Zhao, Yao Feng, Chendong Xiang, Yinze Rong, Hongyan Zhao, Hanyu Liu, Zhizhong Su, Lei Ma, Hang Su, Jun Zhu | 날짜: 2025.12

Figure 1. Motus Architecture. Here, at . . . at+k are actions, zt . . . zt+k are latent actions, and τv and τa are the r

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Motus Architecture. Here, at . . . at+k are actions, zt . . . zt+k are latent actions, and τv and τa are the r* Motus는 vision-language-action 모델, world 모델, inverse dynamics 모델, video generation 모델을 unified latent action world model로 통합하는 embodied agent 프레임워크이며, Mixture-of-Transformer 아키텍처와 optical flow 기반 latent action을 통해 대규모 이질적 데이터 학습을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Motus는 분산된 embodied agent 아키텍처를 unified model로 통합하면서 optical flow 기반 latent action과 체계적인 multi-stage 학습으로 대규모 이질적 데이터 활용을 가능하게 한 혁신적 연구이며, 강력한 실험 성과와 함께 embodied AI의 통합 모델링에 대한 새로운 패러다임을 제시한다.

#181 2025.02 4/5

Re$^3$Sim: Generating High-Fidelity Simulation Data via 3D-Photorealistic Real-to-Sim for Robotic Manipulation

저자: Xiaoshen Han, Minghuan Liu, Yilun Chen, Junqiu Yu, Xiaoyang Lyu, Yang Tian, Bolun Wang, Weinan Zhang, Jiangmiao Pang | 날짜: 2025.02

Figure 1: Illustration of RE3SIM. a) RE3SIM allows zero-shot policy transfer on various tasks. b) The system pipeline to

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#182 2025.05 4/5

Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

저자: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg | 날짜: 2025.05

Figure 1: Real2Render2Real generating robot training data for the task of “Put the Mug on the Coffee Maker”.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#183 2023.11 4/5

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

저자: Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan | 날짜: 2023.11

Figure 1: 25 example tasks generated and corresponding skills learned by RoboGen. Readers are encouraged to visit our pr

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#184 2023.10 4/5

Video Language Planning

저자: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson | 날짜: 2023.10

Figure 1: Video Language Planning uses forward tree search via vision-language models and text-to-video

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Video Language Planning uses forward tree search via vision-language models and text-to-video* Vision-Language Model과 Text-to-Video Model을 결합하여 트리 서치를 통해 장기 수평선 로봇 작업을 위한 상세한 비디오 계획을 생성하는 Video Language Planning(VLP) 알고리즘을 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 대규모 사전학습 모델의 상호보완적 강점을 영리하게 통합하여 실제 로봇 시스템에서 획기적인 성능 향상을 달성한 혁신적 연구이며, 계획 문제에 대한 현대적 재검토를 제시한다.

#185 2025.02 4/5

VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion

저자: Shaoting Zhu, Linzhan Mou, Derun Li, Baijun Ye, Runhan Huang, Hang Zhao | 날짜: 2025.02

Fig. 1: Our VR-Robo introduces a unified real-to-sim-to-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#186 2025.10 4/5

World Simulation with Video Foundation Models for Physical AI

저자: , , Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu | 날짜: 2025.10

Figure 1: Our video curation pipeline transforms raw, unstructured video data from diverse real-world sources

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Overall architecture of [Cosmos-Predict2.5]. As shown on the right, in the latent space, the model* Cosmos-Predict2.5는 flow-based architecture 기반의 세계 시뮬레이션 기초 모델로, Text2World, Image2World, Video2World 생성을 단일 모델에 통합하여 로보틱스와 자율주행 시스템을 위한 합성 데이터 생성과 폐루프 시뮬레이션을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 Physical AI 시뮬레이션을 위한 통합된 flow-based 기초 모델을 제시하며, 대규모 데이터, 개선된 아키텍처, 정교한 post-training을 통해 실질적인 성능 향상을 달성했다. 오픈소스 공개로 embodied intelligence 연구의 접근성을 크게 높일 것으로 예상된다.

Generalist Agent Pretraining at Scale 6 ▶

#187 2022.05 4/5

A Generalist Agent

저자: Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, Nando de Freitas | 날짜: 2022.05

Figure 1: A generalist agent. Gato can sense and act with diﬀerent embodiments across a wide range of

Essence

![Figure 1](figures/fig1.webp) *Figure 1: A generalist agent. Gato can sense and act with diﬀerent embodiments across a wide range of* Gato는 대규모 언어 모델의 접근 방식을 일반화하여 텍스트를 넘어 다양한 모달리티와 구체화(embodiment)를 처리할 수 있는 단일 신경망 기반의 범용 정책 에이전트이다. 동일한 가중치를 가진 하나의 모델로 Atari 게임, 이미지 캡셔닝, 대화, 로봇 제어 등 604개의 서로 다른 작업을 수행할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Gato는 대규모 언어 모델의 스케일링 원리를 다중 모달리티 제어 문제로 확장하여 단일 범용 에이전트의 가능성을 실증적으로 보여주는 획기적 연구이다. 기술적 구성은 상대적으로 단순하지만, 604개 작업 규모에서의 통합 및 실제 로봇 제어 성공은 높은 실무적 가치와 장기적 영향력을 가진다.

#188 2023.02 4/5

Guiding Pretraining in Reinforcement Learning with Large Language Models

저자: Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta, Jacob Andreas | 날짜: 2023.02

Figure 1: ELLM uses a pretrained large language model

Essence

![Figure 1](figures/fig1.webp) *Figure 1: ELLM uses a pretrained large language model* ELLM은 대규모 언어모델(LLM)을 활용하여 RL 에이전트의 탐색을 인간의 상식적 지식으로 안내하는 방법을 제안한다. 현재 상태에 기반해 LLM이 제시하는 목표 달성을 보상함으로써 의미 있는 행동 학습을 유도한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ELLM은 내재적 동기 탐색의 근본적 문제인 '무관한 신규성 추구'를 대규모 언어모델의 상식 지식으로 창의적으로 해결한 연구이다. 실험 결과가 제한적이고 계산 비용 이슈가 있지만, LLM을 RL 탐색에 통합하는 novel한 접근과 실질적 성능 향상은 이 분야에 중요한 기여를 한다.

#189 2023.03 4/5

LERF: Language Embedded Radiance Fields

저자: Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik | 날짜: 2023.03

Figure 1: Language Embedded Radiance Fields (LERF). LERF grounds CLIP representations in a dense, multi-scale 3D ﬁeld. A

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Language Embedded Radiance Fields (LERF). LERF grounds CLIP representations in a dense, multi-scale 3D ﬁeld. A* LERF는 CLIP 임베딩을 NeRF에 정합하여 자연어로 3D 장면을 쿼리할 수 있도록 하는 방법이다. 다중 스케일 언어 필드를 학습함으로써 시각적 속성, 의미론, 추상적 개념, 장기 꼬리 객체 등 다양한 형태의 자연어 질의에 실시간으로 응답한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LERF는 NeRF와 CLIP을 창의적으로 결합하여 3D 장면의 밀집 자연어 쿼리를 실현한 우수한 논문이다. 다중 스케일 언어 필드, 마스크 비의존 설계, 실시간 성능은 실용적 가치가 크며, 로봇공학 및 3D UI 분야에서 즉각적인 영향을 미칠 수 있다.

#190 2022.06 4/5

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

저자: Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, Anima Anandkumar | 날짜: 2022.06

Figure 1: MINEDOJO is a novel framework for developing open-ended, generally capable agents

Essence

![Figure 1](figures/fig1.webp) *Figure 1: MINEDOJO is a novel framework for developing open-ended, generally capable agents* MineDojo는 Minecraft 게임을 기반으로 수천 개의 개방형 작업, 인터넷 규모의 멀티모달 지식베이스(YouTube 영상, Wiki, Reddit), 그리고 사전학습된 비디오-언어 모델을 보상함수로 활용하는 에이전트 학습 알고리즘을 통합하여 일반화 능력을 갖춘 embodied agent를 개발하는 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

MineDojo는 개방형 환경, 인터넷 규모 지식베이스, 대규모 사전학습 모델을 통합하여 일반화된 embodied agent 연구의 완성도 높은 프레임워크를 제공하며, 전체 코드와 데이터를 공개함으로써 커뮤니티 기여도 우수하다. 다만 다른 도메인 전이 가능성 검증과 더 복잡한 작업에서의 성능 확장이 향후 과제이다.

#191 2023.05 4/5

TidyBot: Personalized Robot Assistance with Large Language Models

저자: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser | 날짜: 2023.05

Fig. 1 We study the task of household cleanup, where each

Essence

![Figure 1](figures/fig1.webp) *Fig. 1 We study the task of household cleanup, where each* 이 논문은 대규모 언어모델(LLM)의 요약 능력을 활용하여 로봇이 적은 수의 예시로부터 사용자의 개인화된 물건 정리 선호도를 학습하고 일반화할 수 있음을 보여준다. TidyBot이라는 실제 모바일 매니퓨레이터에서 91.2% 벤치마크 정확도와 85.0% 실제 환경 성공률을 달성했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM의 요약 능력을 로봇 개인화 문제에 창의적으로 적용하여 데이터 효율적이고 해석 가능한 솔루션을 제시했다. 실제 로봇 시스템에서의 검증과 공개 데이셋 제공으로 실용성과 재현성을 담보하였으며, 서비스 로봇 개인화 분야에 중요한 기여를 한다.

#192 2025.03 4/5

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

저자: Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu | 날짜: 2025.03

Figure 1. State-of-the-art zero-shot goal-oriented navigation meth-

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Framework of UniGoal. We convert different types of goals into a uniform graph representation and maintain an * UniGoal은 object category, instance image, text description 등 다양한 목표 유형을 통일된 graph 표현으로 변환하여 LLM 기반의 단일 모델로 세 가지 navigation 작업을 zero-shot으로 수행하는 범용 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

UniGoal은 graph 표현을 통해 vision과 language 기반 navigation 작업을 우아하게 통합하고, 실험적으로도 범용성과 zero-shot 성능을 동시에 달성하는 우수한 연구이다. 다만 실제 환경 평가와 graph 구성 robustness에 대한 더 깊은 분석이 필요하다.

Language-Guided Minecraft Agent Systems 39 ▶

#193 2025.06 4/5

A Survey on Vision-Language-Action Models for Autonomous Driving

저자: Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong, Yunlong Wang, Siwen Jiao, Hao Ye, Zihao Sheng, Xin Zhao, Tuopu Wen, Zheng Fu, Sikai Chen, Kun Jiang, Diange Yang, Seongjin Choi, Lijun Sun | 날짜: 2025.06

Figure 1. Comparisons of autonomous driving paradigms. (a) End-to-end driving offers direct perception-to-control mappin

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Comparisons of autonomous driving paradigms. (a) End-to-end driving offers direct perception-to-control mappin* 본 논문은 Vision-Language-Action (VLA) 모델을 자율주행에 적용하는 최초의 종합 서베이로, 20개 이상의 대표 모델을 분석하고 시각 인식, 자연어 이해, 제어를 통합하는 패러다임의 발전 과정을 추적한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 VLA4AD 분야의 최초의 종합 서베이로서 아키텍처, 진화 과정, 모델 비교를 체계적으로 정리하고 개방 과제를 명확히 정의함으로써, 설명가능하고 견고한 자율주행 시스템 개발을 위한 중요한 참고 자료를 제공한다.

#194 2019.12 4/5

ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

저자: Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, Dieter Fox | 날짜: 2019.12

Figure 1: ALFRED consists of 25k language directives

Essence

![Figure 1](figures/fig1.webp) *Figure 1: ALFRED consists of 25k language directives* ALFRED는 자연어 지시사항과 egocentric vision에서 가정용 작업을 위한 action sequence로의 매핑을 학습하기 위한 벤치마크로, 25k개의 자연어 지시문과 비가역적 상태 변화를 포함하여 실제 로봇 응용과의 간극을 줄인다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ALFRED는 자연언어에서 행동으로의 grounding 연구에 현실적인 도전 과제들을 종합적으로 제시하는 중요한 벤치마크이다. 고수준/저수준 언어 주석, 비가역적 상태 변화, pixelwise interaction mask 등의 혁신적 설계가 기존 데이터셋보다 실제 로봇 응용에 더 가깝다.

저자: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang | 날짜: 2023.11

Essence

JARVIS-1은 multimodal language model과 multimodal memory를 결합하여 Minecraft의 오픈월드 환경에서 200개 이상의 다양한 작업을 수행할 수 있는 멀티태스크 에이전트이다. 특히 장기 작업(ObtainDiamondPickaxe)에서 기존 최신 에이전트 대비 5배 우수한 신뢰성을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

JARVIS-1은 multimodal language model과 multimodal memory를 결합한 혁신적 설계로 오픈월드 에이전트의 다중 도전(multimodal perception, 장기 계획, lifelong learning)을 동시에 해결한 획기적 연구이다. Minecraft에서의 5배 성능 향상과 자율적 개선 능력은 일반화된 embodied AI 개발의 중요한 진전을 의미한다.

#210 2023.01 4/5

Learning Universal Policies via Text-Guided Video Generation

저자: Yilun Du, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Joshua B. Tenenbaum, Dale Schuurmans, Pieter Abbeel | 날짜: 2023.01

Figure 1: Text-Conditional Video Generation as Universal Policies. Text-conditional video generations

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Text-Conditional Video Generation as Universal Policies. Text-conditional video generations* 텍스트 조건부 video generation을 사용하여 다양한 환경에서 작동하는 범용 정책을 학습하는 방법을 제안하며, 현재 이미지와 텍스트 목표 설명으로부터 미래 프레임 시퀀스를 생성한 후 inverse dynamics model로 액션을 추출한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 video generation을 통한 범용 정책 학습이라는 창의적인 접근으로 환경 다양성과 reward 설계 문제를 우아하게 해결하며, 조합적 일반화와 인터넷 규모 지식 전이를 통해 강화학습 분야에 상당한 기여를 한다.

#211 2023.11 4/5

LLM-State: Open World State Representation for Long-horizon Task Planning with Large Language Model

저자: Siwei Chen, Anxing Xiao, David Hsu | 날짜: 2023.11

Fig. 1: LLM-State Example. The proposed state representation is a mixture

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: LLM-State Example. The proposed state representation is a mixture* 개방형 환경에서 LLM의 장기 작업 계획을 위해 객체 속성을 동적으로 추적하고 업데이트하는 하이브리드 상태 표현 LLM-State를 제안한다. 이는 구조화된 객체 중심 표현과 비구조화된 행동 이력 요약을 결합하여 장기간 상태 추적 및 실패 복구를 개선한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 개방형 환경의 장기 작업 계획을 위해 LLM의 추론 능력을 상태 표현 구성에 직접 활용하는 창의적 접근을 제시하며, 구조-비구조 하이브리드 설계를 통해 명시성과 유연성의 균형을 달성한다. 다만 실제 환경 적용, 계산 효율성, 정량적 검증에서 개선이 필요하다.

#212 2024.03 4/5

LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning

저자: Shu Wang, Muzhi Han, Ziyuan Jiao, Zeyu Zhang, Ying Nian Wu, Song-Chun Zhu, Hangxin Liu | 날짜: 2024.03

Fig. 1: The proposed LLM3 framework. (a) Traditional TAMP

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: The proposed LLM3 framework. (a) Traditional TAMP* LLM3는 대규모 언어모델(LLM)을 기반으로 한 Task and Motion Planning 프레임워크로, 모션 계획 실패에 대한 추론을 통해 기호적 계획과 연속 모션 생성을 통합한다. 도메인 특화 인터페이스 대신 LLM의 추론 능력을 활용하여 작업 계획과 행동 매개변수를 제안하고 반복적으로 개선한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LLM3는 domain-independent interface를 통해 TAMP의 오래된 문제를 창의적으로 해결하며, motion failure reasoning을 LLM 기반 planning에 통합한 점에서 새로운 방향을 제시한다. 다만 평가의 범위가 제한적이고 real-robot 실험의 깊이가 더 필요하지만, 앞으로의 로봇 자율화에 중요한 기초를 제공한다.

#213 2023.12 4/5

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

저자: Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao | 날짜: 2023.12

Figure 1. The process of finishing the task “kill a pig with a stone sward during the daytime near the water with grass

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Overview of module interaction in MP5. After receiving the task instruction, MP5 first utilizes Parser to gene* MP5는 Minecraft에서 장기-지평선 개방형 태스크를 해결하기 위해 MLLMs 기반의 다중모듈 embodied 시스템으로, active perception scheme을 통해 프로세스 의존성과 컨텍스트 의존성을 모두 처리한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

MP5는 active perception scheme을 통해 process-dependent와 context-dependent 태스크를 통합적으로 처리하는 창의적인 접근법을 제시하며, MLLMs 기반 embodied AI의 실질적 발전을 보여준다. 다만 절대적 성능 수치와 실제 환경 전이 가능성에 대한 추가 검증이 요구된다.

#214 2025.06 4/5

Multimodal Spatial Language Maps for Robot Navigation and Manipulation

저자: Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard | 날짜: 2025.06

Figure 1. AVLMaps provide an open-vocabulary 3D map

Essence

![Figure 1](figures/fig1.webp) *Figure 1. AVLMaps provide an open-vocabulary 3D map* 로봇 네비게이션과 조작을 위해 pretrained multimodal foundation model의 특징을 3D 환경 재구성과 융합한 spatial language map (VLMaps, AVLMaps)을 제안한다. 이를 통해 자연어, 이미지, 오디오 등 다중모달 쿼리를 공간상의 목표 위치로 그라운딩할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 multimodal foundation models을 3D spatial map에 창의적으로 통합하여 기존 방법의 공간 정밀도와 멀티모달 이해 한계를 동시에 해결한 의미 있는 기여다. Audio modality의 도입과 다양한 로봇 플랫폼 지원으로 실용적 확장성이 우수하며, 50% 성능 향상 등 정량적 결과도 강력하다.

#215 2025.04 4/5

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

저자: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria | 날짜: 2025.04

Figure 1: The overall architecture and inference flow of NORA.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The overall architecture and inference flow of NORA.* NORA는 3B 파라미터의 경량 Vision-Language-Action 모델로, 기존 7B 이상의 대규모 VLA 모델보다 계산 효율을 크게 개선하면서도 실시간 로봇 제어 성능을 유지한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

NORA는 경량 VLA 모델의 실용적 필요성을 잘 해결한 의미 있는 기여로, 3B 파라미터로 대규모 모델 대비 우수한 성능을 달성하면서 실시간 로봇 제어를 가능하게 한다. 오픈 소스 공개로 후속 연구를 촉진할 것으로 예상된다.

#216 2022.09 4/5

Open-vocabulary Queryable Scene Representations for Real World Planning

저자: Boyuan Chen, Fei Xia, Brian Ichter, Kanishka Rao, Keerthana Gopalakrishnan, Michael S. Ryoo, Austin Stone, Daniel Kappler | 날짜: 2022.09

Fig. 1: NLMap + SayCan overview. We propose an open-vocabulary and

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: NLMap + SayCan overview. We propose an open-vocabulary and* NLMap은 Visual Language Model을 기반으로 한 개방형 어휘의 쿼리 가능한 장면 표현을 제안하여, LLM 기반 로봇 플래너가 실제 환경의 객체를 인식하고 위치를 파악한 후 맥락-조건부 계획을 수립할 수 있도록 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

NLMap은 VLM 기반의 개방형 어휘 장면 표현을 LLM 플래너와 효과적으로 통합하여 로봇이 동적으로 환경 맥락을 인식하고 계획할 수 있도록 한 혁신적인 연구이며, 실제 로봇 실험에서도 기존 방법으로 불가능했던 작업들을 성공적으로 수행하여 실용적 가치를 입증했다.

#217 2025.06 4/5

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

저자: Songhao Han, Boxiang Qiu, Yue Liao, Siyuan Huang, Chen Gao, Shuicheng Yan, Si Liu | 날짜: 2025.06

Figure 1: We shift the focus of robotic imitation learning from fast, reactive System 1 behavior to

Essence

![Figure 1](figures/fig1.webp) *Figure 1: We shift the focus of robotic imitation learning from fast, reactive System 1 behavior to* RoboCerebra는 장기간 로봇 조작 작업 평가를 위한 대규모 벤치마크로, VLM의 System 2 (deliberative reasoning) 능력을 활용한 계층적 계획-실행 프레임워크를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RoboCerebra는 VLM의 System 2 능력을 평가하기 위한 첫 대규모 벤치마크로서, 기존 장기 로봇 조작 벤치마크의 한계를 명확히 지적하고 체계적인 데이터 및 평가 프로토콜을 제시한다. 다만 시뮬레이션 환경 제한과 실제 로봇 적용 검증 부재가 실용성 측면의 과제이다.

저자: Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf | 날짜: 2023.07

Figure 1: SayPlan Overview (top). SayPlan operates across two stages to ensure scalability: (left)

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#222 2024.03 4/5

Scaling Instructable Agents Across Many Simulated Worlds

저자: SIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Kshitij Gupta, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Jony Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Rory Lawton, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young | 날짜: 2024.03

Figure 1 | Overview of SIMA. In SIMA, we collect a large and diverse dataset of gameplay from both

Essence

![Figure 1](figures/fig1.webp) *Figure 1 | Overview of SIMA. In SIMA, we collect a large and diverse dataset of gameplay from both* SIMA는 키보드-마우스 인터페이스를 통해 자연어 명령을 따르는 embodied AI 에이전트를 다양한 3D 환경(연구용 환경 및 상업 비디오 게임)에서 학습시키는 프로젝트이다. 이는 언어를 지각과 구현된 행동에 그라운딩하여 일반적인 embodied AI 개발을 목표로 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

SIMA는 대규모 다양한 환경에서 자연어 명령을 따르는 embodied AI 에이전트 개발이라는 야심찬 목표를 제시하며, 통일된 인터페이스와 최소 가정을 유지하면서 스케일을 확대한 점에서 창의적이다. 다만 구체적인 정량적 성과 제시 부족과 현재 달성 수준의 명확한 평가가 필요하다.

#223 2025.03 4/5

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

저자: Xiangyu Shi, Zerui Li, Wenqi Lyu, Jiatong Xia, Feras Dayoub, Yanyuan Qiao, Qi Wu | 날짜: 2025.03

Fig. 1. Role of our proposed waypoint predictor and backtrack mechanism.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Role of our proposed waypoint predictor and backtrack mechanism.* SmartWay는 향상된 waypoint predictor와 MLLM 기반 navigator를 통합한 zero-shot VLN-CE 프레임워크로, occupancy-aware loss와 history-aware reasoning, backtracking 메커니즘을 통해 연속 환경에서의 네비게이션 성능을 개선한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

SmartWay는 enhanced waypoint predictor와 MLLM 기반 네비게이터, backtracking 메커니즘의 유기적 결합으로 zero-shot VLN-CE에서 SOTA 성능을 달성하며, 실제 로봇 배포 가능성을 입증한 의미 있는 연구이다. 다만 real-world 평가 확대와 computational cost 분석이 보완되면 더욱 견고할 것으로 판단된다.

#224 2025.07 4/5

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

저자: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang | 날짜: 2025.07

Figure 1: We introduce ThinkAct, a reasoning VLA framework capable of thinking before acting. Through

Essence

![Figure 1](figures/fig1.webp) *Figure 1: We introduce ThinkAct, a reasoning VLA framework capable of thinking before acting. Through* ThinkAct는 Vision-Language-Action 추론 작업을 위해 강화학습 기반 시각 잠재 계획을 통해 고수준 추론과 저수준 행동 실행을 연결하는 이중 시스템 프레임워크를 제안한다. 다중모달 LLM이 생성한 추론 계획을 시각 계획 잠재로 압축하여 다운스트림 행동 모델을 조건화하여 장기 계획, 소수샷 적응, 자체 수정 능력을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ThinkAct는 행동 정렬 시각 보상을 기반으로 한 혁신적인 GRPO 강화학습과 시각 잠재 계획 압축을 통해 Vision-Language-Action 모델에 구조화된 추론 능력을 효과적으로 부여한다. 장기 계획, 소수샷 적응, 자체 수정 능력을 동시에 달성한 점에서 구체화된 AI 및 로봇 조작 분야에 의미 있는 기여를 한다.

#225 2023.12 4/5

ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

저자: Guanxing Lu, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang | 날짜: 2023.12

Essence

![Figure 2](figures/fig2.webp) *Figure 2. The overall pipeline of ThinkBot, which consists of an instruction completer and an object localizer. The inst* ThinkBot은 희소한 인간 지시문에서 사고 체인 추론을 통해 누락된 행동 설명을 복구하여 embodied instruction following 작업을 수행하는 에이전트를 제안한다. 대규모 언어 모델 기반 instruction completer와 multimodal object localizer로 구성되어 일관된 지시문을 따라 복잡한 목표를 완수할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ThinkBot은 희소한 지시문의 일관성 문제를 사고 체인 추론으로 우아하게 해결하는 창의적인 접근법을 제시하며, ALFRED 벤치마크에서 우수한 실험 결과를 달성했다. 다만 실제 로봇 환경으로의 검증과 모듈 간 정보 통합 최적화가 향후 과제이다.

#226 2025.02 4/5

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

저자: Navid Rajabi, Jana Kosecka | 날짜: 2025.02

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Topological Map Construction* Vision-Language Navigation 문제를 LLM과 VLM을 활용한 모듈식 접근으로 해결하며, 자연어 지시에서 landmark를 추출하고 topological map에서 경로를 검색하여 dynamic programming으로 정렬 점수를 계산한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM과 VLM을 체계적으로 결합한 modular VLN 접근법으로 training-free 학습이 가능함을 보이며, 복잡한 R2R-Habitat 지시셋에서 기존 방법 대비 우수한 성능을 달성한다. 다만 알려진 맵의 존재 가정과 spatial constraint 처리의 한계는 실제 환경 적용에 있어 개선이 필요하다.

저자: Wenkai Guo, Guanxing Lu, Haoyuan Deng, Zhenyu Wu, Yansong Tang, Ziwei Wang | 날짜: 2025.09

Fig. 1: VLA-Reasoner augments VLA models with test-time rea-

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: The overall pipeline of VLA-Reasoner. At test time, a lightweight and modified MCTS searches for the optimal act* VLA-Reasoner는 Vision-Language-Action 모델에 test-time MCTS를 통합하여 장기 지평 로봇 조작 작업에서 누적 편차를 해결하고 미래 상태를 예측하는 플러그인 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

VLA-Reasoner는 test-time 추론을 통해 VLA의 근본적인 단기 시야 문제를 체계적으로 해결하는 우아한 프레임워크로, KDE 샘플링과 offline value estimation의 실질적 기여와 함께 시뮬레이션과 실제 로봇에서 일관된 개선을 보여주는 의미 있는 연구이다.

Embodied AI & World Model Survey 39 ▶

#232 2023.11 4/5

Advances in Embodied Navigation Using Large Language Models: A Survey

저자: Jinzhou Lin, Han Gao, Xuxiang Feng, Rongtao Xu, Changwei Wang, Man Zhang, Li Guo, Shibiao Xu | 날짜: 2023.11

Fig. 1: This presentation exhibit a temporal map depicting the works of embodied navigation from 2022 to 2024, and we

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: This presentation exhibit a temporal map depicting the works of embodied navigation from 2022 to 2024, and we* 이 논문은 Large Language Models (LLMs)과 embodied intelligence의 융합에 초점을 맞춰 LLM 기반 navigation 모델들의 최신 동향을 종합적으로 조사하고, 기존 모델과 데이터셋의 장단점을 분석한 서베이이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 빠르게 성장하는 LLM 기반 embodied navigation 분야에 대한 첫 번째 체계적 서베이로서, 현재까지의 연구 성과를 명확히 분류하고 미래 방향을 제시하는 중요한 기여를 한다. 다만, 기술적 깊이와 실제 구현상의 도전과제에 대한 더욱 구체적인 분석이 보강된다면 실무자들에게 더욱 유용한 자료가 될 것이다.

#233 2024.07 4/5

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

저자: Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li | 날짜: 2024.07

Fig. 1. The framework of the embodied agent based on MLMs and WMs,

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. The framework of the embodied agent based on MLMs and WMs,* 본 논문은 Embodied AI의 포괄적인 조사로, 사이버 공간과 물리 세계의 정렬을 목표로 Multi-modal Large Models (MLMs)과 World Models (WMs)의 최신 발전을 다룬다. Embodied perception, embodied interaction, embodied agent, sim-to-real adaptation의 네 가지 주요 연구 대상을 중심으로 최신 방법론과 데이터셋을 종합적으로 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 논문은 MLMs 시대의 Embodied AI에 대한 첫 번째 포괄적 survey로서, embodied robots, simulators, perception, interaction, agents, sim-to-real adaptation을 체계적으로 정리하고 ARIO 데이터셋을 제안하여 연구 커뮤니티에 큰 기여를 한다. 다만 빠르게 발전하는 분야의 특성상 지속적인 업데이트가 필요하며, 실제 로봇 환경에서의 일반화 성능 검증이 향후 과제이다.

#234 2024.08 4/5

All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents

저자: Zhiqiang Wang, Hao Zheng, Yunshuang Nie, Wenjun Xu, Qingwei Wang, Hua Ye, Zhe Li, Kaidong Zhang, Xuewen Cheng, Wanxi Dong, Chang Cai, Liang Lin, Feng Zheng, Xiaodan Liang | 날짜: 2024.08

Figure 1. All robots in one.

Essence

![Figure 1](figures/fig1.webp) *Figure 1. All robots in one.* ARIO는 로봇 embodied AI 에이전트 학습을 위한 통합 데이터 표준과 약 300만 에피소드의 대규모 데이터셋으로, 258개 로봇 시리즈와 5가지 감각 모달리티를 포함하여 범용적이고 강건한 로봇 에이전트 개발을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ARIO는 embodied AI 분야의 근본적인 데이터 표준화 문제를 해결하고 최초의 포괄적 멀티모달 대규모 통합 데이터셋을 제공하여 범용 로봇 에이전트 개발에 중대한 기여를 한다. 다만 제시된 데이터셋으로 학습한 에이전트의 실제 성능 벤치마크가 부재한 점이 아쉽지만, 데이터 표준과 인프라 자체의 가치는 매우 높다.

#235 2025.12 4/5

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

저자: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng | 날짜: 2025.12

Fig. 1: The structure of this survey in a pyramid format. Section 2 lays

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: The structure of this survey in a pyramid format. Section 2 lays* Vision-Language-Action (VLA) 모델의 구조와 발전을 체계적으로 분석하는 종합 서베이로, 기본 모듈부터 역사적 마일스톤을 거쳐 5가지 핵심 과제까지 단계적으로 설명한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 서베이는 빠르게 성장하는 VLA 분야에서 기존 단편적 가이드의 한계를 극복하고, 초보자부터 전문가까지 포용할 수 있는 체계적 학습 경로와 심층적 문제 분석을 제공하여 필드의 리더맵 역할을 할 수 있는 가치 있는 자료이다.

#236 2023.11 4/5

An Embodied Generalist Agent in 3D World

저자: Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang | 날짜: 2023.11

Figure 1: The proposed embodied generalist agent LEO. It takes egocentric 2D images, 3D point clouds, and texts as input

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The proposed embodied generalist agent LEO. It takes egocentric 2D images, 3D point clouds, and texts as input* LEO는 egocentric 2D 이미지, 3D point cloud, 텍스트를 입력으로 받아 3D 환경에서 인식, grounding, 추론, 계획, 행동을 수행할 수 있는 최초의 embodied generalist agent이다. 통일된 모델 아키텍처와 학습 목표로 3D vision-language alignment와 3D vision-language-action instruction tuning의 두 단계로 학습된다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LEO는 3D 환경에서의 embodied generalist agent 개발에 중요한 이정표를 제시하며, 통일된 아키텍처로 다양한 3D 작업을 처리할 수 있음을 입증했다. LLM-assisted 데이터 생성 파이프라인은 3D 데이터 수집의 실질적 문제를 해결하는 실용적 기여이며, 광범위한 실험과 ablation study가 연구의 신뢰성을 높인다.

#237 2026.01 4/5

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

저자: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu | 날짜: 2026.01

Figure 1: Being-H0.5 at a Glance. We scale human-centric robot learning with Being-H0.5 toward

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Being-H0.5 at a Glance. We scale human-centric robot learning with Being-H0.5 toward* Being-H0.5는 인간 중심 학습 패러다임과 통합 액션 공간을 활용하여 다양한 로봇 플랫폼 간 일반화를 가능하게 하는 기초 Vision-Language-Action 모델이다. 35,000시간 이상의 멀티모달 데이터로 구성된 UniHand-2.0을 통해 30개의 로봇 플랫폼에서 강력한 cross-embodiment 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Being-H0.5는 인간 중심 학습 패러다임과 대규모 통합 데이터셋을 활용하여 cross-embodiment 로봇 일반화의 중요한 진전을 이룬 의미 있는 연구이며, Mixture-of-Flow, Manifold-Preserving Gating 등의 기술 혁신과 실세계 배포 성공이 로봇공학의 확장성 문제를 해결하는 데 기여한다.

#238 2024.10 4/5

CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

저자: Suhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu | 날짜: 2024.10

Fig. 1: Humans often give abstract navigation directions using simple instruction, relying on the recipient’s commonsens

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Humans often give abstract navigation directions using simple instruction, relying on the recipient’s commonsens* CANVAS는 모호하거나 잡음이 있는 인간의 언어 및 시각적 지시(스케치, 텍스트)를 다중모드 입력으로 받아 상식적 이해를 바탕으로 로봇이 인간의 기대에 맞게 네비게이션을 수행하도록 하는 임베딩 러닝 기반 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

CANVAS는 추상적이고 잡음이 있는 인간 지시를 상식 기반으로 해석하여 로봇 네비게이션을 수행하는 혁신적인 프레임워크이며, 대규모 COMMAND 데이터셋과 함께 강력한 성능(특히 어려운 환경에서 67% vs 0%), 그리고 우수한 Sim2Real 전이(69%)를 입증함으로써 인간-로봇 상호작용의 자연성 향상과 현실 적용 가능성을 효과적으로 제시한다.

저자: Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanhang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu | 날짜: 2025.04

Essence

![Figure 2](figures/fig2.webp) *Figure 2: The proposed Embodied-R is a collaborative embodied spatial reasoning framework integrating a Vision-Language* Embodied-R은 대규모 Vision-Language Model(VLM)과 소규모 Language Model(LM)을 협력시키고 RL을 통해 embodied video에서의 spatial reasoning 능력을 활성화하는 프레임워크이다. 단 5k개의 embodied video 샘플로 훈련하여 OpenAI-o1, Gemini-2.5-pro 수준의 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

embodied spatial reasoning에 RL을 처음 적용하고 대규모-소규모 모델의 협력이라는 창의적 설계로 competitive한 성능을 달성한 중요한 연구이다. 다만 reward design의 일반성과 새로운 task에 대한 generalization 능력 검증이 향후 과제이다.

#243 2025.03 4/5

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

저자: Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang | 날짜: 2025.03

Figure 1.

Essence

![Figure 1](figures/fig1.webp) *Figure 1.* o1 스타일의 심층 추론 패러다임을 embodied 인터랙티브 작업으로 확장하여, 시각 탐색, 추론, 행동을 통합하는 Embodied-Reasoner 모델을 제시한다. 9.3k개의 Observation-Thought-Action 궤적과 3단계 학습 파이프라인을 통해 공간 이해, 시간 추론, 자기 반성 능력을 갖춘 모델을 개발했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 심층 추론 모델을 embodied AI 영역으로 처음 체계적으로 확장하여 중요한 연구 공백을 채웠으며, 실험 결과 명확한 성능 향상을 보여준다. 다만 데이터셋 규모와 평가 범위 확대, 실제 환경에서의 추가 검증이 향후 연구에서 필요하다.

#244 2024.06 4/5

EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models

저자: Mengfei Du, Binhao Wu, Zejun Li, Xuanjing Huang, Zhongyu Wei | 날짜: 2024.06

Figure 1: Comparison between EmbSpatial-Bench and

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Comparison between EmbSpatial-Bench and* Large Vision-Language Model(LVLM)들의 구현화된 환경에서의 공간 이해 능력을 평가하기 위해 egocentric 관점의 6가지 공간 관계를 포함하는 EmbSpatial-Bench 벤치마크를 구축하고, 이를 개선하기 위한 instruction-tuning 데이터셋 EmbSpatial-SFT를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 embodied AI의 핵심 능력인 spatial understanding을 체계적으로 평가하기 위해 egocentric 관점의 벤치마크를 처음으로 제시하며, 3D 환경 기반의 자동 구축 파이프라인과 개선 데이터셋을 통해 현재 LVLM의 명확한 부족함을 드러내고 개선 방향을 제시한다는 점에서 embodied AI 커뮤니티에 중요한 기여를 한다.

Fig. 1. Organization of this survey.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Organization of this survey.* 대규모 모델이 강화된 embodied AI 시스템의 의사결정과 학습 방법을 체계적으로 조사한 종합 서베이로, 계층적/end-to-end 의사결정 패러다임, imitation learning/reinforcement learning 기반 embodied learning, 그리고 world model의 역할을 통합적으로 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 서베이는 대규모 모델이 embodied AI의 의사결정과 학습을 어떻게 강화하는지를 체계적이고 포괄적으로 분석한 매우 시의적절한 리뷰로, 특히 VLA 모델, end-to-end 패러다임, world model 통합을 통해 기존 서베이를 크게 진전시켰다. 다만 실제 배포 및 실무적 도전 과제에 대한 심화 분석과 실험적 검증이 추가되면 더욱 가치 있는 자료가 될 것이다.

저자: Ranjan Sapkota, Yang Cao, Konstantinos I. Roumeliotis, Manoj Karkee | 날짜: 2025.05

Essence

Vision-Language-Action (VLA) 모델은 시각 인식, 자연어 이해, 구체화된 행동을 단일 계산 프레임워크에서 통합하는 혁신적인 AI 접근법을 제시한다. 이 종합 리뷰는 지난 3년간 발표된 80개 이상의 VLA 모델을 분석하여 개념, 진전, 응용, 도전을 체계적으로 정리한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 rapidly evolving VLA 분야에 대한 첫 번째 포괄적 종합 리뷰로서, 개념부터 응용까지 체계적으로 정리하고 실제 도전과제와 미래 방향을 명확히 제시한다. embodied AI와 로봇 공학의 발전을 위한 중요한 기초 참고 자료로서 높은 가치를 가진다.

#267 2025.05 4/5

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

저자: Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu | 날짜: 2025.05

Figure 1: Overview of VeBrain and VeBrain-600k. Compared to existing MLLMs, VeBrain achieves

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of VeBrain and VeBrain-600k. Compared to existing MLLMs, VeBrain achieves* VeBrain은 멀티모달 대형 언어 모델(MLLM)을 지각, 추론, 제어 기능으로 통합하는 프레임워크이며, 로봇 제어 작업을 2D 시각 공간의 텍스트 기반 MLLM 작업으로 재구성합니다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

VeBrain은 멀티모달 이해와 로봇 제어를 2D 시각 공간의 공통 MLLM 작업으로 통합하는 혁신적인 접근으로, 광범위한 벤치마크와 로봇 실험에서 우수한 성능을 입증하며 구체화된 AI의 중요한 진전을 나타냅니다.

#268 2025.03 4/5

WMNav: Integrating Vision-Language Models into World Models for Object Goal Navigation

저자: Dujun Nie, Xianda Guo, Yiqun Duan, Ruijun Zhang, Long Chen | 날짜: 2025.03

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: The WMNav framework. After acquiring the RGB-D panoramic image and pose information at step t, the* Vision-Language Model을 기반으로 한 world model을 설계하여 Object Goal Navigation 작업에서 미래 상태를 예측하고 메모리를 통해 정책을 개선하는 WMNav 프레임워크를 제안한다. Curiosity Value Map이라는 온라인 유지 메모리 구조와 두 단계 행동 제안 전략으로 VLM의 hallucination을 완화하면서 탐색 효율성을 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 VLM을 world model로 활용하는 혁신적인 접근으로 zero-shot object navigation에서 새로운 방향을 제시하며, Curiosity Value Map 및 두 단계 행동 제안 전략이 효과적으로 탐색 효율성을 높인다. 체계적인 설계와 강력한 실험 결과로 embodied AI 분야에 중요한 기여를 한다.

#269 2024.05 4/5

A Survey on Vision-Language-Action Models for Embodied AI

저자: Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, Irwin King | 날짜: 2024.05

Essence

![Figure 2](figures/fig2.webp) *Figure 2: (a) A Venn diagram that outlines the main concepts in embodied AI discussed in this paper. (b) Timelines that * 본 논문은 embodied AI 분야에서 vision, language, action 세 모달리티를 통합하는 vision-language-action models (VLAs)에 대한 첫 번째 종합 설문 논문이다. VLAs의 구성 요소, 저수준 제어 정책, 고수준 작업 계획자로 이루어진 3가지 주요 연구 라인을 체계적으로 분류하고 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 설문은 embodied AI와 로봇공학에서 빠르게 성장하는 VLAs 분야를 처음으로 종합적으로 정리한 중요한 기여다. 체계적인 분류 체계, 일반화된 정의 제안, 광범위한 자료 요약 등이 강점이며, VLA 연구자들을 위한 필수적인 참고 자료가 될 것으로 기대된다.

#270 2025.07 4/5

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

저자: Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang | 날짜: 2025.07

Figure 1 | We present a unified framework of VLA from an action tokenization perspective. Action token refers

Essence

![Figure 1](figures/fig1.webp) *Figure 1 | We present a unified framework of VLA from an action tokenization perspective. Action token refers* 본 논문은 vision-language-action (VLA) 모델들을 action tokenization 관점에서 통합적으로 분석하는 포괄적인 서베이이다. 현재의 다양한 VLA 모델들을 단일 프레임워크로 통합하고, action token을 language description, code, affordance, trajectory, goal state, latent representation, raw action, reasoning 등 8가지로 분류하여 체계적으로 정리한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

본 서베이는 VLA 분야의 현황을 action tokenization이라는 통합적 렌즈로 분석하여 체계적이고 포괄적인 이해를 제공한다. 8가지 action token type의 분류, 각각의 장단점 분석, 그리고 미래 기술 트렌드에 대한 인사이트는 VLA 연구의 방향을 제시하는 데 매우 가치 있다. 다만 정량적인 성능 비교와 실제 환경에서의 검증이 부재하다는 한계가 있으며, 이를 보완하는 후속 연구가 필요하다.

World Model-Guided VLA Policy Learning 32 ▶

#271 2023.11 4/5

Aspects of entanglement with background electric and magnetic fields in quantum field theoretic systems

저자: Shagun Kaushal | 날짜: 2023.11

Essence

Minkowski, de Sitter, Rindler 시공간에서 배경 전기장이 생성하는 입자쌍의 entanglement에 대한 배경 자기장의 영향을 양자장론적으로 조사한 박사학위 논문이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

양자장론의 곡면 시공간 확장과 양자정보 개념을 결합하여 배경 전자기장이 쌍생성 상관에 미치는 영향을 다각적으로 분석한 엄밀하고 포괄적인 연구이며, 초기 우주와 블랙홀 물리의 근본적 질문에 기여한다.

저자: Eloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret | 날짜: 2024.05

Essence

DIAMOND는 diffusion model을 기반으로 한 world model을 제안하여 RL 에이전트를 학습시키며, 이산 잠재 변수 기반 방식보다 시각적 세부 정보를 더 잘 보존함으로써 Atari 100k 벤치마크에서 새로운 최고 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DIAMOND는 diffusion model을 world modeling에 체계적으로 적용하여 시각적 세부 정보 보존의 중요성을 입증하며, Atari 100k 벤치마크의 새로운 최고 성능과 다양한 응용을 통해 실질적인 가치를 제시한다.

Figure 1: The proposed MoDE architecture (left) uses a transformer with causal masking, where each

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The proposed MoDE architecture (left) uses a transformer with causal masking, where each* MoDE는 Mixture-of-Experts 아키텍처를 Diffusion Policy에 적용하여 noise-conditioned routing과 noise-conditioned self-attention을 통해 매개변수는 40% 감소시키면서 90% 적은 FLOPs로 더 높은 성능을 달성하는 효율적인 Imitation Learning 정책이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

MoDE는 noise-conditioned routing이라는 창의적인 아이디어로 Diffusion Policy의 계산 효율성을 획기적으로 개선하면서도 성능을 향상시킨 강력한 기여이다. 광범위한 실험과 ablation study를 통해 검증되었으나, 이론적 기초 강화와 더 다양한 도메인에서의 평가가 필요하다.

Figure 1. InternVLA-A1 unifies scene understanding, visual foresight generation, and action execution

Essence

![Figure 1](figures/fig1.webp) *Figure 1. InternVLA-A1 unifies scene understanding, visual foresight generation, and action execution* InternVLA-A1은 Mixture-of-Transformers 아키텍처를 통해 의미 이해, 시각적 예측, 행동 실행을 통합하여 로봇 조작 성능을 향상시키는 Vision-Language-Action 모델이다. 실세계 로봇 데이터, 합성 시뮬레이션 데이터, 인간 비디오를 포함한 692M 프레임의 이질적 데이터로 사전학습되어 동적 조작 작업에서 26.7% 성능 향상을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

InternVLA-A1은 의미 이해와 동적 예측을 통합하는 혁신적 아키텍처와 이질적 데이터 source의 효과적 활용으로 로봇 조작의 일반화 문제를 크게 향상시켰다. 특히 동적 환경에서의 26.7% 성능 향상은 실세계 응용의 중요한 진전을 보여주며, VLA 분야의 주요 기여이다.

#288 2024.06 4/5

Figure 1: We present UniVLA, a unified vision-language-action model. Unlike prior VLA

Essence

![Figure 1](figures/fig1.webp) *Figure 1: We present UniVLA, a unified vision-language-action model. Unlike prior VLA* UniVLA는 vision, language, action을 discrete token으로 통일하여 autoregressive sequence modeling으로 joint하게 학습하는 unified vision-language-action model이다. World model을 post-training에 통합하여 비디오에서 temporal dynamics를 학습하고 downstream policy learning을 강화한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

UniVLA는 heterogeneous modalities를 unified discrete token 프레임워크로 통합하고 world model post-training으로 temporal dynamics를 학습하는 혁신적인 VLA 모델이다. 다중 벤치마크에서 SOTA 성능을 달성했으며, multimodal capability와 large-scale video training 가능성으로 generalist embodied AI의 새로운 방향을 제시한다.

저자: Zewen Yang, Xiaobing Dai, Akshat Dubey, Sandra Hirche, Georges Hattab | 날짜: 2024.02

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Violin plots of prediction errors for different meth-* Multi-agent 시스템에서 신뢰도 기반의 선택적 학습을 통해 Gaussian process regression의 분산 협력 학습을 개선하는 Pri-GP 알고리즘을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

논문은 분산 GP 학습에서 신뢰도 기반 선택적 협력을 통해 계산 효율성과 예측 정확도를 동시에 개선하는 실질적이고 창의적인 해결책을 제시한다. 이론적 오차 보증과 함께 안전-중요 응용의 신뢰성 요구를 충족하는 점이 특히 강점이다.

#302 2018.03 4/5

World Models

저자: David Ha, Jürgen Schmidhuber | 날짜: 2018.03

Essence

![Figure 3](figures/fig3.webp) *Figure 3. In this work, we build probabilistic generative models of* 환경의 생성형 신경망 world model을 비지도학습으로 학습한 후, 추출된 특징으로 간단한 policy를 훈련하여 강화학습 문제를 해결하는 방법을 제시한다. 심지어 world model이 생성한 상상의 환경에서 훈련한 policy를 실제 환경에 전이 가능함을 보인다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 reinforcement learning과 생성 모델을 우아하게 결합하여 효율적인 policy 학습을 달성했으며, world model 기반 접근법의 실용성을 명확히 입증한 영향력 있는 작업이다. 모듈화된 설계와 dream training 개념은 이후 연구에 큰 영감을 주었다.

Preference-Based Long-Horizon Planning 3 ▶

#303 2026.03 4/5

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

저자: Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang, Jiaming Tang, Kyle Stachowicz, Karan Dhabalia, Michael Equi, Quan Vuong, Jost Tobias Springenberg, Sergey Levine, Chelsea Finn, Danny Driess | 날짜: 2026.03

Fig. 1: Multi-Scale Embodied Memory (MEM) equips Vision Language Action Models (VLAs) with memory for solving long-horiz

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Multi-Scale Embodied Memory (MEM) equips Vision Language Action Models (VLAs) with memory for solving long-horiz* 로봇의 장시간 작업을 위해 비디오 기반 단기 메모리와 텍스트 기반 장기 메모리를 결합한 Multi-Scale Embodied Memory (MEM)을 제안하여, 15분 이상의 복잡한 조작 작업을 수행할 수 있는 Vision Language Action 모델을 구현했다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 로봇의 장시간 작업을 위한 다중 스케일 메모리 아키텍처를 창의적으로 제안하여 15분 이상의 복잡한 조작 작업을 처음으로 성공적으로 구현했으며, 이는 실제 로봇 자동화의 실용성을 크게 향상시키는 중요한 기여를 한다.

#304 2023.06 4/5

Statler: State-Maintaining Language Models for Embodied Reasoning

저자: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter | 날짜: 2023.06

Fig. 1: Our Statler framework enables robots to carry out complex tasks specified in natural language that require reaso

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Our Statler framework enables robots to carry out complex tasks specified in natural language that require reaso* Statler는 로봇 계획 작업에서 LLM이 세계 상태를 명시적으로 유지하고 추적하도록 하는 모델 기반 프레임워크로, 상태 기반 의사결정을 통해 장기 계획 능력을 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Statler는 LLM 기반 로봇 계획에 모델 기반 접근을 도입한 참신한 프레임워크로, 간단하면서도 효과적인 설계로 장기 계획 문제에서 강력한 성능 향상을 보여준다. 다만 실제 로봇 환경에서의 검증과 복잡 도메인 적응성에 대한 추가 연구가 필요하다.

#305 2025.02 4/5

Unified Video Action Model

저자: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song | 날짜: 2025.02

Fig. 1: Unified Video Action Model. (a) UVA features a joint video-action latent representation and decoupled video-acti

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Unified Video Action Model. (a) UVA features a joint video-action latent representation and decoupled video-acti* UVA는 비디오 생성과 액션 예측을 통합적으로 학습하는 모델로, 공유된 잠재 표현과 분리된 확산 헤드를 통해 높은 정확도와 빠른 추론 속도를 동시에 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

UVA는 비디오와 액션 학습의 오랜 트레이드오프를 통합 잠재 표현과 분리된 디코딩으로 효과적으로 해결하며, 마스크 훈련을 통한 다목적 활용으로 로봇 학습 프레임워크의 실용성을 크게 향상시킨다.

Robotic Safety and Efficiency Systems 54편 ▶

Robotic Safety and Efficiency Systems Timeline

Category Overview

# Robotic Safety and Efficiency Systems 로봇 시스템의 안전성과 효율성은 자율주행 및 구체화된 AI(Embodied AI) 분야에서 핵심적인 과제이다. 특히 대규모 언어 모델(Large Language Models, LLM)과 비전-언어-행동 모델(Vision-Language-Action Models, VLA)을 활용한 로봇 제어 시스템이 확산됨에 따라, 이들 시스템의 안전성 검증과 보안 취약점 분석에 대한 연구가 중요해지고 있다[1440][1458][1501]. 본 카테고리는 기초 모델(Foundation Models) 기반의 로봇 정책 학습, 실시간 모니터링 및 제약 조건 관리, 그리고 안전한 인지-행동 통합 방법론에 관한 28편의 논문들을 포함한다[1397][1414]. 멀티모달 학습(Multimodal Learning), 강화학습(Reinforcement Learning), 그리고 데이터 효율적인 모방 학습(Imitation Learning) 등 다양한 기술을 통해 로봇의 지능화된 의사결정과 안전한 작업 수행을 동시에 달성하는 방법들을 다룬다[1328][1349][1335]. 궁극적으로 이 분야의 연구들은 로봇이 인간의 지시를 안전하고 효율적으로 수행하면서도 윤리적 문제를 예방할 수 있는 통합적 시스템 구축을 목표로 한다.

📌 핵심: VLA 모델의 추론 효율화(token pruning, layer skipping, 1-bit quantization) 연구가 급증하며, 엣지 디바이스 실시간 배포 가능성이 현실화되고 있다.
⚠ 갭: VLA 모델의 물리적 안전성 보장 메커니즘(실패 감지, 자율 복구, 위험 행동 차단)에 대한 실증 연구가 극히 부족하며, 안전 인증 기준이 부재하다.
🏛 정책: 실제 환경 배포 VLA 시스템에 대한 안전성 인증 표준 마련 및 실패 모드 의무 보고 체계를 법제화해야 한다.

Adversarial Attacks on LLM-Controlled Robots 11 ▶

#306 2024.10 5/5

Jailbreaking LLM-Controlled Robots

저자: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas | 날짜: 2024.10

Figure 1: Jailbreaking LLM-controlled robots.

Essence

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 5

#307 2023.12 4/5

Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation

저자: Xiangtong Yao, Hongkuan Zhou, Oier Mees, Yuan Meng, Ted Xiao, Yonatan Bisk, Jean Oh, Edward Johns, Mohit Shridhar, Dhruv Shah, Jesse Thomason, Kai Huang, Joyce Chai, Zhenshan Bing, Alois Knoll | 날짜: 2023.12

Figure 1. Language-conditioned manipulation sits at the inter-

Essence

![Figure 2](figures/fig2.webp) *Figure 2. This architectural framework provides a high-level overview of language-conditioned robot manipulation. The ag* 자연언어 지시를 로봇의 물리적 행동으로 변환하는 language-conditioned robot manipulation 분야를 체계적으로 조사한 종합 서베이 논문으로, 언어가 로봇 시스템에 통합되는 4가지 주요 방식을 분류하고 최신 기술을 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

자연언어 기반 로봇 조작이라는 중요한 응용 분야를 최신 foundation models와 연계하여 종합적으로 정리한 높은 수준의 서베이로, 체계적인 분류와 명확한 아키텍처 프레임워크를 제시하여 향후 연구 방향을 제시한다.

#308 2025.09 4/5

Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs

저자: Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang | 날짜: 2025.09

Fig. 1. Peak VRAM usage for each evaluated VLA model

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Peak VRAM usage for each evaluated VLA model* Vision-Language-Action (VLA) 모델의 성능을 엣지 디바이스부터 데이터센터 GPU까지 다양한 하드웨어 플랫폼에서 체계적으로 평가하여, 아키텍처와 하드웨어 제약 조건에 따른 정확도, 레이턴시, 처리량, 메모리 사용량의 확장 추이를 밝혀낸다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 VLA 모델의 크로스 플랫폼 성능 확장을 체계적으로 분석한 중요한 벤치마크 연구로, 로봇 배포 시나리오에 맞는 하드웨어 선택과 모델 최적화를 위한 실용적인 통찰력을 제공한다. 엣지 디바이스의 경쟁력을 입증함으로써 로봇 시스템 설계에 대한 새로운 관점을 제시한다.

#309 2022.07 4/5

Inner Monologue: Embodied Reasoning through Planning with Language Models

Figure 1: Inner Monologue enables grounded closed-loop feedback for robot planning with large language models

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#310 2024.02 4/5

On the Vulnerability of LLM/VLM-Controlled Robotics

저자: Xiyang Wu, Souradip Chakraborty, Ruiqi Xian, Jing Liang, Tianrui Guan, Fuxiao Liu, Brian M. Sadler, Dinesh Manocha, Amrit Singh Bedi | 날짜: 2024.02

Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#311 2025.09 4/5

Pure Vision Language Action (VLA) Models: A Comprehensive Survey

저자: Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou | 날짜: 2025.09

Fig. 1: Organization and Structure of the VLA Survey.

Essence

![Figure 3](figures/fig3.webp) *Fig. 3: Vision-Language-Action Taxonomy: From Autoregression-based, Diffusion-based, to Reinforcement-based and* 본 논문은 Vision Language Action (VLA) 모델을 체계적으로 분류하고 분석하는 포괄적 서베이로, autoregression-based, diffusion-based, reinforcement-based, hybrid, specialized methods로 VLA 접근법을 분류하여 300개 이상의 최근 연구를 종합한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 서베이는 VLA 분야의 급속한 발전 속에서 처음으로 체계적인 분류체계를 제시하고 300개 이상의 연구를 종합하여 현황 맵핑을 제공함으로써, VLA 연구자와 로봇공학자들에게 높은 학술적 가치를 제공한다. 다만 시뮬레이션-현실 갭, 평가 메트릭 표준화, 최신 방법론 수용 측면의 개선이 향후 필요하다.

#312 2025.06 4/5

RationalVLA: A Rational Vision-Language-Action Model with Dual System

저자: Wenxuan Song, Jiayi Chen, Wenxue Li, Xu He, Han Zhao, Can Cui, Pengxiang Ding Shiyan Su, Feilong Tang, Xuelian Cheng, Donglin Wang, Zongyuan Ge, Xinhu Zheng, Zhe Liu, Hesheng Wang, Haoang Li | 날짜: 2025.06

Fig. 1.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1.* 로봇이 실행 불가능한 지시를 거부할 수 있는 능력을 갖춘 RationalVLA 모델을 제안하며, 이를 평가하기 위해 6가지 차원의 결함 있는 지시를 포함한 RAMA 벤치마크를 도입한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RationalVLA는 실제 로봇 배포에서 중요하지만 그동안 간과되었던 defective instruction 처리 능력을 체계적으로 다루는 혁신적인 작업이며, RAMA 벤치마크와 dual-system 아키텍처의 조합으로 언어 이해와 조작 능력을 효과적으로 통합한 우수한 연구이다.

#313 2025.06 4/5

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Figure 1: Overview of RoboTwin 2.0. RoboTwin 2.0 is a scalable framework for bimanual manipu-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#314 2023.06 4/5

Statler: State-Maintaining Language Models for Embodied Reasoning

저자: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter | 날짜: 2023.06

Fig. 1: Our Statler framework enables robots to carry out complex tasks specified in natural language that require reaso

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#315 2023.11 4/5

Vision-Language Foundation Models as Effective Robot Imitators

저자: Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong | 날짜: 2023.11

Figure 1: Comparison among RoboFlamingo and existing vision-language manipulation solutions.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Comparison among RoboFlamingo and existing vision-language manipulation solutions.* RoboFlamingo는 공개 소스 VLM인 OpenFlamingo를 기반으로 하여 로봇 조작 정책을 구축하는 프레임워크로, 시각-언어 이해와 의사결정을 분리하고 최소한의 미세조정으로 높은 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RoboFlamingo는 공개 소스 VLM을 활용하여 저비용이면서도 높은 성능의 로봇 조작 정책을 구현할 수 있는 효과적인 방법을 제시하며, 시각-언어 이해와 정책 학습의 분리라는 명확한 설계 철학으로 로봇 공학의 민주화에 기여한다.

#316 2025.05 4/5

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

Figure 1: Overview of VeBrain and VeBrain-600k. Compared to existing MLLMs, VeBrain achieves

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Monte Carlo Tree Search for VLA Reasoning 10 ▶

#317 2025.06 4/5

A Survey on Vision-Language-Action Models for Autonomous Driving

Figure 1. Comparisons of autonomous driving paradigms. (a) End-to-end driving offers direct perception-to-control mappin

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#318 2025.12 4/5

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

Fig. 1: The structure of this survey in a pyramid format. Section 2 lays

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#319 2023.10 4/5

GenSim: Generating Robotic Simulation Tasks via Large Language Models

저자: Lirui Wang, Yiyang Ling, Zhecheng Yuan, Mohit Shridhar, Chen Bao, Yuzhe Qin, Bailin Wang, Huazhe Xu, Xiaolong Wang | 날짜: 2023.10

Figure 1: Task gallery of over 100 tasks generated by GPT4. GenSim leverages a LLM code

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#320 2025.03 4/5

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

Figure 1: (a) Unlike recent diffusion-based VLA methods [12, 13, 14] that attach a separate diffusion

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#321 2025.11 4/5

IPR-1: Interactive Physical Reasoner

저자: Mingyu Zhang, Lifeng Zhuo, Tianxi Tan, Guocan Xie, Xian Nie, Yan Li, Renjie Zhao, Zizhu He, Ziyu Wang, Jiting Cai, Yong-Lu Li | 날짜: 2025.11

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#322 2025.06 4/5

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

저자: Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone | 날짜: 2025.06

Figure 1: Inference-Time Scaling Law: We observe that action error consistently decreases as we

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Inference-Time Scaling Law: We observe that action error consistently decreases as we* Vision-Language-Action (VLA) 모델의 테스트 시간 성능을 향상시키기 위해 샘플링과 검증을 통한 스케일링 방법을 제시하며, action error가 생성 샘플 수에 따라 지수 거듭제곱 법칙을 따른다는 inference-time scaling law를 발견했다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

VLA 모델의 test-time scaling 가능성을 체계적으로 규명하고 실용적인 RoboMonkey 프레임워크를 제안한 우수한 연구로, inference-time scaling law의 발견과 실제 로봇에서의 유의미한 성능 향상이 로봇 제어 분야에 큰 기여를 한다.

#323 2025.05 4/5

Search-TTA: A Multimodal Test-Time Adaptation Framework for Visual Search in the Wild

저자: Derek Ming Siang Tan, , Boyang Liu, Alok Raj, Qi Xuan Ang, Weiheng Dai, Tanishq Duhan, Jimmy Chiun, Yuhong Cao, Florian Shkurti, Guillaume Sartoretti | 날짜: 2025.05

Essence

Search-TTA는 위성 이미지와 현장 센서 측정을 활용하여 VLM(Vision Language Model)의 예측을 실시간으로 개선하는 멀티모달 테스트타임 적응 프레임워크로, 야외 로봇 시각 탐색 성능을 30%까지 향상시킨다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Search-TTA는 야외 시각 탐색에서 VLM의 오류를 온라인으로 보정하는 혁신적인 프레임워크로, 대규모 AVS-Bench 데이터셋과 함께 멀티모달 적응과 실제 배포 가능성을 시연한다. 다만 완전한 현장 검증과 이론적 분석이 보완되면 더욱 완성도 있는 연구가 될 것이다.

#324 2025.10 4/5

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

저자: Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, Yuke Zhu | 날짜: 2025.10

FIGURE 1. Structure of this survey. Section II outlines the key challenges in developing Vision-Language-Action (VLA) mo

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

#325 2025.09 4/5

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search

저자: Wenkai Guo, Guanxing Lu, Haoyuan Deng, Zhenyu Wu, Yansong Tang, Ziwei Wang | 날짜: 2025.09

Fig. 1: VLA-Reasoner augments VLA models with test-time rea-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#326 2023.05 4/5

Voyager: An Open-Ended Embodied Agent with Large Language Models

저자: Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar | 날짜: 2023.05

Figure 1: VOYAGER discovers new Minecraft items and skills continually by self-driven exploration,

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Microwave Dielectric Liquid Sensing 6 ▶

#327 2023.11 4/5

저자: Luca Placidi, Anil Misra, Gabriele La Valle, Casey Rodriguez | 날짜: 2025.06

Essence

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#331 2023.11 4/5

Figure 1 | A whole new world: Genie is capable of converting a variety of different prompts into

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#336 2025.03 4/5

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

저자: Rongyu Zhang, Menghang Dong, Yuan Zhang, Liang Heng, Xiaowei Chi, Gaole Dai, Li Du, Yuan Du, Shanghang Zhang | 날짜: 2025.03

Figure 1. Overview of our proposed MoLe-VLA: Our proposed framework integrates dynamic layer activation, a novel Spatial

Essence

![Figure 1](figures/fig1.webp) *Figure 1. Overview of our proposed MoLe-VLA: Our proposed framework integrates dynamic layer activation, a novel Spatial* MoLe-VLA는 Mixture-of-Layers 아키텍처와 Spatial-Temporal Aware Router(STAR)를 통해 LLM의 불필요한 레이어를 동적으로 스킵하여 로봇 조작 작업의 계산 효율을 5.6배 향상시키면서 8% 성능 개선을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

MoLe-VLA는 신경과학 이론과 효율적인 AI 기술을 혁신적으로 결합하여 로봇 제어의 계산-성능 트레이드오프 문제를 크게 개선한 우수한 연구이다. 공간-시간 인식 라우팅과 인지 기반 지식 증류의 설계가 독창적이며, 시뮬레이션과 실제 환경에서의 실증 결과가 설득력 있다.

#337 2022.11 4/5

Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models

저자: Ted Xiao, Harris Chan, Pierre Sermanet, Ayzaan Wahid, Anthony Brohan, Karol Hausman, Sergey Levine, Jonathan Tompson | 날짜: 2022.11

Fig. 1: DIAL consists of three steps: (1) Contrastive fine-tuning of a vision-language model (VLM) such as CLIP [39] on

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Dual-System Robot Control Architecture 10 ▶

#338 2025.05 4/5

CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory

저자: Weichen Zhang, Chen Gao, Shiquan Yu, Ruiying Peng, Baining Zhao, Qian Zhang, Jinqiang Cui, Xinlei Chen, Yong Li | 날짜: 2025.05

Figure 1: The overall workflow of CityNavAgent.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#339 2024.12 4/5

저자: Lingfeng Zhang, Xiaoshuai Hao, Qinwen Xu, Qiang Zhang, Xinyao Zhang, Pengwei Wang, Jing Zhang, Zhongyuan Wang, Shanghang Zhang, Renjing Xu | 날짜: 2025.02

Figure 1: Illustration of our Annotated Semantic

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Illustration of our Annotated Semantic* MapNav는 Vision-and-Language Navigation에서 Annotated Semantic Map(ASM)을 메모리 표현으로 사용하여 기존의 과거 프레임 저장의 비효율성을 해결하는 end-to-end VLM 기반 모델이다. ASM은 top-down 시멘틱 맵에 텍스트 라벨을 추가하여 구조화된 내비게이션 정보를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

MapNav는 Annotated Semantic Map이라는 혁신적 메모리 표현을 통해 VLN의 효율성과 구조화된 공간 이해를 동시에 달성한 견고한 연구이다. SOTA 성능 달성과 데이터셋 공개 약속으로 임체AI 커뮤니티에 실질적인 기여를 제시하며, VLN 분야의 새로운 방향을 제안한다.

#345 2025.02 4/5

OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics

저자: Junhui Wang, Dongjie Huo, Zehui Xu, Yongliang Shi, Yimin Yan, Yuanxin Wang, Chao Gao, Yan Qiao, Guyue Zhou | 날짜: 2025.02

Fig. 1.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1.* 스마트 로지스틱스의 마지막 배송 구간을 위해 OpenStreetMap, LLM, VLM을 결합한 OPEN 시스템과 이를 평가하기 위한 새로운 벤치마크 OpenBench를 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 야외 마지막 배송이라는 실제 문제에 초점을 맞춘 새로운 벤치마크와 확장 가능한 기선 시스템을 제시하여 스마트 로지스틱스 분야에 실질적 기여를 한다. Foundation model과 고전 알고리즘의 효과적 결합으로 GPS-free 네비게이션의 실현 가능성을 보여주었으나, 실제 환경 적응성과 장기 운영 안정성에 대한 심층 분석이 보완되면 더욱 완성도 높은 연구가 될 수 있다.

#346 2025.02 4/5

Openfly: A comprehensive platform for aerial vision-language navigation

Figure 1: Overview of OpenFly. This work consists of (1) the integration of 4 rendering engines, significantly

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#347 2024.11 4/5

TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation

저자: Linqing Zhong, Chen Gao, Zihan Ding, Yue Liao, Huimin Ma, Shifeng Zhang, Xu Zhou, Si Liu | 날짜: 2024.11

Figure 1. (a) Current LLM-based methods lie in two exploration

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Overall framework of TopV-Nav. During navigation, the agent receives egocentric RGB-D images It from the envir* TopV-Nav는 MLLM을 활용하여 top-view 지도 위에서 직접 공간 추론을 수행함으로써 Zero-Shot Object Navigation 작업을 개선하는 방법론이다. Adaptive Visual Prompt Generation, Dynamic Map Scaling, Potential Target Driven 메커니즘을 통해 공간 정보 손실을 방지하고 의미론적 탐색 공간을 확대한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

TopV-Nav는 MLLM의 공간 추론 능력을 체계적으로 활용하여 ZSON 작업의 근본적인 한계를 해결하는 창의적이고 실질적인 방법론이다. Map-to-text 제거와 적응적 시각 프롬프트 생성 등 여러 혁신 기법이 효과적으로 통합되었으며, MP3D와 HM3D에서 우수한 성능을 달성했다.

LLM Code Execution Safety Monitoring 7 ▶

#348 2022.09 4/5

Code as Policies: Language Model Programs for Embodied Control

저자: Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, Andy Zeng | 날짜: 2022.09

Fig. 1: Given examples (via few-shot prompting), robots can use code-writing

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Given examples (via few-shot prompting), robots can use code-writing* Large Language Model(LLM)을 활용하여 자연어 명령을 로봇 정책 코드로 직접 변환하는 "Code as Policies" 방식을 제안하며, few-shot prompting과 hierarchical code-gen을 통해 복잡한 로봇 행동을 실시간으로 생성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLM을 로봇 정책 생성에 직접 적용하는 창의적인 방식을 제시하며, hierarchical code-gen을 통한 성능 개선과 다양한 실제 로봇 플랫폼에서의 검증으로 강한 임팩트를 가진다. 다만 생성 코드의 안정성 검증과 실시간 성능 평가가 보완되면 더욱 완성도 높은 연구가 될 것이다.

#349 2024.12 4/5

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

저자: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang | 날짜: 2024.12

Figure 1. For the task “Move the pan with lobster to the stove without losing the lobster”, (a) reactive failure detecti

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#350 2023.10 4/5

CoPAL: Corrective Planning of Robot Actions with Large Language Models

저자: Frank Joublin, Antonello Ceravola, Pavel Smirnov, Felix Ocker, Joerg Deigmoeller, Anna Belardinelli, Chao Wang, Stephan Hasler, Daniel Tanneberg, Michael Gienger | 날짜: 2023.10

Fig. 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#351 2023.07 4/5

DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment

저자: Yanjiang Guo, Yen-Jen Wang, Lihan Zha, Jianyu Chen | 날짜: 2023.07

Fig. 1: Illustration of our motivation. Previous works use LLM to generate only high-level textual plans. Therefore, Low

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#352 2025.06 4/5

Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning

저자: Hao Chen, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Renrui Zhang, Xiaoqi Li, Xiao He, Yandong Guo, Chi-Wing Fu, Shanghang Zhang, Pheng-Ann Heng | 날짜: 2025.06

Figure 1: Overview of FiS-VLA. (a) Unlike previous dual-system VLA methods [1, 2] that attach a

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#353 2023.05 4/5

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model

저자: Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li | 날짜: 2023.05

Figure 1:

Essence

![Figure 1](figures/fig1.webp) *Figure 1:* 본 논문은 Large Language Model(LLM)을 활용하여 자연언어 및 시각적 지시사항을 로봇 조작 작업의 순차적 행동으로 매핑하는 Instruct2Act 프레임워크를 제안한다. SAM과 CLIP 같은 기초 모델들을 API로 활용하여 인식, 계획, 행동 루프를 구현하는 Python 프로그램을 생성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 LLM과 시각 기초 모델을 효과적으로 결합하여 멀티모달 지시사항을 로봇 행동으로 매핑하는 실용적인 프레임워크를 제시하며, 학습 없는 제로샷 방식으로 우수한 성능을 달성했다는 점에서 의의가 있다. 다만 평가 범위가 제한적이고 오류 전파 메커니즘에 대한 분석이 보완되어야 할 것으로 판단된다.

#354 2022.09 4/5

Open-vocabulary Queryable Scene Representations for Real World Planning

저자: Boyuan Chen, Fei Xia, Brian Ichter, Kanishka Rao, Keerthana Gopalakrishnan, Michael S. Ryoo, Austin Stone, Daniel Kappler | 날짜: 2022.09

Fig. 1: NLMap + SayCan overview. We propose an open-vocabulary and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

VLM Compression & Error Recovery 5 ▶

#355 2024.11 4/5

CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation

저자: Qixiu Li, Yaobo Liang, Zeyu Wang, Lin Luo, Xi Chen, Mozheng Liao, Fangyun Wei, Yu Deng, Sicheng Xu, Yizhong Zhang, Xiaofan Wang, Bei Liu, Jianlong Fu, Jianmin Bao, Dong Chen, Yuanchun Shi, Jiaolong Yang, Baining Guo | 날짜: 2024.11

Figure 1. (a) Success rate (%) comparison of our model against RT-1 [7], RT-1-X [48], RT-2-X [48], Octo [62], and OpenVL

Essence

![Figure 1](figures/fig1.webp) *Figure 1. (a) Success rate (%) comparison of our model against RT-1 [7], RT-1-X [48], RT-2-X [48], Octo [62], and OpenVL* CogACT는 Vision-Language-Model을 기반으로 하되 cognition과 action을 분리하여 specializing된 diffusion action transformer 모듈을 통해 로봇 조작의 성능을 대폭 향상시킨 VLA 모델이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

CogACT는 VLM과 diffusion action transformer의 effective synergy를 통해 로봇 조작 성능에서 significant advancement를 달성한 well-motivated 연구이며, componentized 아키텍처와 체계적인 실험을 통해 높은 원창성과 실용적 가치를 보여준다.

#356 2026.01 4/5

InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

Figure 1. InternVLA-A1 unifies scene understanding, visual foresight generation, and action execution

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#357 2025.06 4/5

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

저자: Yuxuan Chen, Xiao Li | 날짜: 2025.06

Fig. 1 : RLRC substantially compresses the VLA, leading to

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#358 2023.07 4/5

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Figure 1 | RT-2 overview: we represent robot actions as another language, which can be cast into text tokens and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#359 2025.09 4/5

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

저자: Hanzhen Wang, Jiaming Xu, Yushun Xiang, Jiayi Pan, Yongkang Zhou, Yong-Lu Li, Guohao Dai | 날짜: 2025.09

Essence

![Figure 2](figures/fig2.webp) *Figure 2. Overview of SpecPrune-VLA. We prune the visual tokens with global and local information with a lightweight act* SpecPrune-VLA는 Vision-Language-Action 모델의 LLM 추론을 가속화하기 위해 시간-공간 일관성을 활용한 액션-인식 자체-추측 토큰 프루닝 기법을 제안한다. 두 단계 프루닝(액션 레벨 정적 프루닝과 레이어 레벨 동적 프루닝)과 액션-인식 컨트롤러를 통해 최대 1.70배 속도 향상을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

SpecPrune-VLA는 VLA 모델의 spatial-temporal consistency를 체계적으로 분석하고 이를 활용한 새로운 프루닝 방법을 제안하여 실질적인 속도 향상과 성능 유지를 동시에 달성했다. Training-free 방식의 일반성과 명확한 실험 검증이 강점이며, VLA 모델 최적화의 중요한 진전을 나타낸다.

VLA Policy Training and Adaptation 235편 ▶

VLA Policy Training and Adaptation Timeline

Category Overview

# VLA Policy Training and Adaptation 카테고리 개요 Vision-Language-Action(VLA) 모델을 기반으로 로봇 정책 학습, 적응, 평가를 다루는 이 카테고리는 로봇 조작(manipulation)과 네비게이션 작업의 자동화를 목표로 한다[1296][1299]. 주요 연구는 VLA 모델의 효율적인 압축 및 양자화[1320], 자동 회귀 궤적 생성(auto-regressive trajectory generation)[1328][1310], 확산 모델 기반 정책 학습(diffusion-based policy learning)[1361][1352]을 포함한다. 또한 대규모 로봇 데이터셋 구축[1323], 시뮬레이션-현실 전이(sim-to-real transfer)[1309], 교차 형태 로봇 간 정책 전이(cross-morphology policy transfer)[1346], 계층적 조작 정책(hierarchical manipulation policy)[1316]과 같은 실용적 문제 해결에 집중한다[1348]. 마지막으로 자동화된 정책 평가 시스템[1314], 일관성 증류(consistency distillation)[1339], 제로샷 네비게이션[1342] 등 정책 효율성 향상 기법들이 통합되어 실세계 로봇 자동화의 신뢰성과 일반화 능력을 강화하고 있다[1350][1357].

VLA Post-Training for Motor Control: VLA Post-Training for Motor Control은 시각-언어-행동(Vision-Language-Action) 모델을 로봇의 모터 제어 작업에 특화시키기 위한 사후 학습(post-training) 방법론을 다루는 분야입니다. [1296]에서 제시된 실용적인 VLA 기반 모델(pragmatic VLA foundation model)은 다양한 로봇 조작 작업에 적응할 수 있는 기초를 제공합니다. [1372]의 대규모 로봇 조작 데이터셋(DROID)과 [1323]의 BridgeData V2와 같은 풍부한 학습 데이터는 효과적인 모터 제어 학습을 가능하게 합니다. [1513]에서는 VLA 모델의 사후 학습이 인간의 운동 학습(human motor learning) 과정과 유사한 메커니즘을 따름을 보여줍니다. [1462]의 지속적 모방 학습(continual imitation learning)과 [1357]의 손가락 조작(dexterous manipulation) 기법들은 다양한 환경에서의 적응적 제어 능력을 향상시킵니다. 이러한 방법론들은 로봇이 복잡한 실세계 작업을 효과적으로 수행하도록 하는 모터 제어 능력 개발에 핵심적인 역할을 합니다.
Dexterous Auto-Regressive Trajectory Manipulation: Dexterous Auto-Regressive Trajectory Manipulation은 로봇의 정교한 조작 능력을 향상시키기 위해 자동회귀(Auto-Regressive) 방식으로 궤적(Trajectory)을 모델링하고 학습하는 기술입니다. 이 접근법은 Vision-Language-Action(VLA) 정책 학습의 핵심 전략으로, 로봇이 시각 정보와 언어 지시를 통해 단계적으로 다음 행동을 예측하며 복잡한 조작 작업을 수행할 수 있도록 합니다. [1328]의 Chain-of-Action에서는 궤적 자동회귀 모델링(Trajectory Autoregressive Modeling)을 통해 로봇의 장기 조작 능력을 향상시키고, [1467]의 Manipulate-Anything에서는 비전-언어 모델을 활용하여 실제 로봇의 조작을 자동화하는 방법을 제시합니다. [1364]의 Diffusion-VLA와 [1411]의 GR-RL은 확산 모델(Diffusion Model)과 강화학습(Reinforcement Learning)을 결합하여 더욱 정교하고 정밀한 장시간 조작(Long-Horizon Manipulation)을 구현합니다. 이러한 기술들은 다양한 환경에서 일반화 가능하고 해석 가능한 로봇 파운데이션 모델(Robot Foundation Model)을 구축하는 데 기여합니다.
Efficient VLA Token Compression & Quantization: VLA 모델의 효율적인 토큰 압축 및 양자화(Efficient VLA Token Compression & Quantization)는 로봇 조작 작업에서 비전-언어-액션 모델의 계산 비용을 줄이기 위한 핵심 기술이다. [1320]의 BitVLA는 1-bit 양자화를 통해 VLA 모델의 파라미터를 극도로 압축하여 로봇 시스템의 메모리 사용량과 추론 시간을 획기적으로 감소시킨다. [1617]의 VLA-Cache는 KV 캐시(Key-Value Cache) 최적화 기법을 도입하여 시각적 특징 토큰의 중복 계산을 제거함으로써 효율성을 극대화한다. 이러한 압축 및 양자화 기법들은 모델 성능 저하를 최소화하면서도 엣지 디바이스(edge device)에서의 실시간 로봇 제어를 가능하게 한다. [1592]의 TraceVLA와 같은 연구들은 시간-공간적 정보의 효율적 인코딩을 통해 불필요한 토큰을 제거하는 방식으로 모델 경량화를 구현한다. 궁극적으로 이러한 토큰 압축 및 양자화 기술은 제한된 컴퓨팅 자원을 가진 로봇 플랫폼에서도 고성능의 VLA 모델을 실행할 수 있는 길을 열어준다.
Robot Task Decomposition & Reasoning: 로봇 작업 분해 및 추론(Robot Task Decomposition & Reasoning)은 복잡한 로봇 제어 작업을 더 작은 단계로 나누어 수행하는 기술 영역입니다. 이는 Vision-Language-Action(VLA) 모델이 자연언어 지시를 이해하고 이를 구체적인 로봇 행동으로 변환할 때 필수적인 능력입니다. [1547]에서 제시된 Embodied Chain-of-Thought Reasoning 방식은 로봇이 단계별로 추론하며 작업을 실행하도록 하는 반면, [1510]의 OpenVLA와 같은 오픈소스 VLA 모델들은 다양한 플랫폼과 환경에 적응할 수 있는 기반을 제공합니다. [1560]의 SARA-RT(Self-Adaptive Robotics Transformers)는 테스트 시점의 샘플링과 검증을 통해 로봇의 일반화 능력을 강화하며, [1632]의 World Simulation 기법은 비디오 기반 파운데이션 모델을 활용해 물리적 세계에서의 로봇 행동을 예측하고 검증합니다. 이러한 기술들의 결합은 로봇이 새로운 작업에 더욱 효과적으로 적응하고 복잡한 다단계 작업을 자율적으로 수행할 수 있게 만듭니다.
Diffusion-Based Robot Data Augmentation: Diffusion-Based Robot Data Augmentation은 확산 모델(Diffusion Model)을 활용하여 로봇 학습에 필요한 데이터를 효과적으로 생성하고 증강하는 기술 분야입니다. [1352]에서는 사전학습된 확산 모델을 통해 단일 시연(One-Shot Demonstration)으로부터 로봇 행동 데이터를 생성하는 방식을 제시하며, [1361]에서는 로봇 조작(Robotic Manipulation) 작업에 적용되는 다양한 확산 모델 기반 기법들을 종합적으로 분석합니다. 또한 [1447]과 [1522]는 각각 크로스 구체화(Cross-Embodiment) 조작과 양손 조작(Bimanual Manipulation)을 위한 확산 정책(Diffusion Policy)을 개발하여 데이터 효율성을 높입니다. [1524]에서는 시각-촉각 통합(Visual-Tactile Integration) 정책을 통해 로봇의 반응성을 개선하는 방법을 제안하고, [1565]에서는 의미론적 상상(Semantically Imagined Experience)을 통해 로봇 학습 규모를 확장하는 기법을 소개합니다. 이러한 연구들은 제한된 실제 로봇 데이터 문제를 해결하고 일반화 가능한 로봇 정책 학습을 실현하는 데 중요한 역할을 합니다.
Cross-Morphology Robot Policy Transfer: Cross-Morphology Robot Policy Transfer는 서로 다른 형태의 로봇들 간에 학습된 정책(Policy)을 전이하는 기술을 다룹니다. 이는 하나의 통합된 제어기(Universal Controller)를 여러 형태의 로봇에 적용하여 학습 효율성을 극대화하는 것을 목표로 합니다. [1475] MetaMorph는 Transformer 기반의 범용 제어기 학습 방법을 제시하며, [1504] Open X-Embodiment는 다양한 로봇 플랫폼의 대규모 학습 데이터셋과 RT-X 모델을 공개함으로써 교차-신체(Cross-Embodied) 학습의 기초를 마련했습니다. [1562] Scaling Cross-Embodied Learning은 조작 작업(Manipulation Tasks)에서 하나의 정책으로 여러 로봇을 제어할 수 있음을 보여주며, 이러한 접근법은 로봇 학습의 확장성(Scalability)과 일반화 성능을 대폭 향상시킵니다.
Consistency Distillation for Diffusion Policies: VLA(Vision Language Action) 정책 학습에서 확산 정책(Diffusion Policies)의 일관성 증류(Consistency Distillation)는 계산 효율성을 크게 향상시키는 핵심 기술이다. 이 분야의 연구들은 일관성 정책(Consistency Policy)을 통해 다단계 확산 과정을 단계적으로 가속화하고 [1339], 단일 단계 확산 정책(One-Step Diffusion Policy)으로 발전시켜 비전-모터 작업의 실시간 성능을 달성하고 있다 [1502]. 또한 데이터 스케일링 법칙(Data Scaling Laws)의 이해 [1348]와 세계 모델(World Models)을 활용한 적응 메커니즘 [1368]을 통해 로봇 조작 작업의 일반화 성능을 개선하고 있다. 이러한 정책 증류 기법들은 시뮬레이션과 실제 환경 간의 간격을 줄이고 [1431], 경량화된 정책 모델로도 높은 성능을 유지할 수 있도록 함으로써 현실적인 로봇 배포를 가능하게 한다.
VLA Datasets for Driving & Manipulation: VLA(Vision Language Action) 모델을 위한 드라이빙 및 매니퓰레이션 데이터셋은 로봇이 시각 정보와 언어 지시를 통해 실제 작업을 수행하도록 학습하는 핵심 자원입니다. [1519]에서 제시된 순수 VLA 모델들은 대규모 멀티모달 데이터셋을 기반으로 시각 인식과 행동 제어를 통합적으로 학습하며, 이러한 데이터셋은 자율 주행(autonomous driving)과 로봇 조작(manipulation) 작업의 성능을 크게 향상시킵니다. [1350]의 심층 강화학습 조사에서 강조된 바와 같이, 현실 세계(real-world) 데이터의 수집과 처리는 로봇 학습의 가장 중요한 도전 과제입니다. 최근 파운데이션 모델(foundation models) 시대의 로봇 학습 연구 [1545]에서는 사전학습된 대규모 언어-비전 모델을 활용하여 드라이빙과 매니퓰레이션 작업에 대한 효율적인 적응이 가능함을 보였습니다. [1351]의 동적 추론 방식은 멀티모달 LLM의 계산 효율성을 개선하면서도 실시간 로봇 제어를 위한 고품질 데이터셋의 중요성을 강조합니다.
Automated Robot Policy Evaluation: 자동화된 로봇 정책 평가(Automated Robot Policy Evaluation)는 대규모 기반 모델(Large Language Model) 기반의 로봇 정책을 효율적으로 검증하고 개선하기 위한 핵심 기술 분야이다. [1309]의 Real-Sim-Real (RSR) 루프 프레임워크는 실제 환경과 시뮬레이션 환경을 순환적으로 활용하여 로봇 정책의 일반화 성능(Generalization)을 체계적으로 평가하고 개선하는 방법론을 제시한다. [1314]의 AutoEval은 자율적 평가 시스템(Autonomous Evaluation System)을 통해 일반화된 로봇 조작 정책을 자동으로 검증하고 피드백을 생성함으로써 정책 학습의 효율성을 높인다. [1386]과 [1535]는 시뮬레이션 환경에서의 정책 평가 결과를 실제 환경으로 전이(Transfer)하는 방법과 분산된 실제 환경에서의 대규모 평가 인프라(Infrastructure)를 구축하여 로봇 정책의 실제 성능을 신뢰성 있게 측정하는 기술들을 다룬다.
Sim-to-Real Transfer for Navigation & Manipulation: 시뮬레이션에서 실제 환경으로의 전이(Sim-to-Real Transfer)는 로봇의 네비게이션과 조작 작업에서 핵심적인 과제입니다. [1299]에서 다루는 물리 기반 시뮬레이션은 현실적인 로봇 동작을 학습하기 위한 기초를 제공하며, 이를 통해 실제 환경에서의 성능 저하를 최소화할 수 있습니다. [1544]의 robosuite와 같은 모듈형 시뮬레이션 프레임워크(Modular Simulation Framework)는 다양한 조작 작업을 벤치마킹하고 표준화된 환경에서 정책을 학습하는 데 중요한 역할을 합니다. 시뮬레이션 환경에서 학습한 비전-언어-행동 모델(Vision-Language-Action Models)이 실제 로봇에 효과적으로 적용되기 위해서는 도메인 랜더라이제이션(Domain Randomization)과 같은 기법이 필수적입니다. [1627]에서 논의되는 바와 같이, 실제 성능에 영향을 미치는 핵심 요소들을 파악하고 최적화하는 것이 Sim-to-Real Transfer의 성공을 결정합니다. 따라서 물리 기반 시뮬레이션, 표준화된 벤치마크, 그리고 효과적인 모델 아키텍처의 조합이 로봇의 현실적 적용을 가능하게 합니다.
Flow Matching Trajectory Diffusion Policy: Flow Matching Trajectory Diffusion Policy는 확산 모델(Diffusion Model)과 플로우 매칭(Flow Matching) 기법을 결합하여 로봇의 복잡한 조작 궤적을 생성하는 정책 학습 방법입니다. [1362]의 Diffusion Policy에서 시작된 비주얼-모터 정책(Visuomotor Policy) 학습 패러다임은 행동 확산(Action Diffusion)을 통해 다양한 궤적을 효과적으로 모델링할 수 있음을 보여주었습니다. [1423]의 계층적 확산 정책(Hierarchical Diffusion Policy)은 고수준 계획과 저수준 제어를 분리하여 조작 궤적 생성(Manipulation Trajectory Generation)의 정확성을 향상시켰습니다. [1580]의 Streaming Flow Policy는 이러한 접근법을 더욱 간소화하여 실시간 정책 실행을 가능하게 하는 효율적인 프레임워크를 제시합니다. 이러한 진화는 로봇이 다양한 환경과 작업에 적응할 수 있는 보다 안정적이고 유연한 정책 학습 기법을 제공합니다.
Zero-Shot Diffusion-Based Navigation: Zero-Shot Diffusion-Based Navigation은 사전 학습된 확산 모델(Diffusion Model)을 활용하여 별도의 미세 조정 없이 새로운 환경에서 로봇 네비게이션을 수행하는 기술입니다. 이 접근 방식은 시뮬레이션에서 학습한 정책(Policy)을 실제 환경(Real-world)으로 전이하는 Sim-to-Real 문제를 해결하기 위해 시각 예측 모델(Visual Predictors)을 활용합니다[1490]. 확산 기반 정책은 순차적 생성 과정을 통해 안정적인 네비게이션 동작을 학습하며, 학습된 순방향 동역학 모델(Perceptive Forward Dynamics Model)을 통해 환경 변화에 대한 안전한 적응이 가능합니다[1449]. 또한 Sim-to-Real 네비게이션 확산 정책(Diffusion Policy) 학습은 로봇이 현실 환경에서 마주하는 다양한 상황에 일반화(Generalization)될 수 있도록 설계됩니다[1488]. 이러한 방식은 추가 학습 없이도 제로샷(Zero-Shot) 성능을 제공하여 실용적인 로봇 네비게이션 시스템 구축을 가능하게 합니다.
Offline VLA Fine-Tuning & Adaptation: # Offline VLA Fine-Tuning & Adaptation (2편) 오프라인 VLA(Vision Language Action) 미세조정 및 적응은 사전학습된 모델을 특정 로봇 작업에 최적화하는 기술입니다. [1394]에서 제시된 FLaRe는 마스터풀하고 적응적인 로봇 정책을 달성하기 위해 오프라인 데이터셋을 활용한 효율적인 파인튜닝 방법론을 제안합니다. 동시에 [1557]의 연구는 VLA를 실시간 속도(real-time speed)로 실행하기 위한 계산 최적화 기법들을 다루며, 이는 실제 로봇 배포 환경에서의 실질적 제약을 해결합니다. 오프라인 적응 기법들은 기존의 수집된 시연 데이터(demonstration data)로부터 학습하므로 온라인 상호작용 비용을 절감할 수 있습니다. 이러한 접근 방식들은 다양한 로봇 플랫폼에서 정책 일반화(policy generalization) 능력을 향상시키고, 계산 효율성과 성능의 균형을 맞추는 데 중요한 역할을 합니다.
Hierarchical VLA Robotic Manipulation: 계층적 VLA(Vision Language Action) 로봇 조작 기술은 복잡한 작업을 다단계의 부작업으로 분해하여 체계적으로 수행하는 방식입니다. 이러한 접근법은 멀티에이전트 협력(multi-agent collaboration) 환경에서 특히 효과적이며, 각 에이전트 간의 신뢰도 기반 학습을 통해 성능을 최적화할 수 있습니다[1401][1629]. 가우시안 프로세스(Gaussian Process) 기반의 분산 학습 방식은 불확실성 추정(uncertainty estimation)과 에이전트 선택(elective learning)을 가능하게 하여, 로봇이 어떤 협력자를 신뢰할지 동적으로 판단하도록 합니다[1629]. 이러한 기술들은 로봇이 시각-언어 모델의 의도 이해 능력과 정확한 조작 능력을 결합하여 보다 지능형 작업 수행이 가능하게 합니다. 결과적으로 계층적 VLA 로봇 조작은 산업 자동화와 복잡한 환경에서의 자율 로봇 시스템 구현에 중요한 역할을 하고 있습니다.

📌 핵심: RL 기반 VLA 미세조정과 대규모 인간 비디오 사전학습이 결합되어 데이터 효율성과 OOD 일반화 성능이 동시에 향상되는 패러다임 전환이 일어나고 있다.
⚠ 갭: Cross-embodiment 일반화와 지속적 학습(continual learning)을 동시에 달성하는 단일 통합 프레임워크가 아직 부재하며, catastrophic forgetting 문제 해결이 미흡하다.
🏛 정책: 범용 로봇 정책 사전학습을 위한 국가 단위 대규모 데이터 공유 플랫폼 구축과 공개 모델 생태계 지원이 경쟁력 확보에 필수적이다.

Robot Task Decomposition & Reasoning 28 ▶

#360 2024.10 5/5

Jailbreaking LLM-Controlled Robots

저자: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas | 날짜: 2024.10

Figure 1: Jailbreaking LLM-controlled robots.

Essence

Evaluation

Novelty: 5 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 5

#361 2025.06 4/5

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

저자: Wenxuan Song, Jiayi Chen, Pengxiang Ding, Yuxin Huang, Han Zhao, Donglin Wang, Haoang Li | 날짜: 2025.06

Figure 1: Acceleration effect of CEED-VLA on OpenVLA and LLaVA-VLA. Left: Comparison

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#362 2024.11 4/5

CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation

Figure 1. (a) Success rate (%) comparison of our model against RT-1 [7], RT-1-X [48], RT-2-X [48], Octo [62], and OpenVL

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#363 2025.09 4/5

Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs

저자: Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang | 날짜: 2025.09

Fig. 1. Peak VRAM usage for each evaluated VLA model

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#364 2023.04 4/5

DINOv2: Learning Robust Visual Features without Supervision

저자: Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski | 날짜: 2023.04

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Evolution of performance when scaling in parameters. We show performance on eight* 자기지도학습(self-supervised learning)을 대규모 큐레이션 데이터와 1B 파라미터 ViT 모델로 학습하여 텍스트 감독 없이도 다양한 비전 작업에서 통용되는 고급 시각 특성을 생성하는 DINOv2 모델을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DINOv2는 자기지도학습으로 foundation 모델 수준의 범용 시각 특성을 생성 가능함을 체계적인 데이터 큐레이션과 확장 최적화로 입증한 획기적 연구이며, 광범위한 벤치마크 검증과 모델 공개로 실용적 영향력이 매우 높다.

#365 2023.12 4/5

Foundation Models in Robotics: Applications, Challenges, and the Future

저자: Roya Firoozi, Johnathan Tucker, Stephen Tian, Anirudha Majumdar, Jiankai Sun, Weiyu Liu, Yuke Zhu, Shuran Song, Ashish Kapoor, Karol Hausman, Brian Ichter, Danny Driess, Jiajun Wu, Cewu Lu, Mac Schwager | 날짜: 2023.12

Fig. 1. Overview of Robotics Tasks Leveraging Foundation Models.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Overview of Robotics Tasks Leveraging Foundation Models.* 본 논문은 로봇 자동화 스택의 지각, 의사결정, 제어 전반에 걸쳐 foundation model의 응용을 포괄적으로 조사하며, 로봇 도메인 적용 시 데이터 부족, 실시간 성능, 안전성 보장 등의 주요 과제를 제시한다.

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 로봇 자동화에서 foundation model의 역할을 체계적으로 정리한 중요한 조사 논문으로, 기술적 성과뿐 아니라 안전성과 실시간 성능이라는 실무적 과제를 균형있게 다루어 해당 분야의 나침반 역할을 할 수 있다.

#366 2023.09 4/5

GAIA-1: A Generative World Model for Autonomous Driving

저자: Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev | 날짜: 2023.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

#367 2024.10 4/5

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

저자: Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu | 날짜: 2024.10

Figure 1: Overview. GR-2 undegoes two stages of training: video generation pre-training and robot data

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#368 2025.12 4/5

HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies

저자: Zhiying Du, Bei Liu, Yaobo Liang, Yichao Shen, Haidong Cao, Xiangyu Zheng, Zhiyuan Feng, Zuxuan Wu, Jiaolong Yang, Yu-Gang Jiang | 날짜: 2025.12

Figure 1: Overview of HiMoE-VLA. The left blue part illustrates the VLM backbone initialized

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of HiMoE-VLA. The left blue part illustrates the VLM backbone initialized* HiMoE-VLA는 로봇 데이터의 이질성(action space, embodiment, sensor configuration 등)을 명시적으로 처리하기 위해 계층적 Mixture-of-Experts 아키텍처를 제안하는 Vision-Language-Action 프레임워크이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

HiMoE-VLA는 로봇 데이터의 본질적 이질성을 명시적으로 다루는 계층적 MoE 설계로 VLA 분야에 의미 있는 기여를 하며, 광범위한 실험을 통해 기존 방법 대비 향상된 성능과 일반화 능력을 입증한 우수한 연구이다.

#369 2025.12 4/5

저자: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn | 날짜: 2024.06

Figure 1: We present OpenVLA, a 7B-parameter open-source vision-language-action model (VLA), trained

Essence

![Figure 1](figures/fig1.webp) *Figure 1: We present OpenVLA, a 7B-parameter open-source vision-language-action model (VLA), trained* OpenVLA는 970k개의 로봇 시연 데이터로 학습된 7B 파라미터의 오픈소스 Vision-Language-Action 모델로, 폐쇄형 모델들보다 우수한 성능을 보이면서 효율적인 미세조정과 배포를 지원한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

OpenVLA는 폐쇄형 대규모 VLA 모델을 능가하는 성능을 더 작은 파라미터로 달성하면서 완전한 오픈소스 공개와 효율적 미세조정 방법을 제시하여 로봇 분야의 파운데이션 모델 생태계 구축에 중요한 기여를 한다.

#373 2023.05 4/5

PaLI-X: On Scaling up a Multilingual Vision and Language Model

저자: Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi Tay, Siamak Shakeri, Mostafa Dehghani, Daniel Salz, Mario Lucic, Michael Tschannen, Arsha Nagrani, Hexiang Hu, Mandar Joshi, Bo Pang, Ceslee Montgomery, Paulina Pietrzyk, Marvin Ritter, AJ Piergiovanni, Matthias Minderer, Filip Pavetic, Austin Waters, Gang Li, Ibrahim Alabdulmohsin, Lucas Beyer, Julien Amelot, Kenton Lee, Andreas Peter Steiner, Yang Li, Daniel Keysers, Anurag Arnab, Yuanzhong Xu, Keran Rong, Alexander Kolesnikov, Mojtaba Seyedhosseini, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut | 날짜: 2023.05

Figure 1: [Left] Comparing PaLI-X against PaLI on image-captioning and VQA benchmarks. [Right]

Essence

![Figure 1](figures/fig1.webp) *Figure 1: [Left] Comparing PaLI-X against PaLI on image-captioning and VQA benchmarks. [Right]* PaLI-X는 시각 및 언어 컴포넌트를 균형있게 확장한 다국어 비전-언어 모델로, 25개 이상의 벤치마크에서 새로운 최첨단 성능을 달성하며 복잡한 계산과 다국어 객체 검출 같은 새로운 능력을 보여준다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

PaLI-X는 균형잡힌 초대형 비전-언어 모델 확장을 통해 광범위한 작업에서 최첨단 성능을 달성하고 새로운 emergence capability를 보여주는 매우 의미 있는 연구이다. 단, 모델 규모로 인한 실무 적용의 제약과 emergence 메커니즘에 대한 심층 분석이 추가되면 더욱 우수한 논문이 될 것이다.

#374 2025.06 4/5

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

저자: Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone | 날짜: 2025.06

Figure 1: Inference-Time Scaling Law: We observe that action error consistently decreases as we

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#375 2024.07 4/5

Robotic Control via Embodied Chain-of-Thought Reasoning

저자: Michał Zawalski, William Chen, Karl Pertsch, Oier Mees, Chelsea Finn, Sergey Levine | 날짜: 2024.07

Figure 1:

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#376 2023.12 4/5

SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention

저자: Isabel Leal, Krzysztof Choromanski, Deepali Jain, Avinava Dubey, Jake Varley, Michael Ryoo, Yao Lu, Frederick Liu, Vikas Sindhwani, Quan Vuong, Tamas Sarlos, Ken Oslund, Karol Hausman, Kanishka Rao | 날짜: 2023.12

Fig. 1: Robotics Transformer policies obtained via Self-Adaptive Robust Attention (SARA) in action for three different m

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Robotics Transformer policies obtained via Self-Adaptive Robust Attention (SARA) in action for three different m* SARA-RT는 Robotics Transformer를 on-robot 배포에 적합하도록 선형 주의(linear attention)로 변환하는 up-training 방법을 제시하여, quadratic 복잡도의 모델을 high quality 유지하면서 효율화한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

SARA-RT는 Robotics Transformer의 on-robot 배포라는 중요한 실제 문제를 우아하고 효과적으로 해결하며, up-training과 Gaussian 전처리라는 간단하지만 혁신적인 방법을 제시한다. 다만, 구체적인 성능 벤치마크와 광범위한 평가가 보강되면 더욱 강력한 contribution이 될 것이다.

Figure 1: Efﬁcient loss implementation demonstrated via a mock setup with 3 devices and a global batch size of 12. There

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Efﬁcient loss implementation demonstrated via a mock setup with 3 devices and a global batch size of 12. There* Language-Image Pre-training을 위해 softmax 정규화 대신 pairwise sigmoid loss를 제안하며, 이는 배치 크기와 무관하게 작동하여 메모리 효율성을 개선하고 작은 배치 크기에서 더 나은 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Sigmoid loss를 통해 language-image pre-training의 효율성과 확장성을 동시에 개선한 우수한 연구로, 실무적 접근 가능성을 크게 높이며 배치 크기의 영향에 대한 중요한 통찰을 제공한다.

#381 2024.09 4/5

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

저자: Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, Jian Tang | 날짜: 2024.09

Essence

TinyVLA는 경량의 vision-language 모델과 diffusion policy decoder를 결합하여 대규모 로봇 데이터 사전학습 없이도 빠른 추론 속도와 높은 데이터 효율성을 달성하는 로봇 조작용 VLA 모델이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

TinyVLA는 경량 VLM과 diffusion policy의 창의적 결합을 통해 추론 속도와 데이터 효율성이라는 실제 로봇 배포의 핵심 문제를 효과적으로 해결하며, 광범위한 시뮬레이션 및 실제 로봇 실험을 통해 우수한 성능을 입증한 우수한 연구이다.

#382 2023.12 4/5

Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis

저자: Yafei Hu, Quanting Xie, Vidhi Jain, Jonathan Francis, Jay Patrikar, Nikhil Keetha, Seungchan Kim, Yaqi Xie, Tianyi Zhang, Hao-Shu Fang, Shibo Zhao, Shayegan Omidshafiei, Dong-Ki Kim, Ali-akbar Agha-mohammadi, Katia Sycara, Matthew Johnson-Roberson, Dhruv Batra, Xiaolong Wang, Sebastian Scherer, Chen Wang, Zsolt Kira, Fei Xia, Yonatan Bisk | 날짜: 2023.12

Figure 1: In this paper, we present a survey toward building general-purpose robots via foundation models. We mainly cat

Essence

![Figure 1](figures/fig1.webp) *Figure 1: In this paper, we present a survey toward building general-purpose robots via foundation models. We mainly cat* 이 논문은 NLP와 CV 분야의 foundation models를 로봇 공학에 적용하여 범용 로봇 시스템 개발을 가능하게 하는 방법을 탐구하는 종합 설문조사이며, 기존 vision/language foundation models의 활용과 robotics-specific foundation models의 설계를 다룬다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 로봇 공학에 foundation models를 적용하는 현황을 최초로 포괄적으로 정리한 중요한 설문조사로, 체계적인 택소노미와 명확한 도전 과제 분석을 제공하며, 향후 범용 로봇 개발을 위한 연구 로드맵을 제시한다.

#383 2025.06 4/5

Unified Vision-Language-Action Model

저자: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang | 날짜: 2025.06

Figure 1: We present UniVLA, a unified vision-language-action model. Unlike prior VLA

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#384 2025.09 4/5

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

저자: Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang | 날짜: 2025.09

Essence

VLA-Adapter는 경량 백본(0.5B 파라미터)을 사용하여 로봇 데이터 사전학습 없이 최첨단 Vision-Language-Action 모델을 학습할 수 있는 새로운 패러다임을 제시한다. Bridge Attention을 통해 비전-언어 표현을 행동 공간에 효과적으로 연결한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

VLA-Adapter는 경량 백본으로도 최첨단 성능을 달성할 수 있음을 보여주며, VL-A 브릿징의 본질에 대한 체계적 분석을 통해 VLA 설계의 실질적 지침을 제공한다. 빠른 학습 시간과 낮은 계산 비용으로 로봇 공학의 접근성을 크게 높이는 중요한 기여이다.

#385 2024.12 4/5

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

저자: Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu | 날짜: 2024.12

Figure 1. Overview of VLABench. VLABench is a large-scale language-conditioned manipulation benchmark to evaluate the co

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#386 2025.10 4/5

Fig. 1: The π0.5 model transfers knowledge from a heterogeneous range of data sources, including other robots, high-leve

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#390 2026.01 4/5

Figure 1: Developing a Human-Centered Benchmark for Embodied AI. Left: human preference score over

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#394 2026.01 4/5

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

저자: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu | 날짜: 2026.01

Figure 1: Being-H0.5 at a Glance. We scale human-centric robot learning with Being-H0.5 toward

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#395 2023.10 4/5

Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

저자: Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao-Hua Sun, Joseph J. Lim | 날짜: 2023.10

Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#396 2023.08 4/5

Figure 1: DreamDojo overview. DreamDojo acquires comprehensive physical knowledge from large-scale

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#403 2025.04 4/5

Dexterous Manipulation through Imitation Learning: A Survey

저자: Shan An, Ziyu Meng, Chao Tang, Yuning Zhou, Tengyu Liu, Fangqiang Ding, Shufang Zhang, Yao Mu, Ran Song, Wei Zhang, Zeng-Guang Hou, Hong Zhang | 날짜: 2025.04

Fig. 1.

Essence

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#404 2024.03 4/5

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Fig. 1: We introduce DROID (Distributed Robot Interaction Dataset), an “in-the-wild” robot manipulation dataset with 76k

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#405 2025.02 4/5

Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions

저자: Shoubin Chen, Zehao Wu, Kai Zhang, Chunyu Li, Baiyang Zhang, Fei Ma, Fei Richard Yu, Qingquan Li | 날짜: 2025.02

Figure 1: A timeline of research progress in the field of Embodied Perception, Navigation

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#406 2025.03 4/5

Gemini Robotics: Bringing AI into the Physical World

저자: Gemini Robotics Team, Saminda Abeyruwan, Joshua Ainslie, Jean-Baptiste Alayrac, Montserrat Gonzalez Arenas, Travis Armstrong, Ashwin Balakrishna, Robert Baruch, Maria Bauza, Michiel Blokzijl, Steven Bohez, Konstantinos Bousmalis, Anthony Brohan, Thomas Buschmann, Arunkumar Byravan, Serkan Cabi, Ken Caluwaerts, Federico Casarini, Oscar Chang, Jose Enrique Chen, Xi Chen, Hao-Tien Lewis Chiang, Krzysztof Choromanski, David D'Ambrosio, Sudeep Dasari, Todor Davchev, Coline Devin, Norman Di Palo, Tianli Ding, Adil Dostmohamed, Danny Driess, Yilun Du, Debidatta Dwibedi, Michael Elabd, Claudio Fantacci, Cody Fong, Erik Frey, Chuyuan Fu, Marissa Giustina, Keerthana Gopalakrishnan, Laura Graesser, Leonard Hasenclever, Nicolas Heess, Brandon Hernaez, Alexander Herzog, R. Alex Hofer, Jan Humplik, Atil Iscen, Mithun George Jacob, Deepali Jain, Ryan Julian, Dmitry Kalashnikov, M. Emre Karagozler, Stefani Karp, Chase Kew, Jerad Kirkland, Sean Kirmani, Yuheng Kuang, Thomas Lampe, Antoine Laurens, Isabel Leal, Alex X. Lee, Tsang-Wei Edward Lee, Jacky Liang, Yixin Lin, Sharath Maddineni, Anirudha Majumdar, Assaf Hurwitz Michaely, Robert Moreno, Michael Neunert, Francesco Nori, Carolina Parada, Emilio Parisotto, Peter Pastor, Acorn Pooley, Kanishka Rao, Krista Reymann, Dorsa Sadigh, Stefano Saliceti, Pannag Sanketi, Pierre Sermanet, Dhruv Shah, Mohit Sharma, Kathryn Shea, Charles Shu, Vikas Sindhwani, Sumeet Singh, Radu Soricut, Jost Tobias Springenberg, Rachel Sterneck, Razvan Surdulescu, Jie Tan, Jonathan Tompson, Vincent Vanhoucke, Jake Varley, Grace Vesom, Giulia Vezzani, Oriol Vinyals, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Fei Xia, Ted Xiao, Annie Xie, Jinyu Xie, Peng Xu, Sichun Xu, Ying Xu, Zhuo Xu, Yuxiang Yang, Rui Yao, Sergey Yaroshenko, Wenhao Yu, Wentao Yuan, Jingwei Zhang, Tingnan Zhang, Allan Zhou, Yuxiang Zhou | 날짜: 2025.03

Figure 1 | Overview of the Gemini Robotics family of embodied AI models. Gemini 2.0 already exhibits

Essence

![Figure 1](figures/fig1.webp) *Figure 1 | Overview of the Gemini Robotics family of embodied AI models. Gemini 2.0 already exhibits* Gemini 2.0 기반의 Vision-Language-Action 모델인 Gemini Robotics를 제시하여, 대규모 멀티모달 모델의 embodied reasoning 능력을 로봇 제어에 직접 활용하고 복잡한 조작 작업을 수행할 수 있도록 한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

본 논문은 state-of-the-art VLM인 Gemini 2.0을 로봇 제어에 성공적으로 적용하여 embodied reasoning과 action grounding을 통합한 Vision-Language-Action 모델을 제시함으로써, 일반 목적의 로봇 개발 분야에 획기적인 기여를 한다. ERQA 벤치마크 개발, Gemini Robotics-ER과 Gemini Robotics 모델의 우수한 성능, 그리고 responsible development 논의는 로봇 AI의 실용화와 안전성을 동시에 고려한 종합적인 접근을 보여준다.

#407 2021.06 4/5

저자: Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu | 날짜: 2025.06

Figure 1: On the left, we present the large-scale OctoNav-Bench, which contains diverse instruction-

Essence

![Figure 1](figures/fig1.webp) *Figure 1: On the left, we present the large-scale OctoNav-Bench, which contains diverse instruction-* 자유형식의 멀티모달 멀티기능 지시를 따를 수 있는 일반화된 embodied navigation 에이전트를 위해 OctoNav-Bench 벤치마크와 OctoNav-R1 방법을 제안한다. Think-Before-Action 추론을 통해 복잡한 네비게이션 작업에서 향상된 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 fragmented된 embodied navigation 작업들을 통합하는 포괄적인 벤치마크와 방법을 처음 제시하며, Think-Before-Action을 통한 명시적 reasoning 도입으로 일반화된 navigation 에이전트 개발에 중요한 기여를 한다. 초기 sim2real 결과는 실용적 가능성을 시사하지만, 추가 실제 환경 검증이 필요하다.

#418 2024.06 4/5

OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning

저자: Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi | 날짜: 2024.06

Figure 1: (a) OmniH2O enables teleoperating a full-size humanoid robot (Unitree H1) to complete tasks that

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#419 2025.06 4/5

Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends

Fig. 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#420 2025.03 4/5

Phantom: Training Robots Without Robots Using Only Human Videos

저자: Marion Lepert, Jiaying Fang, Jeannette Bohg | 날짜: 2025.03

Fig. 1: Overview of learning from human videos. Our method enables training robot policies without collecting any robot

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#421 2019.09 4/5

RLBench: The Robot Learning Benchmark & Learning Environment

저자: Stephen James, Zicong Ma, David Rovick Arrojo, Andrew J. Davison | 날짜: 2019.09

Fig. 1: RLBench is a large-scale benchmark consisting of 100 completely unique, hand-designed tasks. In this ﬁgure we

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: RLBench is a large-scale benchmark consisting of 100 completely unique, hand-designed tasks. In this ﬁgure we* 로봇 학습을 위한 대규모 벤치마크인 RLBench를 제시하며, 100개의 고유한 손-설계 태스크, 다양한 센서 모달리티, 그리고 motion planner를 통한 무한한 데모를 제공한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RLBench는 로봇 학습 커뮤니티를 위한 포괄적이고 확장 가능한 벤치마크로서 다양한 학습 패러다임을 통합적으로 평가할 수 있는 중요한 인프라를 제공한다. 시뮬레이션 기반이라는 제약이 있지만 무한 데모, scalable task creation, 100개 다양한 태스크의 조합으로 로봇 학습 연구의 표준화를 이루고 진전을 가속화할 수 있는 매우 가치 있는 기여이다.

#422 2023.09 4/5

RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking

저자: Homanga Bharadhwaj, Jay Vakil, Mohit Sharma, Abhinav Gupta, Shubham Tulsiani, Vikash Kumar | 날짜: 2023.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#423 2023.06 4/5

RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

저자: Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess | 날짜: 2023.06

Figure 1: The self-improvement process. RoboCat is a multi-task, multi-embodiment visual goal-conditioned

Essence

![Figure 1](figures/fig1.webp) *Figure 1: The self-improvement process. RoboCat is a multi-task, multi-embodiment visual goal-conditioned* RoboCat는 서로 다른 로봇과 작업 경험을 활용하여 다중 embodiment과 다중 작업을 처리할 수 있는 시각 기반 goal-conditioned decision transformer 기반의 자가 개선 로봇 조작 에이전트이다. 100-1000개의 예제만으로 새로운 작업과 로봇에 적응하며, 자체 생성 데이터를 이용한 반복적 개선이 가능하다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

RoboCat는 foundation model 패러다임을 로봇 조작에 성공적으로 적용하여 이질적 embodiment 처리, 효율적 적응, 자가 개선을 동시에 달성한 획기적 연구이다. 광범위한 실험 검증과 명확한 presentation이 강점이나, 복잡도 증가와 장기 scaling에 대한 분석이 향후 과제이다.

#424 2025.03 4/5

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

저자: Yiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai | 날짜: 2025.03

Figure 1. When performing the task “Grab the steak and use the camera to photograph it with 4 embodied agents”, collabor

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#425 2024.12 4/5

RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation

저자: Kun Wu, Chengkai Hou, Jiaming Liu, Zhengping Che, Xiaozhu Ju, Zhuqin Yang, Meng Li, Yinuo Zhao, Zhiyuan Xu, Guang Yang, Shichao Fan, Xinhua Wang, Fei Liao, Zhen Zhao, Guangyu Li, Zhao Jin, Lecheng Wang, Jilei Mao, Ning Liu, Pei Ren, Qiang Zhang, Yaoxu Lyu, Mengzhen Liu, Jingyang He, Yulin Luo, Zeyu Gao, Chenxuan Li, Chenyang Gu, Yankai Fu, Di Wu, Xingyu Wang, Sixiang Chen, Zhenyu Wang, Pengju An, Siyuan Qian, Shanghang Zhang, Jian Tang | 날짜: 2024.12

Fig. 1: Overview of RoboMIND. We introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot Manipulation

저자: Russell Mendonca, Shikhar Bahl, Deepak Pathak | 날짜: 2023.08

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#432 2024.02 4/5

저자: Kevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Lucy Xiaoyang Shi, James Tanner, Quan Vuong, Anna Walling, Haohuan Wang, Ury Zhilinsky | 날짜: 2024.10

Fig. 1: Our generalist robot policy uses a pre-trained vision-language model (VLM) backbone, as well as a diverse cross-

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Our generalist robot policy uses a pre-trained vision-language model (VLM) backbone, as well as a diverse cross-* π0는 사전학습된 vision-language model (VLM)을 기반으로 flow matching을 통해 연속적인 로봇 행동을 생성하는 generalist robot policy를 제안한다. 다양한 로봇 플랫폼에서 10,000시간 이상의 데이터로 사전학습한 후 미세조정을 통해 세탁물 접기, 테이블 청소, 박스 조립 등 복잡한 손작업을 수행할 수 있다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

π0는 flow matching을 VLM 기반 로봇 정책에 처음 적용하고 cross-embodiment 학습으로 다양한 로봇 플랫폼을 통합하여 generalist robot foundation model의 새로운 기준을 제시한다. 10,000시간 이상의 대규모 데이터와 정교한 학습 레시피를 통해 실제 세계에서 복잡한 손작업을 수행 가능함을 보여주며, 로봇 학습의 확장성과 실용성을 크게 향상시키는 중요한 기여이다.

#436 2025.02 4/5

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

저자: Shivansh Patel, Xinchen Yin, Wenlong Huang, Shubham Garg, Hooshang Nayyeri, Li Fei-Fei, Svetlana Lazebnik, Yunzhu Li | 날짜: 2025.02

Fig. 1: Capabilities of Our Framework. IKER is designed to han-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#437 2019.12 4/5

ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

저자: Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, Dieter Fox | 날짜: 2019.12

Figure 1: ALFRED consists of 25k language directives

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#438 2023.12 4/5

Any-point Trajectory Modeling for Policy Learning

저자: Chuan Wen, Xingyu Lin, John So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel | 날짜: 2023.12

Fig. 1: Given a task instruction and the initial positions of any set of points in an image frame, our Any-point Traject

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#439 2023.04 4/5

ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes

저자: Ran Gong, Jiangyong Huang, Yizhou Zhao, Haoran Geng, Xiaofeng Gao, Qingyang Wu, Wensi Ai, Ziheng Zhou, Demetri Terzopoulos, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang | 날짜: 2023.04

Figure 1. The ARNOLD benchmark for language-grounded task learning with continuous states in realistic 3D scenes. ARNOLD

Essence

![Figure 1](figures/fig1.webp) *Figure 1. The ARNOLD benchmark for language-grounded task learning with continuous states in realistic 3D scenes. ARNOLD* ARNOLD은 현실적인 3D 장면에서 연속적 객체 상태를 이해하고 언어 기반 조작 작업을 학습하는 로봇을 평가하기 위한 벤치마크이다. 8개의 언어 조건부 작업과 세밀한 물리 시뮬레이션, 다양한 장면과 객체로 구성되어 있다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ARNOLD은 언어 기반 로봇 작업 학습에서 연속적 객체 상태 이해와 일반화 능력 평가라는 중요한 공백을 채우는 포괄적이고 잘 설계된 벤치마크이다. 현실적 물리 시뮬레이션과 체계적인 평가 프레임워크를 통해 기존 방법의 한계를 명확히 드러내고, 향후 연구에 실질적인 기여를 할 수 있는 가치 있는 자원이다.

#440 2023.12 4/5

Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation

Figure 1. Language-conditioned manipulation sits at the inter-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#441 2025.06 4/5

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

저자: Wenbo Zhang, Tianrun Hu, Hanbo Zhang, Yanyuan Qiao, Yuchu Qin, Yang Li, Jiajun Liu, Tao Kong, Lingqiao Liu, Xiao Ma | 날짜: 2025.06

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#442 2025.05 4/5

CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations

저자: Anthony Liang, Pavel Czempin, Matthew Hong, Yutai Zhou, Erdem Biyik, Stephen Tu | 날짜: 2025.05

Figure 1: Overview of CLAM. CLAM consists of a latent inverse dynamics model, fϕ, which in-

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#443 2025.03 4/5

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

저자: Qingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Ming-Yu Liu, Donglai Xiang, Gordon Wetzstein, Tsung-Yi Lin | 날짜: 2025.03

저자: Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine | 날짜: 2025.01

Fig. 1: We propose FAST, a simple yet effective approach

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#450 2025.10 4/5

Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer

Figure 1 | The Gemini Robotics 1.5 family of models consists of Gemini Robotics 1.5, a VLA, and Gemini

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#451 2025.07 4/5

GR-3 Technical Report

Figure 1 Overview. GR-3 is able to learn from three types of data: vision-language data, robot trajectory data,

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#452 2025.12 4/5

Figure 1. InternVLA-M1 integrates spatial grounding into the vision–language–action training pipeline.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#456 2025.08 4/5

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

저자: Rui Shao, Wei Li, Lingsen Zhang, Renshan Zhang, Zhiyang Liu, Ran Chen, Liqiang Nie | 날짜: 2025.08

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

저자: Dhruv Shah, Blazej Osinski, Brian Ichter, Sergey Levine | 날짜: 2022.07

Figure 1: Embodied instruction following with LM-Nav: Our system takes as input a set of raw observations

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Embodied instruction following with LM-Nav: Our system takes as input a set of raw observations* LM-Nav는 GPT-3, CLIP, ViNG 세 가지 사전학습된 모델을 조합하여 자연언어 명령으로 로봇이 실제 환경에서 네비게이션을 수행하는 시스템이다. 로봇 데이터에 대한 언어 주석 없이도 복잡한 실외 환경에서 장거리 네비게이션을 실현한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LM-Nav는 사전학습 대규모 모델의 획기적 조합을 통해 로봇 학습의 주요 병목(언어 주석)을 제거하면서도 실제 환경에서의 자연언어 네비게이션을 달성한 혁신적 연구다. 파인튜닝 없는 모듈식 설계와 실제 환경 검증이 학계와 산업 양쪽 모두에 높은 영향력을 제시한다.

#461 2024.06 4/5

저자: An-Chieh Cheng, Yandong Ji, Zhaojing Yang, Zaitian Gongye, Xueyan Zou, Jan Kautz, Erdem Bıyık, Hongxu Yin, Sifei Liu, Xiaolong Wang | 날짜: 2024.12

Fig. 1: Real-world demonstration of NaVILA: Upon receiving human instructions, NaVILA uses a vision-language model to pr

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: NaVILA is a two-level framework combining high-level visual language understanding with low-level locomotion con* NaVILA는 Vision-Language-Action 모델과 locomotion RL policy를 통합한 2-단계 프레임워크로, 인간 언어 명령을 legged 로봇의 저수준 관절 제어로 번역하여 복잡한 환경에서의 시각-언어 네비게이션을 실현한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

NaVILA는 언어 기반 고수준 추론과 저수준 로봇 제어를 효과적으로 분리하는 혁신적 프레임워크로, 광범위한 벤치마크 개선, 실세계 검증, 로봇 간 일반화 능력을 통해 legged 로봇 내비게이션의 실질적 진전을 이룬 우수한 연구이다.

#465 2025.09 4/5

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

저자: Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine | 날짜: 2025.09

Fig. 1: We train a highly generalizable vision-based navigation policy with flexible conditioning, leveraging over 9,500

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: We train a highly generalizable vision-based navigation policy with flexible conditioning, leveraging over 9,500* OmniVLA는 2D 포즈, egocentric 이미지, 자연어 등 다양한 모달리티로 조건화된 목표를 처리할 수 있는 omni-modal vision-language-action 모델로, 9,500시간 이상의 다중 플랫폼 로봇 네비게이션 데이터로 학습되어 강력한 일반화 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

OmniVLA는 로봇 네비게이션에 omni-modal 조건화를 처음으로 체계적으로 도입한 강력한 foundation model로, 대규모 다중 플랫폼 데이터와 효과적인 모달리티 fusion 전략으로 기존 specialist 모델들을 능가하는 성능과 유연성을 달성한다. 이는 로봇 기초 모델의 일반화 및 확장성 연구에 중요한 기여를 한다.

#466 2024.05 4/5

Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

저자: Murtaza Dalal, Tarun Chiruvolu, Devendra Chaplot, Ruslan Salakhutdinov | 날짜: 2024.05

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#467 2025.06 4/5

RationalVLA: A Rational Vision-Language-Action Model with Dual System

Fig. 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#468 2025.10 4/5

Figure 1: Top: 3DFA is a flow-matching policy built atop 3D Diffuser Actor [12]. It encodes the

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#483 2025.10 4/5

A Comprehensive Survey on World Models for Embodied AI

저자: Xinqing Li, Xin He, Le Zhang, Min Wu, Xiaoli Li, Yun Liu | 날짜: 2025.10

Fig. 1. Structure of this survey. The figure classifies world models along three axes and illustrates representative met

Essence

![Figure 1](figures/fig1.webp) *Fig. 1. Structure of this survey. The figure classifies world models along three axes and illustrates representative met* Embodied AI를 위한 World Models에 대한 포괄적 조사로, Functionality, Temporal Modeling, Spatial Representation의 세 축 분류체계를 제안하여 환경 동역학을 캡처하고 예측하는 내부 시뮬레이터를 체계적으로 정리한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 조사는 world models 분야의 산재된 문헌을 통합하는 체계적인 분류체계와 수학적 기초를 제시하여, embodied AI 연구의 방향성 제시와 평가 표준화에 기여할 잠재력이 높다. 다만 새로운 실험적 증거나 알고리즘 혁신이 없어 기여도가 구조화와 정리에 한정되며, 제시된 체계가 빠르게 변화하는 생성 모델 환경에서 장기적 유용성을 갖기 위해서는 후속 벤치마킹 및 메트릭 개발이 필수적이다.

#484 2025.03 4/5

Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning

저자: Albert Wilcox, Mohamed Ghanem, Masoud Moghani, Pierre Barroso, Benjamin Joffe, Animesh Garg | 날짜: 2025.03

Figure 1: (a) Adapt3R facilitates zero-shot transfer to novel embodiments and viewpoints. (b) Adapt3R can

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#485 2022.06 4/5

Behavior Transformers: Cloning $k$ modes with one stone

저자: Nur Muhammad Mahi Shafiullah, Zichen Jeff Cui, Ariuntuya Altanzaya, Lerrel Pinto | 날짜: 2022.06

Figure 1: Unconditional rollouts from BeT models trained from multi-modal demonstartions on the CARLA,

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#486 2025.06 4/5

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

저자: Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen | 날짜: 2025.06

Fig. 1: We introduce BitVLA, the first fully native 1-bit vision-language-action (VLA) model for robotic manipulation, i

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: We introduce BitVLA, the first fully native 1-bit vision-language-action (VLA) model for robotic manipulation, i* 로봇 조작을 위한 완전한 1-bit Vision-Language-Action 모델인 BitVLA를 제안하여 11.0배의 메모리 감소와 4.4배의 지연 시간 단축을 달성하면서도 full-precision 기준 모델과 비슷한 성능을 유지한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

BitVLA는 로봇 조작용 VLA 모델의 극단적 양자화의 첫 성공적 사례로, Quantize-then-Distill이라는 혁신적 훈련 전략을 통해 11배 메모리 감소와 4.4배 속도 향상을 달성하면서도 성능을 유지하여 엣지 로봇 배포의 실질적 경로를 제시한다.

#487 2025.08 4/5

CLASS: Contrastive Learning via Action Sequence Supervision for Robot Manipulation

저자: Sung-Wook Lee, Xuhui Kang, Brandon Yang, Yen-Ling Kuo | 날짜: 2025.08

Figure 1: Comparison between Behavior Cloning (BC) and Contrastive Learning via Action

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#488 2021.09 4/5

CLIPort: What and Where Pathways for Robotic Manipulation

저자: Mohit Shridhar, Lucas Manuelli, Dieter Fox | 날짜: 2021.09

Figure 1. Language-Conditioned Manipulation Tasks: CLIPORT is a broad framework applicable to a wide range of language-c

Essence

![Figure 2](figures/fig2.webp) *Figure 2. CLIPORT Two-Stream Architecture. An overview of the semantic and spatial streams. The semantic stream uses a f* CLIPort는 CLIP의 의미론적 이해(what)와 Transporter의 공간적 정밀성(where)을 결합한 두 스트림 아키텍처를 통해, 자연어 명령으로 조건화된 로봇 조작 에이전트를 제시한다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

CLIPort는 대규모 사전학습 vision-language 모델을 정밀 로봇 조작과 효과적으로 결합하여 언어-조건화 멀티태스크 학습의 새로운 패러다임을 제시했으며, 실제 로봇에서의 데이터 효율성과 의미론적 일반화 능력은 로봇 조작 분야에 상당한 실질적 기여를 한다.

#489 2025.10 4/5

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

저자: Suhwan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee | 날짜: 2025.10

Figure 1: Overview of D2E framework. (1) The OWA Toolkit captures 335.6 hours of rich desktop demon-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#490 2025.02 4/5

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

저자: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Zhang Chen, Tianrui Guan, Fanlian Zeng, Ka Num Lui, Yuyao Ye, Yitao Liang, Yaodong Yang, Yuanpei Chen | 날짜: 2025.02

Figure 1: We propose DexGraspVLA, a hierarchical VLA

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#491 2024.10 4/5

Diffusion Transformer Policy

저자: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen | 날짜: 2024.10

Figure 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#492 2025.08 4/5

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

저자: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Tian Nian, Liuao Pei, Shunbo Zhou, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo | 날짜: 2025.08

Figure 1: Paradigm comparison. Continuous diffusion over action chunks (left) versus discrete

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#493 2026.01 4/5

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

저자: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu | 날짜: 2026.01

Fig. 1: (a) Current VLA models face perception–execution (P.E.) gaps and inter-chunk waiting, causing delayed reactions

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Overview of DynamicVLA. (a) A 0.4B-parameter VLA architecture couples a lightweight backbone with an action* DynamicVLA는 동적 객체 조작을 위한 compact 0.4B VLA 모델로, Continuous Inference와 Latent-aware Action Streaming을 통해 지각-실행 간의 지연을 제거하고 실시간 폐루프 제어를 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DynamicVLA는 동적 객체 조작이라는 중요한 미해결 문제에 대해 체계적인 모델 설계, 실시간 실행 메커니즘, 대규모 벤치마크를 종합적으로 제시하는 의미 있는 연구로, 특히 Latent-aware Action Streaming과 자동화된 데이터 수집 파이프라인의 혁신성이 두드러진다.

#494 2026.02 4/5

EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data

Figure 1: EgoScale: Two-stage human-to-robot learning framework. A flow-based Vision-Language-Action

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#495 2025.01 4/5

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

저자: Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Yue Liao, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren | 날짜: 2025.01

Figure 1: An overview of ENERVERSE. With camera ob-

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#496 2025.08 4/5

EO-1: An Open Unified Embodied Foundation Model for General Robot Control

저자: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Dong Wang, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Xuelong Li | 날짜: 2025.08

Figure 1: EO-1 Model Architecture. EO-1 model is a Vision-Language-Action (VLA) model that adopts a

Essence

![Figure 1](figures/fig1.webp) *Figure 1: EO-1 Model Architecture. EO-1 model is a Vision-Language-Action (VLA) model that adopts a* EO-1은 interleaved vision-text-action 사전학습을 통해 multimodal embodied reasoning과 robot control을 통합한 unified embodied foundation model이며, 1.5M 샘플의 EO-Data1.5M 데이터셋과 함께 개발되었다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

EO-1은 interleaved vision-text-action pretraining paradigm을 통해 embodied AI의 근본적인 문제인 reasoning-acting integration을 우아하게 해결하며, 1.5M 규모의 고품질 dataset과 unified architecture의 결합으로 open-world robot control에서 significant advancement를 제시한다. 전체 toolchain의 open release는 community에 substantial contribution을 제공한다.

#497 2025.08 4/5

저자: Tete Xiao, Ilija Radosavovic, Trevor Darrell, Jitendra Malik | 날짜: 2022.03

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#503 2023.07 4/5

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

저자: Adrien Bardes, Jean Ponce, Yann LeCun | 날짜: 2023.07

Figure 1: Multi-task self-supervised learning of content and motion features. MC-JEPA com-

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#504 2025.02 4/5

저자: Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani | 날짜: 2025.07

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#516 2025.02 4/5

VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

저자: Siyu Xu, Yunke Wang, Chenghao Xia, Dihao Zhu, Tao Huang, Chang Xu | 날짜: 2025.02

Figure 1: During the inference of the VLA model, static

Essence

![Figure 1](figures/fig1.webp) *Figure 1: During the inference of the VLA model, static* VLA-Cache는 로봇 조작 작업에서 인접한 프레임 간의 시간적 중복성을 활용하여 정적 시각 토큰의 KV 표현을 캐싱하고 재사용함으로써 Vision-Language-Action 모델의 추론을 가속화하는 학습 불필요 방법이다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

VLA-Cache는 로봇 조작의 시간적 특성을 창의적으로 활용하여 학습 불필요한 상태에서 실질적 추론 가속을 달성한 실용적이고 우수한 연구이다. 작업 관련성 필터링과 layer-adaptive 전략의 정교함과 광범위한 실증이 높은 가치를 제공한다.

#517 2025.12 4/5

WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control

저자: Haoran Jiang, Jin Chen, Qingwen Bu, Li Chen, Modi Shi, Yanjie Zhang, Delong Li, Chuanzhe Suo, Chuang Wang, Zhihui Peng, Hongyang Li | 날짜: 2025.12

Figure 1: Introducing WholeBodyVLA, a humanoid system that operates on Agibot X2 robot and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Offline VLA Fine-Tuning & Adaptation 8 ▶

#518 2025.02 4/5

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

저자: Georgios Kamaras, Subramanian Ramamoorthy | 날짜: 2025.02

Fig. 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#519 2025.02 4/5

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

저자: Yue Yang, Linfeng Zhao, Mingyu Ding, Gedas Bertasius, Daniel Szafir | 날짜: 2025.02

Fig. 1. The example illustrates how Observation Space Shift (OSS) occurs

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#520 2025.02 4/5

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

저자: Yuhui Chen, Shuai Tian, Shugao Liu, Yingting Zhou, Haoran Li, Dongbin Zhao | 날짜: 2025.02

Fig. 1: Overview of ConRFT. This figure illustrates the architecture of our reinforced fine-tuning approach for a pre-tr

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#521 2024.09 4/5

FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning

저자: Jiaheng Hu, Rose Hendrix, Ali Farhadi, Aniruddha Kembhavi, Roberto Martin-Martin, Peter Stone, Kuo-Hao Zeng, Kiana Ehsani | 날짜: 2024.09

Fig. 1: FLaRe is a simple but effective approach for

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#522 2026.03 4/5

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Fig. 1: Multi-Scale Embodied Memory (MEM) equips Vision Language Action Models (VLAs) with memory for solving long-horiz

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#523 2025.10 4/5

Running VLAs at Real-time Speed

저자: Yunchao Ma, Yizhuang Zhou, Yunhuan Yang, Tiancai Wang, Haoqiang Fan | 날짜: 2025.10

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#524 2025.10 4/5

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

저자: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su | 날짜: 2025.10

Figure 1: The Framework of VLA-RFT. A world model functions as a simulator that processes

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#525 2025.03 4/5

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

저자: Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Jason Ma, Dinesh Jayaraman | 날짜: 2025.03

Fig. 1: ZeroMimic distills robotic manipulation skills from egocentric web videos for zero-shot deployment across divers

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Diffusion-Based Robot Data Augmentation 8 ▶

#526 2024.08 4/5

A Survey of Embodied Learning for Object-Centric Robotic Manipulation

저자: Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang, Lap-Pui Chau | 날짜: 2024.08

Fig. 1. An illustration of robotic manipulation system (left) and the typology of embodied learning methods for object-c

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#527 2025.06 4/5

저자: Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan, Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter, Karol Hausman, Fei Xia | 날짜: 2023.02

Figure 1: We propose using text-guided diffusion models for data augmentation within the sphere

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Sim-to-Real Transfer for Navigation & Manipulation 7 ▶

#534 2025.05 4/5

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

저자: Lik Hang Kenny Wong, Xueyang Kang, Kaixin Bai, Jianwei Zhang | 날짜: 2025.05

Fig. 1. Timeline illustrating the evolution of navigation (top) and manipulation (bottom) research in Embodied AI from

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#535 2020.12 4/5

iGibson 1.0: a Simulation Environment for Interactive Tasks in Large Realistic Scenes

Fig. 1: Robot performs an interactive task in iGibson 1.0. It operates

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#536 2024.10 4/5

저자: Xinghang Li, Peiyan Li, Long Qian, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Xinlong Wang, Di Guo, Tao Kong, Hanbo Zhang, Huaping Liu | 날짜: 2024.12

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: This work mainly considers three key ingredients for building VLAs based on VLMs: How to formulate the problem* Vision-Language-Action (VLA) 모델 개발 시 VLM 백본 선택, 아키텍처 설계, 데이터 활용 시점이라는 세 가지 핵심 요소를 체계적으로 분석하고, 이를 통해 RoboVLMs 프레임워크를 제안하여 로봇 조작 작업에서 최고 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

VLA 개발의 핵심 설계 요소를 체계적으로 분석한 중요한 메타 연구로, 광범위한 실증 실험을 통해 실질적인 가이드라인을 제시하고 확장 가능한 프레임워크를 제공함으로써 로봇 기초 모델 연구 커뮤니티에 상당한 기여를 할 것으로 예상된다.

Automated Robot Policy Evaluation 5 ▶

#541 2025.03 4/5

An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation

저자: Lu Shi, Yuxuan Xu, Shiyu Wang, Jinhao Huang, Wenhao Zhao, Yufei Jia, Zike Yan, Weibin Gu, Guyue Zhou | 날짜: 2025.03

Fig. 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#542 2025.03 4/5

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

저자: Zhiyuan Zhou, Pranav Atreya, You Liang Tan, Karl Pertsch, Sergey Levine | 날짜: 2025.03

Figure 1: We introduce AutoEval, a system for scalable, automated real robot evaluation of generalist robot policies.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#543 2025.10 4/5

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#544 2024.05 4/5

저자: Jiazhao Zhang, Anqi Li, Yunpeng Qi, Minghan Li, Jiahang Liu, Shaoan Wang, Haoran Liu, Gengze Zhou, Yuze Wu, Xingxing Li, Yuxin Fan, Wenjun Li, Zhibo Chen, Fei Gao, Qi Wu, Zhizheng Zhang, He Wang | 날짜: 2025.09

Figure 1: We provide an illustration of architecture (left) alongside real-world experiment results (right). The

Essence

![Figure 1](figures/fig1.webp) *Figure 1: We provide an illustration of architecture (left) alongside real-world experiment results (right). The* NavFoM은 8백만 개의 네비게이션 샘플로 학습된 크로스-구현체·크로스-태스크 기반 네비게이션 모델로, 다양한 로봇 플랫폼과 네비게이션 작업에서 미세 조정 없이 최첨단 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

NavFoM은 신체화된 AI 분야에서 크로스-구현체·크로스-태스크 네비게이션을 처음으로 통합적으로 해결한 대규모 기초 모델로, TVI 토큰과 BATS 전략의 혁신적 설계로 다양한 로봇 플랫폼과 네비게이션 작업에서 미세 조정 없이 강력한 일반화 능력을 입증하였다.

#548 2025.04 4/5

ForesightNav: Learning Scene Imagination for Efficient Exploration

저자: Hardik Shah, Jiaxu Xing, Nico Messikommer, Boyang Sun, Marc Pollefeys, Davide Scaramuzza | 날짜: 2025.04

Figure 1. ForesightNav proposes Imagination aided exploration

Essence

![Figure 1](figures/fig1.webp) *Figure 1. ForesightNav proposes Imagination aided exploration* ForesightNav는 로봇이 인간처럼 상상력을 활용하여 미탐사 지역의 점유 및 의미정보를 예측하고, 이를 기반으로 효율적인 장기 네비게이션 목표를 선택하는 탐색 전략을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

ForesightNav는 인간의 상상력 메커니즘을 로봇 탐색에 통합하는 개념적으로 신선한 접근으로, 실험 결과 탐색 효율성 개선을 보여주나 실제 로봇 환경 검증이 필요하다.

#549 2025.09 4/5

GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation

저자: Hang Yin, Haoyu Wei, Xiuwei Xu, Wenxuan Guo, Jie Zhou, Jiwen Lu | 날짜: 2025.09

Figure 1:

Essence

![Figure 2](figures/fig2.webp) *Figure 2: Framework of GC-VLN. We construct a constraint library, containing all the spatial rela-* GC-VLN은 자연언어 지시를 그래프 제약 최적화 문제로 재구성하여 연속 환경에서 학습 없이 작동하는 비전-언어 네비게이션 프레임워크를 제안한다. 공간 제약 라이브러리와 제약 솔버를 통해 zero-shot 환경 적응을 실현한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

GC-VLN은 VLN-CE에서 처음으로 완전한 training-free 접근을 달성한 혁신적 연구로, constraint 기반 최적화 프레임워크의 창의성과 실세계 검증을 통한 실용성이 우수하다. 다만 계산 복잡도 분석과 대규모 실제 환경 실험 확대로 한층 강화될 수 있다.

#550 2025.12 4/5

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

저자: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu | 날짜: 2025.12

Figure 1: The proposed dual-system framework decouples high-level reasoning from low-level con-

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#551 2025.04 4/5

Learned Perceptive Forward Dynamics Model for Safe and Platform-aware Robotic Navigation

저자: Pascal Roth, Jonas Frey, Cesar Cadena, Marco Hutter | 날짜: 2025.04

Fig. 1: Demonstration of the proposed perceptive Forward Dynamics Model for robust navigation in complex environments. T

Essence

![Figure 1](figures/fig1.webp) *Fig. 1: Demonstration of the proposed perceptive Forward Dynamics Model for robust navigation in complex environments. T* 본 논문은 시뮬레이션과 실세계 데이터로 학습한 지각형 Forward Dynamics Model (FDM)을 제안하여, 복잡한 지형에서 사족 로봇의 안전한 네비게이션을 실현한다. 이 FDM을 MPPI 플래닝 프레임워크에 통합하여 복잡한 비용 함수 튜닝 없이 안전한 경로 계획을 가능하게 한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 거친 지형에서 사족 로봇의 안전한 네비게이션을 위해 지각형 FDM을 제안한 의미 있는 연구로, 하이브리드 학습 전략과 MPPI 통합을 통해 비용 함수 튜닝을 제거하고 영점 적응성을 제공한다. 실측 개선(41% 위치 추정, 27% 성공률)과 공개 구현이 큰 강점이나, 실세계 검증 범위 확대와 다양한 플랫폼 적용 가능성 입증이 향후 필요하다.

#552 2025.07 4/5

LOVON: Legged Open-Vocabulary Object Navigator

저자: Daojie Peng, Jiahang Cao, Qiang Zhang, Jun Ma | 날짜: 2025.07

Fig. 1: Object navigation of legged robots in diverse open-world scenarios.

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: Overview of LOVON’s pipeline. First, the LLM task planner reconfigures the human’s task into basic instructions,* LOVON은 LLM 기반 계층적 작업 계획과 open-vocabulary 시각 감지를 통합하여 동적이고 비구조화된 환경에서 legged robot의 장시간 객체 네비게이션을 가능하게 하는 통합 프레임워크이다. Laplacian Variance Filtering 등의 기법으로 실제 환경의 시각적 불안정성을 해결하고 여러 legged robot 플랫폼에서 검증되었다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

LOVON은 LLM 기반 계획과 open-vocabulary 감지를 legged robot과 처음으로 통합하여 비구조화된 환경에서 장시간 object navigation을 달성한 혁신적인 시스템이다. 실제 환경 도전(시각 지터, 목표 손실)에 대한 맞춤형 해결책과 다중 플랫폼 검증을 통해 높은 실용성과 일반화 가능성을 입증하였으나, 극한 환경 성능과 에러 처리 mechanism의 보강이 필요하다.

#553 2025.05 4/5

NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

저자: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang | 날짜: 2025.05

Fig. 1: NavDP is solely trained with simulation data but can achieve zero-shot sim-to-real transfer to different types o

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#554 2024.02 4/5

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

저자: Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang | 날짜: 2024.02

Essence

![Figure 2](figures/fig2.webp) *Fig. 2: The overview of NaVid. The inputs of NaVid consist of the RGB frames from the online video observation {x0, · · * NaVid는 비디오 기반 대규모 VLM을 활용하여 시각-언어 네비게이션에서 RGB 카메라 입력만으로 로봇의 다음 행동을 계획하는 첫 시도이며, 지도나 깊이 정보 없이 시뮬레이션과 실제 환경 모두에서 최고 성능을 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

NaVid는 VLM의 강력한 일반화 능력을 VLN에 성공적으로 적용한 혁신적 연구로, RGB만으로 연속 환경에서 실제 로봇 네비게이션을 수행하는 첫 실용적 VLA 모델이다. Sim-to-Real 전이의 오랜 문제를 우아하게 해결하고 우수한 크로스 데이터셋 일반화를 보여준다.

#555 2025.02 4/5

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

저자: Yiran Qin, Ao Sun, Yuze Hong, Benyou Wang, Ruimao Zhang | 날짜: 2025.02

Fig. 1.

Essence

![Figure 1](figures/fig1.webp) *Fig. 1.* NavigateDiff는 vision-language model과 diffusion network를 결합하여 미래 프레임을 예측하는 visual predictor를 구축하고, 이를 통해 로봇이 제로샷(zero-shot) 상황에서 미지의 환경을 효과적으로 네비게이션할 수 있도록 지원한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

NavigateDiff는 foundation model의 논리적 추론 능력과 이미지 생성 능력을 창의적으로 결합하여 zero-shot 네비게이션에 새로운 접근법을 제시한다. 높은 수준의 추론과 저수준의 제어를 분리하는 구조와 미래 프레임 예측을 중간 표현으로 활용하는 아이디어는 로봇 네비게이션 분야에 상당한 기여를 할 수 있는 논문이다.

#556 2025.09 4/5

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

Figure 1 | Overview of SimpleVLA-RL. SimpleVLA-RL is an efficient RL framework for VLA that im-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#557 2025.02 4/5

VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion

저자: Shaoting Zhu, Linzhan Mou, Derun Li, Baijun Ye, Runhan Huang, Hang Zhao | 날짜: 2025.02

Fig. 1: Our VR-Robo introduces a unified real-to-sim-to-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

VLA Datasets for Driving & Manipulation 10 ▶

#558 2023.11 4/5

Aspects of entanglement with background electric and magnetic fields in quantum field theoretic systems

저자: Shagun Kaushal | 날짜: 2023.11

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#559 2024.08 4/5

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes

저자: Chen Tang, Ben Abbatematteo, Jiaheng Hu, Rohan Chandra, Roberto Martín-Martín, Peter Stone | 날짜: 2024.08

Figure 1: The four aspects of our taxonomy: (a) Robot competencies learned with DRL;

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#560 2024.11 4/5

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

저자: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang | 날짜: 2024.11

Figure 1: Left: Dynamic inference of DeeR. For inference, we adaptively activate an appropriate size of MLLM

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Left: Dynamic inference of DeeR. For inference, we adaptively activate an appropriate size of MLLM* DeeR-VLA는 멀티모달 대형 언어 모델(MLLM)의 동적 조기 종료 프레임워크로, 로봇의 각 상황에 따라 활성화되는 모델 크기를 자동으로 조정하여 계산 효율성을 5.2-6.5배 향상시킵니다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

DeeR-VLA는 로봇 제어를 위한 MLLM 효율화에서 실질적이고 혁신적인 접근을 제시하며, 5배 이상의 계산 비용 감소를 달성하면서도 성능을 유지하는 기술적 성과는 실제 로봇 배포 가능성을 크게 향상시킵니다.

#561 2025.05 4/5

Embodied intelligent industrial robotics: Framework and techniques

저자: Chaoran Zhang, Chenhao Zhang, Zhaobo Xu, Qinghongbing Xie, Jinliang Hou, Pingfa Feng, Long Zeng | 날짜: 2025.05

Fig. 1. Statistics obtained from Scopus (search keywords: ‘embodied intelligence AND (manufacturing

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#562 2023.06 4/5

Language to Rewards for Robotic Skill Synthesis

Figure 1: LLMs have some internal knowledge about robot motions, but cannot directly translate them into actions

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#563 2025.09 4/5

Pure Vision Language Action (VLA) Models: A Comprehensive Survey

저자: Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou | 날짜: 2025.09

Fig. 1: Organization and Structure of the VLA Survey.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#564 2025.06 4/5

Revised identification of strain gradient elastic parameters

저자: Luca Placidi, Anil Misra, Gabriele La Valle, Casey Rodriguez | 날짜: 2025.06

Essence

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#565 2023.11 4/5

Robot Learning in the Era of Foundation Models: A Survey

저자: Xuan Xiao, Jiahang Liu, Zhipeng Wang, Yanmin Zhou, Yong Qi, Qian Cheng, Bin He, Shuo Jiang | 날짜: 2023.11

Fig.1. Overall structure of the survey.

Essence

![Figure 1](figures/fig1.webp) *Fig.1. Overall structure of the survey.* 이 논문은 Large Language Models(LLMs)과 multimodal foundation models를 로봇 학습에 적용하는 최신 기술을 체계적으로 조사하는 survey이며, manipulation, navigation, planning, reasoning의 네 가지 주요 영역에서 foundation model 기법의 적용 방식을 분석한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

이 논문은 LLMs와 multimodal foundation models의 로봇 학습 적용이라는 새로운 학제간 분야를 체계적으로 정리한 중요한 survey로서, 기술 진화 단계화, 네 가지 주요 작업 영역 분류, 그리고 미해결 실제 문제의 명시적 규명을 통해 향후 embodied AI 연구의 로드맵을 제시한다. 다만 구체적인 기술적 해법과 정량적 성능 비교가 부족하여 실제 구현 단계의 연구자들을 위한 가이드로서의 역할은 제한적이다.

#566 2025.03 4/5

SE(3)-Equivariant Robot Learning and Control: A Tutorial Survey

저자: Joohwan Seo, Soochul Yoo, Junwoo Chang, Hyunseok An, Hyunwoo Ryu | 날짜: 2025.03

Fig. 1. Illustration of a Lie group G and two of its tan-

Essence

Evaluation

Novelty: 3 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#567 2023.11 4/5

Time-Transient Wireless RF Sensor with Differentiative Detecting Capability for Target Ionic Solution of Water and Dielectric Objects Introduced into Water

저자: Sobhan Gholami, EMre Unal, Hilmi Volkan Demir | 날짜: 2023.11

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Hierarchical VLA Robotic Manipulation 4 ▶

#568 2024.04 4/5

Deep Reinforcement Learning for Bipedal Locomotion: A Brief Survey

저자: Lingfan Bao, Joseph Humphreys, Tianhu Peng, Chengxu Zhou | 날짜: 2024.04

Fig. 1: Representative bipedal and humanoid robots illustrat-

Essence

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#569 2025.11 4/5

GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies

저자: Ziye Wang, Li Kang, Yiran Qin, Jiahua Ma, Zhanglin Peng, Lei Bai, Ruimao Zhang | 날짜: 2025.11

Figure 1: Both local and global context are essential in multi-agent collaboration. Comparison of

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Both local and global context are essential in multi-agent collaboration. Comparison of* GauDP는 다중 에이전트 협업 로봇 시스템에서 RGB 이미지로부터 3D Gaussian 필드를 구성하여 전역 일관성과 국소적 정밀성을 동시에 확보하는 새로운 표현 방식을 제안한다. 각 에이전트가 공유된 3D Gaussian 표현에서 과제 관련 특성을 동적으로 쿼리하여 협조와 개별 제어를 동시에 달성한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

GauDP는 3D Gaussian Splatting을 창의적으로 활용하여 다중 에이전트 로봇 협업의 근본적 도전에 효과적으로 대응하는 혁신적 방법이다. 강력한 실험 결과와 명확한 동기 부여에도 불구하고, 실제 환경 검증의 부재와 기술적 구현 세부사항의 불충분한 설명이 한계로 지적된다.

#570 2025.08 4/5

Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning

저자: Wenlong Liang, Rui Zhou, Yang Ma, Bing Zhang, Songlin Li, Yijia Liao, Ping Kuang | 날짜: 2025.08

Fig. 1. Organization of this survey.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#571 2024.02 4/5

Whom to Trust? Elective Learning for Distributed Gaussian Process Regression

저자: Zewen Yang, Xiaobing Dai, Akshat Dubey, Sandra Hirche, Georges Hattab | 날짜: 2024.02

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Consistency Distillation for Diffusion Policies 11 ▶

#572 2024.05 4/5

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

저자: Aaditya Prasad, Kevin Lin, Jimmy Wu, Linqi Zhou, Jeannette Bohg | 날짜: 2024.05

Fig. 1: Both Diffusion and Consistency Policy work by sampling random

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#573 2024.10 4/5

Data Scaling Laws in Imitation Learning for Robotic Manipulation

저자: Yingdong Hu, Fanqi Lin, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao | 날짜: 2024.10

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#574 2024.05 4/5

저자: Sunshine Jiang, Xiaolin Fang, Nicholas Roy, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Siddharth Ancha | 날짜: 2025.05

Figure 1: (a) Diffusion policy [1] and flow-matching policy [2] input a history of observations (not shown) to

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Cross-Morphology Robot Policy Transfer 9 ▶

#586 2023.06 4/5

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

저자: Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, Peter Stone | 날짜: 2023.06

Figure 1: Top: LIBERO has four procedurally-generated task suites: LIBERO-SPATIAL, LIBERO-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#587 2022.03 4/5

MetaMorph: Learning Universal Controllers with Transformers

저자: Agrim Gupta, Linxi Fan, Surya Ganguli, Li Fei-Fei | 날짜: 2022.03

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#588 2024.05 4/5

Octo: An Open-Source Generalist Robot Policy

Fig. 1: We introduce Octo, an open-source, generalist policy for robotic manipulation. Octo is a transformer-based polic

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#589 2023.10 4/5

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Fig. 1: We propose an open, large-scale dataset for robot learning curated from 21 institutions across the globe. The da

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#590 2023.03 4/5

Open-World Object Manipulation using Pre-trained Vision-Language Models

저자: Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee, Quan Vuong, Paul Wohlhart, Sean Kirmani, Brianna Zitkovich, Fei Xia, Chelsea Finn, Karol Hausman | 날짜: 2023.03

Figure 1: Overview of MOO. We train a language-conditioned policy conditioned on object locations from a

Essence

![Figure 1](figures/fig1.webp) *Figure 1: Overview of MOO. We train a language-conditioned policy conditioned on object locations from a* Pre-trained vision-language model(VLM)을 로봇 정책과 인터페이싱하여 로봇이 직접 경험하지 못한 새로운 물체 카테고리에 대한 지시를 따를 수 있도록 하는 MOO(Manipulation of Open-World Objects) 방법을 제안한다.

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

본 논문은 pre-trained VLM을 로봇 조작에 실질적으로 통합하여 의미론적 일반화를 달성한 중요한 기여이며, 실제 로봇 실험과 다중 모달리티 확장을 통해 실용성을 입증했다.

#591 2022.12 4/5

RT-1: Robotics Transformer for Real-World Control at Scale

저자: Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Tomas Jackson, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Kuang-Huei Lee, Sergey Levine, Yao Lu, Utsav Malla, Deeksha Manjunath, Igor Mordatch, Ofir Nachum, Carolina Parada, Jodilyn Peralta, Emily Perez, Karl Pertsch, Jornell Quiambao, Kanishka Rao, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Kevin Sayed, Jaspiar Singh, Sumedh Sontakke, Austin Stone, Clayton Tan, Huong Tran, Vincent Vanhoucke, Steve Vega, Quan Vuong, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich | 날짜: 2022.12

Figure 1: A high-level overview of RT-1’s architecture, dataset, and evaluation.

Essence

![Figure 1](figures/fig1.webp) *Figure 1: A high-level overview of RT-1’s architecture, dataset, and evaluation.* Robotics Transformer (RT-1)는 대규모 다양한 실제 로봇 데이터(130k 에피소드, 700+ 태스크)를 학습하여 새로운 태스크와 환경에 대한 뛰어난 일반화 능력을 보이는 언어-조건부 로봇 제어 모델이다.

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

RT-1은 대규모 실제 로봇 데이터와 효율적인 Transformer 아키텍처를 결합하여 로봇 제어에서 전례 없는 규모의 다중 태스크 일반화를 달성한 획기적인 연구로, 실제 로봇 시스템에서의 강건하고 일반화 가능한 제어의 가능성을 명확히 입증했다.

#592 2024.08 4/5

Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

저자: Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine | 날짜: 2024.08

Figure 1: We introduce CrossFormer, a transformer-based policy trained on 900K trajectories of diverse,

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#593 2024.09 4/5

Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

저자: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He | 날짜: 2024.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#594 2023.06 4/5

SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling

저자: Jesse Zhang, Karl Pertsch, Jiahui Zhang, Joseph J. Lim | 날짜: 2023.06

Fig. 1: SPRINT is a scalable approach for pre-training robot policies with a rich repertoire of skills while minimizing

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Vision-Language Grounded Robot Navigation 137편 ▶

Vision-Language Grounded Robot Navigation Timeline

Category Overview

# Vision-Language Grounded Robot Navigation 카테고리 개요 비전-언어 기반 로봇 네비게이션(Vision-Language Grounded Robot Navigation)은 대규모 기초 모델(Foundation Models)과 멀티모달 학습을 활용하여 로봇이 자연어 지시사항을 이해하고 시각 정보와 통합하여 환경을 탐색하는 연구 분야이다[1398]. 이 분야는 개방형 어휘 의미론적 지도 구성(Open-Vocabulary Semantic Map Construction), 비디오 기반 목표 추적 네비게이션(Video-Based Target Tracking Navigation), 그래프 기반 비전-언어 내비게이션(Graph-Based Vision-Language Navigation) 등 다양한 세부 주제를 포함하고 있다[1402][1443]. 기초 모델의 도입으로 제로샷(Zero-Shot) 객체 탐색과 개방형 어휘 목표 네비게이션(Open-Vocabulary Object Goal Navigation)이 가능해졌으며, 3D 복셀 기반 신념 맵(3D Voxel-Based Belief Map), 약약 감독 의미론적 필드(Weakly Supervised Semantic Fields) 등의 공간 표현 방식이 발전하고 있다[1319][1332][1340]. Gemini, CLIP, LLM 등의 대규모 사전학습 모델(Large Pre-Trained Models)을 활용한 로봇 제어와 계획이 실제 로봇 시스템에 적용되고 있으며, 신경기호적 작업 계획(Neuro-Symbolic Robot Task Planning)은 논리적 추론과 심층 학습을 결합한 새로운 접근법을 제시한다[1315][1461][1487]. 이러한 기술들은 산업용 로봇부터 이족 이동 로봇(Legged Robot)까지 다양한 플랫폼에 적용되고 있으며, 멀티모달 융합(Multimodal Fusion) 기술을 통해 로봇의 네비게이션 및 조작 성능이 크게 향상되고 있다[1463][1485][1466].

Open-Vocabulary Semantic Map Construction: # Open-Vocabulary Semantic Map Construction Open-Vocabulary Semantic Map Construction은 로봇이 사전에 정의되지 않은 임의의 객체(unseen objects)를 인식하고 환경을 의미론적으로 이해하는 지도를 구축하는 기술입니다. [1340] [1470] Large Language Model(LLM)과 Vision-Language Model을 활용하여 자연어 기반의 시맨틱 정보를 3D 공간에 매핑함으로써, 로봇이 다양한 환경에서 유연하게 객체를 탐색하고 네비게이션을 수행할 수 있도록 합니다. [1319] [1487]에서는 Voxel 기반의 Belief Map이나 Multimodal Spatial Language Map을 통해 3D 공간 정보와 언어적 의미를 통합적으로 표현하며, 이러한 접근법은 zero-shot 환경에서도 로봇의 일반화 성능을 향상시킵니다. [1505] Queryable Scene Representation 기술은 로봇이 자연어 쿼리를 통해 실제 환경에서 필요한 객체를 효과적으로 찾을 수 있게 지원합니다. 이러한 기술들은 embodied AI와 multimodal learning의 발전으로 인해 로봇의 자율 네비게이션 및 조작 능력을 획기적으로 개선하고 있습니다.
Video-Based Target Tracking Navigation: 비디오 기반 목표 추적 네비게이션(Video-Based Target Tracking Navigation)은 로봇이 비디오 시퀀스 정보를 활용하여 목표 객체나 위치를 추적하면서 자율 주행하는 기술 분야입니다. 이 분야는 Vision-Language Model(VLM)과 비디오 이해 능력을 결합하여 로봇이 동적 환경에서 시각적, 언어적 지시를 해석하고 목표를 추적할 수 있도록 합니다. [1489]의 NaVid와 [1593]의 TrackVLA++는 비디오 기반 계획과 추적 능력을 통해 로봇의 다음 단계 행동을 결정하는 혁신적인 접근 방식을 제시합니다. [1378]의 Embodied Navigation Foundation Model과 [1463]의 LOVOV는 개방형 어휘 기반의 네비게이션 능력을 보여주며, 로봇이 미리 정의되지 않은 다양한 객체를 인식하고 추적할 수 있도록 합니다. [1485]의 다중모달 융합 기술은 시각 정보와 언어 정보를 통합하여 더욱 강건한 네비게이션 성능을 달성하는 데 중요한 역할을 수행합니다.
Graph-Based Vision-Language Navigation: Graph-Based Vision-Language Navigation (그래프 기반 시각-언어 네비게이션)은 로봇이 자연어 지시사항을 이해하고 환경을 그래프 구조로 표현하여 목표 위치까지 자율 주행하는 기술입니다. [1402]에서 제시된 GC-VLN은 instruction을 graph constraints로 변환하여 별도의 학습 없이 효율적인 네비게이션을 실현하며, [1549]의 RoboTron-Nav은 통합 프레임워크를 통해 다양한 embodied navigation 시나리오를 지원합니다. [1575]의 SmartWay와 [1595]의 TRAVEL은 waypoint prediction과 retrieval-based alignment 기법을 활용하여 네비게이션의 정확성을 향상시키고, [1600]에서는 zero-shot 기반의 universal goal-oriented navigation을 제안하고 있습니다. 이 분야는 [1607]의 종합적인 survey를 통해 vision-language navigation의 다양한 방법론과 택소노미를 제시하고 있으며, 로봇의 자율주행, 공간 추론, 자연어 이해를 통합하는 핵심 기술으로 주목받고 있습니다.
Open-Vocabulary Object Goal Navigation: Open-Vocabulary Object Goal Navigation (개방형 어휘 객체 목표 네비게이션)은 로봇이 사전에 정의되지 않은 임의의 객체를 찾아 네비게이션하는 기술을 다룹니다. 이 분야는 CLIP(Contrastive Language-Image Pre-training)과 같은 비전-언어 모델을 활용하여 로봇이 자연어 명령으로 지정된 다양한 객체를 인식하고 탐색할 수 있게 합니다. [1332]의 CLIP-Fields 연구는 약한 지도학습(weakly supervised learning)을 통해 의미론적 필드(semantic fields)를 구축하여 로봇의 객체 탐지 능력을 향상시킵니다. [1311]의 ApexNav는 적응형 탐색 전략(adaptive exploration strategy)을 제안하여 Zero-Shot 환경에서 효율적인 네비게이션을 실현하며, [1367]의 DivScene은 대규모 장면 다양성(large-scale scene diversity)을 통해 개방형 어휘 기반 객체 내비게이션 성능을 향상시킵니다. 이러한 연구들은 로봇이 미리 학습하지 않은 새로운 객체를 유연하게 찾아낼 수 있는 실용적인 솔루션을 제공합니다.
Gemini-Powered Physical Robot Control: Gemini와 같은 대규모 시각-언어 모델(Vision-Language Model)을 활용한 물리 로봇 제어는 로봇이 자연언어 지시를 이해하고 실제 환경에서 복잡한 작업을 수행할 수 있도록 하는 기술 분야입니다. [1377]에서 제시된 구체화된 지능형 산업 로봇 공학(Embodied Intelligent Industrial Robotics) 프레임워크는 로봇의 인지 능력과 제어 능력을 통합하는 체계적 접근을 보여줍니다. [1396]의 장면 상상(Scene Imagination) 기법과 [1466]의 저수준 조작(Low-Level Manipulation) 벤치마크는 로봇이 시각 정보를 기반으로 효율적인 탐색과 정밀한 조작을 수행하는 방법을 제시합니다. [1553]의 계층적 아키텍처(Hierarchical Architecture) 접근 방식은 고수준 인지 능력과 저수준 제어 능력을 연결하여 로봇의 종합적 작업 수행 능력을 향상시킵니다.
Foundation Models for Robotics: 로봇 비전-언어 기반 네비게이션 분야에서 Foundation Models는 로봇의 범용 능력을 확보하기 위한 핵심 기술로 주목받고 있습니다. [1398]에서 제시된 로봇공학의 파운데이션 모델(Foundation Models in Robotics)은 대규모 사전학습(Pre-training)을 통해 다양한 로봇 작업에 적응할 수 있는 기초 모델의 응용 방안을 탐구합니다. [1493]의 신경 스케일링 법칙(Neural Scaling Laws in Robotics) 연구는 모델 크기와 데이터 규모가 로봇 성능에 미치는 영향을 분석하여 효율적인 모델 설계의 기준을 제시합니다. [1554]의 RT-1 로봇 트랜스포머(Robotics Transformer)는 실제 환경에서의 제어(Real-World Control)를 위해 대규모 로봇 조작 데이터셋을 활용한 트랜스포머 기반의 멀티태스크 학습(Multi-task Learning) 접근법을 제안합니다. [1590]의 조사 논문(Survey)은 파운데이션 모델을 통해 범용 목적의 로봇(General-Purpose Robots)을 개발하기 위한 기술적 과제와 미래 전망을 종합적으로 분석합니다.
Neuro-Symbolic Robot Task Planning: Neuro-Symbolic Robot Task Planning은 신경망 기반의 시각-언어 모델과 기호적 추론을 결합하여 로봇의 복잡한 작업 계획을 수립하는 기술 분야입니다. [1495]의 NORA는 소규모 오픈소스 비전-언어-액션(Vision Language Action) 모델로, 로봇이 자연어 지시를 이해하고 실제 행동으로 변환할 수 있는 통합 프레임워크를 제시합니다. [1538]의 RoboCerebra는 장기 로봇 태스크 플래닝을 위한 대규모 벤치마크를 제공하여, 신경망과 기호적 추론의 조화를 통해 로봇이 다단계 작업을 체계적으로 계획하도록 지원합니다. [1614]의 VL-Nav는 신경-기호적(Neuro-Symbolic) 접근법을 활용하여 시각적 관찰과 언어 기반 추론을 결합함으로써, 로봇의 의미론적 이해(Semantic Understanding)와 논리적 사고 능력을 강화합니다. 이러한 방식은 로봇이 불확실한 환경에서도 인간의 지시를 정확히 해석하고 적응적으로 목표를 달성할 수 있게 만듭니다.

📌 핵심: Zero-shot object navigation과 VLN에서 LLM/VLM 기반 의미론적 추론이 학습 기반 방법을 압도하기 시작했으며, 미지 환경 적응 능력이 실용 수준에 도달하고 있다.
⚠ 갭: 항공(aerial) 및 실외 대규모 환경에서의 VLN 연구는 실내 환경 대비 현저히 부족하며, 멀티모달(오디오+시각+언어) 통합 네비게이션 연구도 미흡하다.
🏛 정책: 실외 자율 네비게이션 로봇의 공공 인프라 활용을 위한 표준 데이터셋 구축 및 도시 환경 테스트베드 조성 지원이 필요하다.

Video-Based Target Tracking Navigation 20 ▶

#595 2024.10 4/5

Figure 1: The overview figure illustrates the overall framework of multimodal fusion and VLMs for robot vision. Various

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#606 2024.02 4/5

저자: Heyu Guo, Shanmu Wang, Ruichun Ma, Shiqi Jiang, Yasaman Ghasempour, Omid Abari, Baining Guo, Lili Qiu | 날짜: 2025.11

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#610 2025.02 4/5

Openfly: A comprehensive platform for aerial vision-language navigation

Figure 1: Overview of OpenFly. This work consists of (1) the integration of 4 rendering engines, significantly

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#611 2024.09 4/5

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

저자: Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, Jian Tang | 날짜: 2024.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#612 2025.10 4/5

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

저자: Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang | 날짜: 2025.10

Fig. 1: Real-world demonstration of TrackVLA++. TrackVLA++ is a novel Vision-Language-Action model that incorporates spa

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#613 2025.05 4/5

Vision-Language-Action (VLA) Models: Concepts, Progress, Applications and Challenges

저자: Ranjan Sapkota, Yang Cao, Konstantinos I. Roumeliotis, Manoj Karkee | 날짜: 2025.05

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#614 2025.09 4/5

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#627 2024.02 4/5

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

저자: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh | 날짜: 2024.02

Figure 1. Prismatic VLMs.

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#628 2023.04 4/5

저자: Hanzhen Wang, Jiaming Xu, Yushun Xiang, Jiayi Pan, Yongkang Zhou, Yong-Lu Li, Guohao Dai | 날짜: 2025.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#632 2025.06 4/5

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Figure 1 V-JEPA 2 Overview. Leveraging 1M hours of internet-scale video and 1M images, we pretrain the V-JEPA 2

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Open-Vocabulary Semantic Map Construction 34 ▶

#633 2024.03 4/5

3D-VLA: A 3D Vision-Language-Action Generative World Model

저자: Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan | 날짜: 2024.03

Figure 1. Examples from our 3D Embodied Instruction Tuning Dataset.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#634 2022.05 4/5

A Generalist Agent

Figure 1: A generalist agent. Gato can sense and act with diﬀerent embodiments across a wide range of

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#635 2025.06 4/5

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#639 2025.05 4/5

Figure 1: An overview of Cosmos-Reason1. Cosmos-Reason1 contains two multimodal large language models of

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#643 2022.04 4/5

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

Figure 1: LLMs have not interacted with their environment and observed the outcome of their responses, and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#644 2025.04 4/5

Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning

저자: Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanhang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu | 날짜: 2025.04

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#645 2025.03 4/5

Fig. 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#659 2023.03 4/5

Figure 1 | Overview of SIMA. In SIMA, we collect a large and diverse dataset of gameplay from both

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#663 2023.12 4/5

Figure 1: Developing a Human-Centered Benchmark for Embodied AI. Left: human preference score over

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#670 2022.09 4/5

Code as Policies: Language Model Programs for Embodied Control

저자: Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, Andy Zeng | 날짜: 2022.09

Fig. 1: Given examples (via few-shot prompting), robots can use code-writing

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#671 2024.11 4/5

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

저자: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang | 날짜: 2024.11

Figure 1: Left: Dynamic inference of DeeR. For inference, we adaptively activate an appropriate size of MLLM

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#672 2024.03 4/5

Figure 1: EO-1 Model Architecture. EO-1 model is a Vision-Language-Action (VLA) model that adopts a

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#677 2025.04 4/5

ForesightNav: Learning Scene Imagination for Efficient Exploration

저자: Hardik Shah, Jiaxu Xing, Nico Messikommer, Boyang Sun, Marc Pollefeys, Davide Scaramuzza | 날짜: 2025.04

Figure 1. ForesightNav proposes Imagination aided exploration

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#678 2025.05 4/5

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

저자: Yifu Yuan, Haiqin Cui, Yibin Chen, Zibin Dong, Fei Ni, Longxin Kou, Jinyi Liu, Pengyi Li, Yan Zheng, Jianye Hao | 날짜: 2025.05

Figure 1 Overview of FSD. FSD unlocks visual aids reasoning and generation through Spatial Relationship

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#679 2025.10 4/5

Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer

Figure 1 | The Gemini Robotics 1.5 family of models consists of Gemini Robotics 1.5, a VLA, and Gemini

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#680 2025.03 4/5

Gemini Robotics: Bringing AI into the Physical World

Figure 1 | Overview of the Gemini Robotics family of embodied AI models. Gemini 2.0 already exhibits

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#681 2023.11 4/5

저자: Siyuan Huang, Iaroslav Ponomarenko, Zhengkai Jiang, Xiaoqi Li, Xiaobin Hu, Peng Gao, Hongsheng Li, Hao Dong | 날짜: 2024.03

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#685 2025.05 4/5

Figure 1. Overview of RoboBrain. RoboBrain consists of three key robotic capabilities: planning capability, affordance p

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#690 2024.12 4/5

저자: Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen | 날짜: 2025.06

Fig. 1: We introduce BitVLA, the first fully native 1-bit vision-language-action (VLA) model for robotic manipulation, i

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#701 2023.12 4/5

Foundation Models in Robotics: Applications, Challenges, and the Future

Fig. 1. Overview of Robotics Tasks Leveraging Foundation Models.

Essence

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#702 2022.03 4/5

Figure 1: We present OpenVLA, a 7B-parameter open-source vision-language-action model (VLA), trained

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#706 2023.06 4/5

RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

Figure 1: The self-improvement process. RoboCat is a multi-task, multi-embodiment visual goal-conditioned

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#707 2022.12 4/5

RT-1: Robotics Transformer for Real-World Control at Scale

Figure 1: A high-level overview of RT-1’s architecture, dataset, and evaluation.

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#708 2023.12 4/5

저자: Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Qiwei Du, Zhuoqun Chen, Bowen Li, Chen Wang | 날짜: 2025.02

Fig. 1: Given the complex instruction, VL-Nav autonomously

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Graph-Based Vision-Language Navigation 15 ▶

저자: Yufeng Zhong, Chengjian Feng, Feng Yan, Fanfan Liu, Liming Zheng, Lin Ma | 날짜: 2025.03

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#725 2025.03 4/5

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

저자: Xiangyu Shi, Zerui Li, Wenqi Lyu, Jiatong Xia, Feras Dayoub, Yanyuan Qiao, Qi Wu | 날짜: 2025.03

Fig. 1. Role of our proposed waypoint predictor and backtrack mechanism.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#726 2023.05 4/5

TidyBot: Personalized Robot Assistance with Large Language Models

저자: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser | 날짜: 2023.05

Fig. 1 We study the task of household cleanup, where each

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#727 2025.02 4/5

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

저자: Navid Rajabi, Jana Kosecka | 날짜: 2025.02

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#728 2025.03 4/5

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

저자: Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu | 날짜: 2025.03

Figure 1. State-of-the-art zero-shot goal-oriented navigation meth-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#729 2021.08 4/5

Vision-Language Navigation: A Survey and Taxonomy

저자: Wansen Wu, Tao Chang, Xinmeng Li | 날짜: 2021.08

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#730 2023.04 4/5

Visual Instruction Tuning

저자: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee | 날짜: 2023.04

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#731 2025.07 4/5

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

Figure 1 | We present a unified framework of VLA from an action tokenization perspective. Action token refers

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

Vision-Language-Action Model Architectures 310편 ▶

Vision-Language-Action Model Architectures Timeline

Category Overview

Vision-Language-Action Model Architectures는 로봇이 시각 정보와 자연어 지시를 결합하여 물리적 행동을 수행하는 통합 모델 아키텍처를 다루는 분야입니다. 이 카테고리는 공간 추론(Spatial Reasoning), 확산 기반 행동 생성(Diffusion-Based Action Generation), 자기지도 학습(Self-Supervised Learning) 등 다양한 기술을 통해 구현된 127편의 연구를 포함하고 있습니다. 주요 하위 주제는 로봇의 공간적 인식과 지식 모델링[1292], 비전-언어-행동 생성 모델[1288], [1291], 에고센트릭 비디오 표현 학습(Egocentric Video Representation Learning)[1318], 그리고 지시 튜닝(Instruction Tuning) 기법[1325], [1327]을 포함합니다. 또한 변형 가능한 선형 객체 조작(Deformable Linear Object Manipulation), 시각적 궤적 추론(Visual Trace Reasoning), 그리고 맥락 내 모방 학습(In-Context Imitation Learning)[1331]과 같은 구체적인 로봇 조작 능력 개발에 중점을 두고 있습니다. 이 분야의 연구들은 벤치마크 데이터셋[1304], [1306], [1312], [1325]과 통합 프레임워크[1336], [1343], [1344]를 통해 다양한 로봇 플랫폼과 작업에 걸친 일반화 능력을 추구합니다. Vision-Language-Action 모델은 로봇의 다중 모드 이해와 실시간 행동 제어를 가능하게 하며, 최종적으로 구현화된 AI(Embodied AI)의 핵심 기술 경로를 제시합니다.

Spatial Robotic Brain Knowledge Models: Spatial Robotic Brain Knowledge Models는 로봇이 시각 정보, 언어 명령, 행동을 통합하여 공간 환경을 이해하고 작업을 수행하는 멀티모달 아키텍처를 연구하는 분야입니다. 이러한 모델들은 Vision-Language-Action(VLA) 프레임워크를 기반으로 하여 로봇이 자연어 지시사항을 따르면서 물리적 환경에서 의도한 행동을 실행할 수 있도록 설계되었습니다[1304][1325]. π₀.5와 같은 오픈월드(open-world) 모델부터 ALFRED, CALVIN 벤치마크까지 다양한 표준화된 데이터셋과 평가 프레임워크가 제안되고 있습니다[1286][1325]. 또한 D2E, DexVLA 등의 최신 연구들은 대규모 사전학습(pretraining)과 확산 전문가(diffusion expert) 통합을 통해 로봇의 조작 능력(manipulation capability)과 일반화 성능을 향상시키고 있습니다[1347][1358]. 이 분야는 크로스-구현(cross-embodiment) 학습과 직관적 인간-로봇 상호작용(intuitive human-robot interaction)을 실현하기 위한 통합 표준안 개발에 중점을 두고 있습니다.
Diffusion-Based Action Token Generation: Diffusion-Based Action Token Generation은 Vision-Language-Action (VLA) 모델에서 확산 모델(Diffusion Model)을 활용하여 로봇 행동을 토큰 형태로 생성하는 아키텍처를 다룬다. 이 접근 방식은 연속적인 행동 공간을 이산적 토큰으로 변환함으로써 생성 과정의 안정성과 효율성을 향상시킨다 [1366]. Diffusion Transformer Policies와 같은 방법들은 혼합 전문가(Mixture of Experts) 구조를 통해 계산 복잡도를 줄이면서 모델 용량을 확장하는 기법을 제시한다 [1375]. 계층적 확산 정책(Hierarchical Diffusion Policy)은 시각-운동 작업(Visuomotor Task)에서 다양한 추상화 수준의 행동을 생성하여 보다 유연한 로봇 제어를 가능하게 한다 [1419]. 또한 일관성 있는 VLA 모델과 통합된 이해, 생성, 행동 능력을 갖춘 기초 모델들이 확산 기반 토큰 생성과 결합되어 구체화 AI(Embodied AI)의 성능을 획기적으로 개선하고 있다 [1327], [1292].
Agentic Vision-Language-Action Models: Agentic Vision-Language-Action Models는 시각, 언어, 행동을 통합하는 지능형 에이전트 아키텍처로, 3D 환경에서 복잡한 작업을 자율적으로 수행할 수 있습니다. [1308]에서 제시된 embodied generalist agent는 다양한 환경과 작업에 적응하는 통합 모델을 구현하며, [1512]의 PaLM-E와 같은 embodied multimodal language model은 언어 이해와 로봇 제어를 동시에 처리합니다. 이러한 모델들은 chain-of-thought reasoning [1344]이나 hierarchical instruction following [1422]을 통해 복잡한 의사결정 과정을 강화하고, reinforced visual reasoning [1584]으로 추론 능력을 개선합니다. [1464]의 Magma와 [1503]의 OneTwoVLA는 foundation model 기반으로 다양한 multimodal task에 적응할 수 있는 통합 아키텍처를 제안하여 embodied AI의 범용성을 확대합니다. 이들 모델은 로봇, 자율주행, 가상환경 등 다양한 domain에서 실제 응용 가능성을 보여주고 있습니다.
Spatial Affordance & Visual Trace Reasoning: # Spatial Affordance & Visual Trace Reasoning Spatial Affordance & Visual Trace Reasoning은 로봇이 시각 정보로부터 객체의 조작 가능성(affordance)과 공간적 관계를 이해하고, 이를 행동 결정으로 연결하는 Vision-Language-Action 모델 아키텍처를 다루는 분야입니다. 이 영역의 연구들은 이미지나 비디오에서 추출한 시각적 특징(visual trace)과 자연어 지시사항을 통합하여 로봇의 조작 작업(manipulation task)을 수행하는 능력을 향상시킵니다. [1543]에서 제안한 RoboPoint는 공간적 affordance 예측에 특화된 Vision-Language 모델로서 픽셀 단위의 정밀한 위치 정보를 제공합니다. [1576]의 SpatialVLA와 [1413]의 GraspVLA는 대규모 데이터셋으로 사전 학습된 기초 모델(foundation model)로서 다양한 로봇 조작 작업에 일반화 가능한 공간 표현(spatial representation)을 학습합니다. [1399]와 [1514]의 연구들은 추론(reasoning)과 의사결정(decision-making)을 연결함으로써 로봇이 단순한 반응을 넘어 목표 지향적인 행동 계획을 수립하도록 지원합니다.
Deformable Linear Object Manipulation: 변형 가능한 선형 물체 조작(Deformable Linear Object Manipulation)은 로프, 케이블, 옷감 등 선형 형태의 유연한 물체를 다루는 로봇 조작 기술을 다루는 분야입니다. 이 분야는 Vision-Language-Action 모델 아키텍처를 활용하여 로봇이 복잡한 변형 가능 물체의 조작 작업을 학습하고 수행할 수 있도록 합니다. [1330]에서 제시된 지속적 잠재 행동 모델(Continuous Latent Action Models)과 [1581]에서 제안된 구조화된 세계 모델(Structured World Models)은 인간의 시각적 데이터로부터 물체 조작의 역학과 행동 패턴을 학습하는 방식을 제시합니다. 특히 [1476]의 모방 학습(Imitation Learning) 접근법은 장기 지평의 조작 작업에서 인간의 시연(Human Demonstration)을 효과적으로 활용하여 로봇의 학습 효율을 높입니다. 이러한 생성형 인공지능 기반의 접근법들 [1405]은 로봇이 시뮬레이션과 현실 사이의 간격을 줄이면서 유연한 물체 조작의 일반화 성능을 향상시킵니다.
Egocentric Human Video Representation Learning: # Egocentric Human Video Representation Learning 자아중심 관점의 인간 비디오 표현 학습(Egocentric Human Video Representation Learning)은 로봇 조작 및 구현을 위해 인간의 행동 영상으로부터 의미있는 시각적 표현을 학습하는 분야입니다. 이 영역의 연구들은 주로 대규모 인간 비디오 데이터셋으로부터 사전학습(pretraining)을 통해 범용 시각 표현을 추출하고, 이를 로봇의 행동 학습에 활용하는 방식을 다룹니다. [1520] R3M은 인간의 조작 영상으로부터 범용 시각 표현을 학습하여 로봇 조작 작업에 직접 적용할 수 있는 기초 모델을 제시하고 있습니다. [1448] Latent Action Pretraining from Videos는 영상으로부터 잠재 행동(latent action) 공간을 학습함으로써 다양한 로봇 작업으로의 전이학습(transfer learning)을 가능하게 합니다. 또한 [1515] Phantom과 같은 연구들은 실제 로봇 없이 인간 비디오만으로 로봇의 행동 정책을 학습하는 인간-로봇 모방학습(human-robot imitation learning) 기법을 제안하고 있습니다. 이러한 접근법들은 로봇 학습의 데이터 확보 문제를 해결하고 다중 로봇 플랫폼으로의 확장성(scalability)을 크게 향상시킵니다.
Lightweight Vision-Language-Action Models: 경량 비전-언어-행동 모델(Lightweight Vision-Language-Action Models)은 로봇 조작 및 구현에 필요한 계산 자원을 최소화하면서도 높은 성능을 유지하는 아키텍처를 다룬다. [1588]의 TinyVLA는 데이터 효율성(data efficiency)과 빠른 추론 속도를 목표로 하는 초소형 VLA 모델을 제시하며, [1616]의 VLA-Adapter는 어댑터 기반 패러다임(adapter-based paradigm)을 통해 기존 대규모 모델을 효율적으로 적응시키는 방법을 제안한다. [1333]의 CLIPort는 What and Where 경로(pathway) 분리를 통해 객체 인식과 공간 정보를 동시에 처리하는 경량화된 접근법을 보여주며, [1374]의 DynamicVLA는 동적 객체 처리에 특화된 경량 모델을 개발한다. 이러한 모델들은 엣지 디바이스(edge device)와 임베디드 시스템(embedded system)에서의 실시간 로봇 제어를 가능하게 하며, 제한된 연산 자원 환경에서도 멀티모달 이해와 행동 생성을 효과적으로 수행한다.
Instruction Tuning for VLA Models: VLA(Vision-Language-Action) 모델을 위한 Instruction Tuning은 시각, 언어, 행동을 통합하는 구체화된 에이전트(embodied agent)를 개발하는 핵심 기술입니다. 이 분야의 연구들은 [1436]과 [1611]에서 보듯이 다양한 지시(instruction)를 통해 VLA 모델의 일반화 능력을 향상시키는 방법을 탐색하고 있습니다. [1373]의 Dual VLA와 [1518]의 Prismatic VLMs은 부분적 학습과 다양한 시각 인코더 설계를 통해 적응 가능한 에이전트 개발 방향을 제시하고 있습니다. 또한 [1528]과 [1603]에서 다루는 다단계 계획(multi-stage planning)과 자기 지도 학습(self-supervised learning) 기법은 복잡한 시각-언어-행동 이해를 강화합니다. 이러한 instruction tuning 기법들은 로봇 네비게이션, 자율 에이전트 제어 등 다양한 실제 응용 분야에서 모델의 성능과 범용성을 크게 향상시킵니다.
Spatial Physical Reasoning for Embodied AI: 공간 물리 추론을 위한 구체화된 인공지능(Embodied AI)은 로봇이나 에이전트가 시각 정보를 기반으로 물리적 환경을 이해하고 상호작용하는 능력을 의미한다. [1343]의 Cosmos-Reason1과 [1381]의 Embodied-Reasoner는 시각 탐색(Visual Search), 추론(Reasoning), 액션(Action)을 통합하여 에이전트가 복잡한 장면에서 물리적 상식(Physical Common Sense)을 적용할 수 있도록 한다. [1382]의 EmbodiedVSR은 동적 장면 그래프(Dynamic Scene Graph)와 체인-오브-소트(Chain-of-Thought) 추론을 결합하여 공간 이해 능력을 향상시킨다. [1383]의 EmbSpatial-Bench는 구체화된 에이전트의 공간 이해 능력을 평가하기 위한 벤치마크를 제공한다. [1439]의 IPR-1과 [1441]의 JanusVLN은 상호작용적 추론(Interactive Reasoning)과 의미론적 및 공간적 정보의 분리를 통해 내비게이션 및 물리적 추론 작업에서의 성능을 향상시킨다.
Video-Action Joint Prediction for Manipulation: 비디오-액션 결합 예측을 위한 조작 작업(Video-Action Joint Prediction for Manipulation)은 비전-언어-액션 모델이 비디오 데이터와 언어 지시를 함께 이해하여 로봇 조작 행동을 예측하는 분야입니다. [1363]의 Diffusion Transformer Policy와 [1409]의 GR-2는 생성형 비디오-언어-액션 모델(Generative Video-Language-Action Model)을 통해 웹 규모의 데이터를 활용한 대규모 조작 정책 학습을 제시합니다. [1424]의 HiMoE-VLA와 [1481]의 Motus는 계층적 혼합 전문가(Hierarchical Mixture-of-Experts) 구조와 통합 잠재 액션 월드 모델(Unified Latent Action World Model)을 통해 다양한 조작 작업에 대한 일반화 성능을 향상시킵니다. [1598]의 Unified Video Action Model과 [1604]의 Video Language Planning은 비디오 이해와 액션 예측을 통합하는 엔드-투-엔드 아키텍처(End-to-End Architecture)를 제안하여 복잡한 조작 시나리오에서의 계획 수립 능력을 강화합니다.
In-Context Imitation Learning from Demonstrations: # In-Context Imitation Learning from Demonstrations 시연(Demonstration) 기반의 맥락 내 모방 학습(In-Context Imitation Learning)은 Vision-Language-Action 모델이 제한된 예제로부터 새로운 작업을 빠르게 학습하는 방식입니다. 이 접근법은 대규모 언어 모델의 few-shot 학습 능력을 로봇 제어에 적용하여, 명시적인 재학습 없이도 주어진 시연으로부터 작업 패턴을 파악할 수 있게 합니다. [1433]은 다음 토큰 예측(Next-Token Prediction) 방식으로 행동을 생성하며, [1392]는 효율적인 행동 토큰화(Action Tokenization)를 통해 모델의 성능을 향상시킵니다. 양손 조작(Bimanual Manipulation), 인간형 로봇 이동(Humanoid Locomotion), 자가 학습(Self-Supervised Learning) 등 다양한 실제 로봇 작업에서 이 학습 방식의 실용성이 검증되고 있습니다. VQ-VLA와 같은 모델들은 스케일링(Scaling)을 통해 더욱 강력한 일반화 능력을 보여주며, 이는 로봇 학습의 효율성과 적응성을 크게 향상시킵니다.
Self-Supervised Joint-Embedding Representations: 자기 지도 학습(self-supervised learning)을 통해 이미지와 언어 특징을 결합한 joint-embedding 표현 기법에 관한 연구 분야이다. 이 접근법은 대규모 레이블 없는 데이터로부터 전이 가능한 시각적 특징을 학습하며, 특히 DINOv2 [1365]는 감독 없이 견고한 시각 특징을 습득하는 방법을 제시한다. 또한 MC-JEPA [1473]와 같은 joint-embedding predictive architecture 기반 모델들은 이미지-언어 정렬(alignment)을 통해 다중 모달(multi-modal) 표현을 효과적으로 학습한다. Sigmoid Loss for Language Image Pre-Training [1571]과 같은 손실 함수(loss function) 연구는 언어-이미지 사전 학습(pre-training)의 효율성을 향상시킨다. 이러한 자기 지도 joint-embedding 기법들은 컴퓨터 비전과 자연어 처리 간의 격차를 줄이며 다양한 다운스트림 태스크에 적용 가능한 범용적 표현을 구축한다.
Diffusion-Based Embodied World Modeling: 확산 기반 구체화된 세계 모델링(Diffusion-Based Embodied World Modeling)은 로봇이 시각, 언어, 행동 정보를 통합하여 미래 환경을 예측하고 계획하는 생성 모델 기반의 접근 방식입니다. [1288]의 3D Diffusion Policy는 3D 공간에서의 일반화 가능한 비주얼로모터 정책(visuomotor policy) 학습을 제안하며, [1291]의 3D-VLA는 3D 비전-언어-행동 생성 세계 모델(generative world model)을 통해 구체화된 지능의 통합 표현을 제시합니다. 이러한 모델들은 확산 모델(diffusion model)의 확률적 생성 능력을 활용하여 로봇의 공간적 추론 능력과 미래 상태 예측 정확도를 향상시킵니다. [1384]의 EnerVerse와 [1387]의 EWMBench는 각각 구체화된 미래 공간 계획(embodied future space planning)과 세계 모델 평가 벤치마크를 제공하여, 실제 로봇 조작 작업에서의 실용성과 신뢰성을 검증합니다. 이러한 연구들은 로봇이 복잡한 시각적 장면을 이해하고 자연어 지시를 따르며 정밀한 행동을 생성할 수 있는 통합 모델 개발의 기초를 마련합니다.
Multilingual Vision-Language Pretraining: # Multilingual Vision-Language Pretraining 다중언어 비전-언어 사전학습(Multilingual Vision-Language Pretraining)은 이미지와 텍스트를 여러 언어로 동시에 학습하여 시각적 이해와 언어 이해를 통합하는 기술이다. [1511]에서 제시된 PaLI-X는 대규모 다중언어 비전-언어 모델을 확장하여 다양한 언어에서의 시각-언어 작업을 수행할 수 있도록 하였다. [1415]의 Grounding DINO와 같은 모델들은 시각적 객체 탐지(Object Detection)와 언어 이해를 결합하여 이미지 내 특정 대상을 정확히 찾고 설명할 수 있게 한다. [1456]의 LERF는 신경 방사 필드(Neural Radiance Field)에 언어 임베딩(Language Embedding)을 통합하여 3D 장면 이해를 가능하게 한다. [1569]의 Segment Anything은 범용 분할 모델(Universal Segmentation Model)로서 언어 기반 지도(Language-based Guidance)와 함께 작동할 수 있는 기초 모델이다. 이러한 기술들은 기계 번역, 크로스링궤 검색(Cross-lingual Retrieval), 국제화된 애플리케이션 개발에 중요한 역할을 수행한다.
Pre-Trained Visual Representations for Robot Learning: 로봇 학습을 위한 사전 학습된 시각 표현(Pre-Trained Visual Representations)은 대규모 데이터셋에서 학습한 특징을 활용하여 로봇의 제어 성능을 향상시키는 핵심 기술이다. [1471]에서 제시된 마스크 시각 사전학습(Masked Visual Pre-training) 방식은 이미지의 일부를 가리고 전체 맥락을 예측하는 자기지도학습(Self-Supervised Learning) 기법으로, 운동 제어(Motor Control) 작업에 효과적인 시각 특징을 추출한다. [1480]에서는 잠재 운동 토큰(Latent Motion Token)을 언어 모델의 중간 표현으로 활용하여 시각 정보와 행동(Action) 간의 연결 고리 역할을 수행하는 혁신적인 접근 방식을 제안한다. [1602]에서는 대규모 비디오 생성 사전학습(Large-Scale Video Generative Pre-training)을 통해 시간적 맥락을 이해하는 강력한 시각 표현을 학습함으로써 복잡한 로봇 작업의 성능을 크게 개선할 수 있음을 보여준다.

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#738 2025.05 4/5

DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy

저자: Yuran Wang, Ruihai Wu, Yue Chen, Jiarui Wang, Jiaqi Liang, Ziyu Zhu, Haoran Geng, Jitendra Malik, Pieter Abbeel, Hao Dong | 날짜: 2025.05

Figure 1: Overview. DexGarmentLab includes three major components: Environment, Automated

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#739 2026.02 4/5

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Spatial Robotic Brain Knowledge Models 98 ▶

#760 2025.04 4/5

$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization

Fig. 1: The π0.5 model transfers knowledge from a heterogeneous range of data sources, including other robots, high-leve

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#761 2024.10 4/5

$π_0$: A Vision-Language-Action Flow Model for General Robot Control

Fig. 1: Our generalist robot policy uses a pre-trained vision-language model (VLM) backbone, as well as a diverse cross-

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#762 2022.05 4/5

A Generalist Agent

Figure 1: A generalist agent. Gato can sense and act with diﬀerent embodiments across a wide range of

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#763 2026.01 4/5

Fig. 1: The structure of this survey in a pyramid format. Section 2 lays

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#768 2025.03 4/5

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

저자: Zhiyuan Zhou, Pranav Atreya, You Liang Tan, Karl Pertsch, Sergey Levine | 날짜: 2025.03

Figure 1: We introduce AutoEval, a system for scalable, automated real robot evaluation of generalist robot policies.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Figure 1 (BridgeData V2) We propose a large-scale robotic manipulation dataset containing 60,096

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#773 2023.12 4/5

저자: Yingdong Hu, Fanqi Lin, Pingyue Sheng, Chuan Wen, Jiacheng You, Yang Gao | 날짜: 2024.10

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#780 2024.08 4/5

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes

저자: Chen Tang, Ben Abbatematteo, Jiaheng Hu, Rohan Chandra, Roberto Martín-Martín, Peter Stone | 날짜: 2024.08

Figure 1: The four aspects of our taxonomy: (a) Robot competencies learned with DRL;

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#781 2025.02 4/5

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control

저자: Junjie Wen, Yichen Zhu, Jinming Li, Zhibin Tang, Chaomin Shen, Feifei Feng | 날짜: 2025.02

Figure 1: Dexterous skills in diverse tasks and scenarios. Our proposed DexVLA method enables generalized

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#782 2022.04 4/5

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

Figure 1: LLMs have not interacted with their environment and observed the outcome of their responses, and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#783 2025.09 4/5

Embodied Navigation Foundation Model

Figure 1: We provide an illustration of architecture (left) alongside real-world experiment results (right). The

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#784 2025.08 4/5

Fig. 1. Overview of Robotics Tasks Leveraging Foundation Models.

Essence

Evaluation

Novelty: 3 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#788 2025.03 4/5

Gemini Robotics: Bringing AI into the Physical World

Figure 1 | Overview of the Gemini Robotics family of embodied AI models. Gemini 2.0 already exhibits

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#789 2025.07 4/5

저자: Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna | 날짜: 2024.06

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#806 2023.01 4/5

Mastering Diverse Domains through World Models

저자: Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap | 날짜: 2023.01

Figure 1: Benchmark summary. a, Using fixed hyperparameters across all domains, Dreamer

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#807 2026.03 4/5

Fig. 1: We introduce Octo, an open-source, generalist policy for robotic manipulation. Octo is a transformer-based polic

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#813 2025.06 4/5

OctoNav: Towards Generalist Embodied Navigation

저자: Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu | 날짜: 2025.06

Figure 1: On the left, we present the large-scale OctoNav-Bench, which contains diverse instruction-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#814 2025.09 4/5

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

저자: Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine | 날짜: 2025.09

Fig. 1: We train a highly generalizable vision-based navigation policy with flexible conditioning, leveraging over 9,500

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#815 2024.02 4/5

On the Vulnerability of LLM/VLM-Controlled Robotics

저자: Xiyang Wu, Souradip Chakraborty, Ruiqi Xian, Jing Liang, Tianrui Guan, Fuxiao Liu, Brian M. Sadler, Dinesh Manocha, Amrit Singh Bedi | 날짜: 2024.02

Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#816 2023.10 4/5

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Fig. 1: We propose an open, large-scale dataset for robot learning curated from 21 institutions across the globe. The da

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#817 2023.03 4/5

Open-World Object Manipulation using Pre-trained Vision-Language Models

저자: Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee, Quan Vuong, Paul Wohlhart, Sean Kirmani, Brianna Zitkovich, Fei Xia, Chelsea Finn, Karol Hausman | 날짜: 2023.03

Figure 1: Overview of MOO. We train a language-conditioned policy conditioned on object locations from a

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#818 2025.06 4/5

Figure 1: We present RoboArena, a distributed real-world evaluation framework for generalist robot

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#825 2025.02 4/5

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

Figure 1. Overview of RoboBrain. RoboBrain consists of three key robotic capabilities: planning capability, affordance p

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#826 2023.06 4/5

Fig. 1: Overview of RoboMIND. We introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot Manipulation

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#831 2024.09 4/5

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

저자: Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah | 날짜: 2024.09

Figure 1: Robot Utility Models are trained on a diverse set of environments and objects, and then

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#832 2024.07 4/5

Robotic Control via Embodied Chain-of-Thought Reasoning

저자: Michał Zawalski, William Chen, Karl Pertsch, Oier Mees, Chelsea Finn, Sergey Levine | 날짜: 2024.07

Figure 1:

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#833 2025.06 4/5

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Figure 1: Overview of RoboTwin 2.0. RoboTwin 2.0 is a scalable framework for bimanual manipu-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#834 2024.09 4/5

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)

저자: Yao Mu, Tianxing Chen, Shijia Peng, Zanxin Chen, Zeyu Gao, Yude Zou, Lunkai Lin, Zhiqiang Xie, Ping Luo | 날짜: 2024.09

Fig. 1: RoboTwin Benchmark.

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#835 2022.12 4/5

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#845 2024.02 4/5

Towards Diverse Behaviors: A Benchmark for Imitation Learning with Human Demonstrations

저자: Xiaogang Jia, Denis Blessing, Xinkai Jiang, Moritz Reuss, Atalay Donat, Rudolf Lioutikov, Gerhard Neumann | 날짜: 2024.02

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#846 2024.12 4/5

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

저자: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé, Andrey Kolobov, Furong Huang, Jianwei Yang | 날짜: 2024.12

Figure 1: An illustration of our method. The first image shows the original robot’s observation, while the second

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#847 2025.05 4/5

Figure 1: Overview of VeBrain and VeBrain-600k. Compared to existing MLLMs, VeBrain achieves

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#851 2025.10 4/5

VLA-0: Building State-of-the-Art VLAs with Zero Modification

저자: Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos | 날짜: 2025.10

Fig. 1: Schematic representation of VLA-0. VLA-0 con-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#852 2025.05 4/5

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

저자: Guanxing Lu, Wenkai Guo, Chubin Zhang, Yuheng Zhou, Haonan Jiang, Zifeng Gao, Yansong Tang, Ziwei Wang | 날짜: 2025.05

Figure 1: Previous VLAs focus on imitation learning that exploits the offline demonstrations, while VLA-RL ex-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#853 2024.12 4/5

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

저자: Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu | 날짜: 2024.12

Figure 1. Overview of VLABench. VLABench is a large-scale language-conditioned manipulation benchmark to evaluate the co

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#854 2023.05 4/5

Voyager: An Open-Ended Embodied Agent with Large Language Models

저자: Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar | 날짜: 2023.05

Figure 1: VOYAGER discovers new Minecraft items and skills continually by self-driven exploration,

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#855 2024.12 4/5

What Matters in Building Vision-Language-Action Models for Generalist Robots

저자: Xinghang Li, Peiyan Li, Long Qian, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Xinlong Wang, Di Guo, Tao Kong, Hanbo Zhang, Huaping Liu | 날짜: 2024.12

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#856 2025.10 4/5

World Simulation with Video Foundation Models for Physical AI

Figure 1: Our video curation pipeline transforms raw, unstructured video data from diverse real-world sources

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#857 2025.03 4/5

ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

저자: Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Jason Ma, Dinesh Jayaraman | 날짜: 2025.03

Fig. 1: ZeroMimic distills robotic manipulation skills from egocentric web videos for zero-shot deployment across divers

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Diffusion-Based Embodied World Modeling 9 ▶

#858 2024.03 4/5

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

저자: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu | 날짜: 2024.03

Fig. 1: 3D Diffusion Policy (DP3) is a visual imitation learning algorithm that marries 3D visual representations with d

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#859 2023.08 4/5

3D Gaussian Splatting for Real-Time Radiance Field Rendering

저자: Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis | 날짜: 2023.08

Fig. 1. Our method achieves real-time rendering of radiance fields with quality that equals the previous method with the

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#860 2024.03 4/5

3D-VLA: A 3D Vision-Language-Action Generative World Model

저자: Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan | 날짜: 2024.03

Figure 1. Examples from our 3D Embodied Instruction Tuning Dataset.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#861 2025.01 4/5

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

저자: Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Yue Liao, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren | 날짜: 2025.01

Figure 1: An overview of ENERVERSE. With camera ob-

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#862 2025.05 4/5

EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models

저자: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren | 날짜: 2025.05

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#863 2023.09 4/5

저자: Xiaoshen Han, Minghuan Liu, Yilun Chen, Junqiu Yu, Xiaoyang Lyu, Yang Tian, Bolun Wang, Weinan Zhang, Jiangmiao Pang | 날짜: 2025.02

저자: Ge Yan, Jiyue Zhu, Yuquan Deng, Shiqi Yang, Ri-Zhao Qiu, Xuxin Cheng, Marius Memmel, Ranjay Krishna, Ankit Goyal, Xiaolong Wang, Dieter Fox | 날짜: 2025.09

Figure 1: We introduce ManiFlow, a flow matching model excelling in complex manipulation tasks,

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#879 2024.03 4/5

Figure 1: VOXPOSER extracts language-conditioned affordances and constraints from LLMs and grounds

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Diffusion-Based Action Token Generation 29 ▶

#895 2025.10 4/5

A Comprehensive Survey on World Models for Embodied AI

저자: Xinqing Li, Xin He, Le Zhang, Min Wu, Xiaoli Li, Yun Liu | 날짜: 2025.10

Fig. 1. Structure of this survey. The figure classifies world models along three axes and illustrates representative met

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#896 2025.06 4/5

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

저자: Wenxuan Song, Jiayi Chen, Pengxiang Ding, Yuxin Huang, Han Zhao, Donglin Wang, Haoang Li | 날짜: 2025.06

Figure 1: Acceleration effect of CEED-VLA on OpenVLA and LLaVA-VLA. Left: Comparison

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#897 2024.11 4/5

CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation

Figure 1. (a) Success rate (%) comparison of our model against RT-1 [7], RT-1-X [48], RT-2-X [48], Octo [62], and OpenVL

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

저자: Eloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret | 날짜: 2024.05

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#903 2024.08 4/5

Figure 1: (a) Unlike recent diffusion-based VLA methods [12, 13, 14] that attach a separate diffusion

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#909 2026.01 4/5

Fig. 1:

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#913 2025.06 4/5

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

저자: Yuxuan Chen, Xiao Li | 날짜: 2025.06

Fig. 1 : RLRC substantially compresses the VLA, leading to

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#914 2023.07 4/5

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Figure 1 | RT-2 overview: we represent robot actions as another language, which can be cast into text tokens and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#915 2025.09 4/5

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

Figure 1 | Overview of SimpleVLA-RL. SimpleVLA-RL is an efficient RL framework for VLA that im-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#916 2025.09 4/5

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

저자: Hanzhen Wang, Jiaming Xu, Yushun Xiang, Jiayi Pan, Yongkang Zhou, Yong-Lu Li, Guohao Dai | 날짜: 2025.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#917 2025.06 4/5

Unified Vision-Language-Action Model

저자: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang | 날짜: 2025.06

Figure 1: We present UniVLA, a unified vision-language-action model. Unlike prior VLA

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#918 2025.07 4/5

저자: David Ha, Jürgen Schmidhuber | 날짜: 2018.03

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#922 2025.10 4/5

Figure 1: EgoScale: Two-stage human-to-robot learning framework. A flow-based Vision-Language-Action

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#928 2025.02 4/5

Human2Robot: Learning Robot Actions from Paired Human-Robot Videos

저자: Sicheng Xie, Haidong Cao, Zejia Weng, Zhen Xing, Haoran Chen, Shiwei Shen, Jiaqi Leng, Zuxuan Wu, Yu-Gang Jiang | 날짜: 2025.02

Figure 1: HUMAN2ROBOT: An human-video-conditioned

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

저자: Haoran Jiang, Jin Chen, Qingwen Bu, Li Chen, Modi Shi, Yanjie Zhang, Delong Li, Chuanzhe Suo, Chuang Wang, Zhihui Peng, Hongyang Li | 날짜: 2025.12

Figure 1: Introducing WholeBodyVLA, a humanoid system that operates on Agibot X2 robot and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Agentic Vision-Language-Action Models 26 ▶

#933 2023.11 4/5

Advances in Embodied Navigation Using Large Language Models: A Survey

저자: Jinzhou Lin, Han Gao, Xuxiang Feng, Rongtao Xu, Changwei Wang, Man Zhang, Li Guo, Shibiao Xu | 날짜: 2023.11

Fig. 1: This presentation exhibit a temporal map depicting the works of embodied navigation from 2022 to 2024, and we

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#934 2023.11 4/5

An Embodied Generalist Agent in 3D World

저자: Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang | 날짜: 2023.11

Figure 1: The proposed embodied generalist agent LEO. It takes egocentric 2D images, 3D point clouds, and texts as input

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

저자: Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanhang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu | 날짜: 2025.04

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#939 2025.06 4/5

Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning

저자: Hao Chen, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Renrui Zhang, Xiaoqi Li, Xiao He, Yandong Guo, Chi-Wing Fu, Shanghang Zhang, Pheng-Ann Heng | 날짜: 2025.06

Figure 1: Overview of FiS-VLA. (a) Unlike previous dual-system VLA methods [1, 2] that attach a

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#940 2025.02 4/5

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

Figure 1: Open-ended instruction following. Hi Robot enables robots to follow multi-stage instructions, adapt to real-ti

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#941 2025.02 4/5

Magma: A Foundation Model for Multimodal AI Agents

저자: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao | 날짜: 2025.02

Figure 1. We introduce Magma, the first foundation model that is capable of interpreting and grounding multimodal inputs

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#942 2025.05 4/5

Figure 1: PaLM-E is a single general-purpose multimodal language model for embodied reasoning tasks, visual-language tas

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#946 2025.03 4/5

저자: Guanxing Lu, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang | 날짜: 2023.12

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#950 2025.10 4/5

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

저자: Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang | 날짜: 2025.10

Fig. 1: Real-world demonstration of TrackVLA++. TrackVLA++ is a novel Vision-Language-Action model that incorporates spa

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#951 2025.02 4/5

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

저자: Navid Rajabi, Jana Kosecka | 날짜: 2025.02

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#952 2025.07 4/5

TriVLA: A Triple-System-Based Unified Vision-Language-Action Model with Episodic World Modeling for General Robot Control

저자: Zhenyang Liu, Yongchong Gu, Sixiao Zheng, Yanwei Fu, Xiangyang Xue, Yu-Gang Jiang | 날짜: 2025.07

Figure 1: TriVLA is a unified Vision-Language-Action framework that adopts a triple-system ar-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#953 2021.08 4/5

Vision-Language Navigation: A Survey and Taxonomy

저자: Wansen Wu, Tao Chang, Xinmeng Li | 날짜: 2021.08

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#954 2025.05 4/5

저자: Dujun Nie, Xianda Guo, Yiqun Duan, Ruijun Zhang, Long Chen | 날짜: 2025.03

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#958 2024.05 4/5

A Survey on Vision-Language-Action Models for Embodied AI

저자: Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, Irwin King | 날짜: 2024.05

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 5 Clarity: 4 Overall: 4

In-Context Imitation Learning from Demonstrations 20 ▶

#959 2025.03 4/5

An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation

저자: Lu Shi, Yuxuan Xu, Shiyu Wang, Jinhao Huang, Wenhao Zhao, Yufei Jia, Zike Yan, Weibin Gu, Guyue Zhou | 날짜: 2025.03

Fig. 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#960 2023.12 4/5

Any-point Trajectory Modeling for Policy Learning

저자: Chuan Wen, Xingyu Lin, John So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel | 날짜: 2023.12

Fig. 1: Given a task instruction and the initial positions of any set of points in an image frame, our Any-point Traject

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#961 2025.02 4/5

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

저자: Yue Yang, Linfeng Zhao, Mingyu Ding, Gedas Bertasius, Daniel Szafir | 날짜: 2025.02

Fig. 1. The example illustrates how Observation Space Shift (OSS) occurs

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#962 2025.06 4/5

저자: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He | 날짜: 2024.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#976 2025.05 4/5

Streaming Flow Policy: Simplifying diffusion/flow-matching policies by treating action trajectories as flow trajectories

저자: Sunshine Jiang, Xiaolin Fang, Nicholas Roy, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Siddharth Ancha | 날짜: 2025.05

Figure 1: (a) Diffusion policy [1] and flow-matching policy [2] input a history of observations (not shown) to

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#977 2025.09 4/5

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search

저자: Wenkai Guo, Guanxing Lu, Haoyuan Deng, Zhenyu Wu, Yansong Tang, Ziwei Wang | 날짜: 2025.09

Fig. 1: VLA-Reasoner augments VLA models with test-time rea-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#978 2025.07 4/5

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

저자: Yating Wang, Haoyi Zhu, Mingyu Liu, Jiange Yang, Hao-Shu Fang, Tong He | 날짜: 2025.07

Figure 1. The VQ-VLA pipeline, consisting of two main stages: (1) training a general convolutional residual VQ-VAE and (

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Spatial Physical Reasoning for Embodied AI 17 ▶

#979 2025.05 4/5

BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation

저자: Zibo Zhou, Yue Hu, Lingkai Zhang, Zonglin Li, Siheng Chen | 날짜: 2025.05

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#980 2023.09 4/5

Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs

저자: Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias | 날짜: 2023.09

Figure 1: This is an illustration of the proposed pipeline. The system inputs are the positional input Pu, user input Lu

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#981 2025.03 4/5

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

Figure 1: An overview of Cosmos-Reason1. Cosmos-Reason1 contains two multimodal large language models of

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#982 2024.10 4/5

Figure 1. Overview of EmbodiedVSR, a framework integrating multimodal interaction and dynamic task execution. EmbodiedVS

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#986 2024.06 4/5

EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models

저자: Mengfei Du, Binhao Wu, Zejun Li, Xuanjing Huang, Zhongyu Wei | 날짜: 2024.06

Figure 1: Comparison between EmbSpatial-Bench and

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#987 2025.04 4/5

ForesightNav: Learning Scene Imagination for Efficient Exploration

저자: Hardik Shah, Jiaxu Xing, Nico Messikommer, Boyang Sun, Marc Pollefeys, Davide Scaramuzza | 날짜: 2025.04

Figure 1. ForesightNav proposes Imagination aided exploration

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#988 2025.11 4/5

저자: Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu | 날짜: 2025.03

저자: Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang | 날짜: 2024.02

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1006 2025.11 4/5

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

저자: Heyu Guo, Shanmu Wang, Ruichun Ma, Shiqi Jiang, Yasaman Ghasempour, Omid Abari, Baining Guo, Lili Qiu | 날짜: 2025.11

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1007 2024.06 4/5

OpenVLA: An Open-Source Vision-Language-Action Model

Figure 1: We present OpenVLA, a 7B-parameter open-source vision-language-action model (VLA), trained

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1008 2025.06 4/5

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

저자: Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone | 날짜: 2025.06

Figure 1: Inference-Time Scaling Law: We observe that action error consistently decreases as we

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#1009 2023.12 4/5

SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention

Fig. 1: Robotics Transformer policies obtained via Self-Adaptive Robust Attention (SARA) in action for three different m

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1010 2025.05 4/5

Search-TTA: A Multimodal Test-Time Adaptation Framework for Visual Search in the Wild

저자: Derek Ming Siang Tan, , Boyang Liu, Alok Raj, Qi Xuan Ang, Weiheng Dai, Tanishq Duhan, Jimmy Chiun, Yuhong Cao, Florian Shkurti, Guillaume Sartoretti | 날짜: 2025.05

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1011 2025.03 4/5

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

저자: Xiangyu Shi, Zerui Li, Wenqi Lyu, Jiatong Xia, Feras Dayoub, Yanyuan Qiao, Qi Wu | 날짜: 2025.03

Fig. 1. Role of our proposed waypoint predictor and backtrack mechanism.

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1012 2024.09 4/5

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

저자: Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, Jian Tang | 날짜: 2024.09

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#1013 2025.09 4/5

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Video-Action Joint Prediction for Manipulation 7 ▶

#1014 2024.10 4/5

Diffusion Transformer Policy

저자: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen | 날짜: 2024.10

Figure 1.

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#1015 2025.08 4/5

Figure 1. Motus Architecture. Here, at . . . at+k are actions, zt . . . zt+k are latent actions, and τv and τa are the r

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

#1019 2025.02 4/5

Unified Video Action Model

저자: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song | 날짜: 2025.02

Fig. 1: Unified Video Action Model. (a) UVA features a joint video-action latent representation and decoupled video-acti

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1020 2023.10 4/5

Video Language Planning

Figure 1: Video Language Planning uses forward tree search via vision-language models and text-to-video

Essence

Evaluation

Novelty: 4 Technical Soundness: 4 Significance: 4 Clarity: 4 Overall: 4

Self-Supervised Joint-Embedding Representations 5 ▶

#1021 2023.04 4/5

DINOv2: Learning Robust Visual Features without Supervision

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1022 2021.02 4/5

저자: Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer | 날짜: 2023.03

저자: Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan, Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter, Karol Hausman, Fei Xia | 날짜: 2023.02

Figure 1: We propose using text-guided diffusion models for data augmentation within the sphere

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

#1041 2023.12 4/5

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

저자: Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong | 날짜: 2023.12

Figure 1: Overview of GR-1. GR-1 is first pre-trained on the task of video prediction with a large-

Essence

Evaluation

Novelty: 4 Technical Soundness: 3 Significance: 4 Clarity: 4 Overall: 4

Generated by Claude Code · Physical AI Paper Curation · 2026-06-14

Physical AI — Paper Curation

Research Timeline

Research Insights 7 findings

Deep Research

References

Related Figures

Category Overview

Category Overview