Physical AI — Paper Curation

347
리뷰 완료
6
MECE 카테고리
2026-06-14
큐레이션 일자

Research Timeline

Research Timeline

Physical AI 분야는 2018년 Ha와 Schmidhuber의 World Models 논문이 생성적 신경 세계 모델(generative neural world model) 개념을 제시하면서 본격적인 학문적 토대를 마련했고, 2022년 Google의 RT-1과 SayCan, PaLM-E의 등장으로 대규모 언어 모델(LLM)을 로봇 행동에 접지(grounding)하는 패러다임이 확립되었다. 이 시기 VLMaps와 CLIP-Fields는 CLIP 특징을 3D 재구성과 융합한 개방형 어휘 의미 지도(open-vocabulary semantic map)를 선보였으며, 동시에 3D Gaussian Splatting(2023, Kerbl 등)의 등장은 실시간 사실적 렌더링을 통해 실-가상-실(real-to-sim-to-real) 파이프라인의 기반을 마련했다. 2023년에는 Voyager, DEPS, SayPlan이 LLM을 평생 학습(lifelong learning) 플래너로 활용하는 흐름을 열었고, Chi 등의 Diffusion Policy와 Open X-Embodiment(RT-X) 데이터셋이 확산 기반 행동 생성과 교차 형태(cross-embodiment) 전이 학습이라는 두 축을 형성했다. 2024년은 Vision-Language-Action(VLA) 모델이 통합 패러다임으로 자리잡은 해로, OpenVLA, π0, Octo가 오픈소스 일반화 백본을 확립했고 CogACT와 3D-VLA가 인지와 행동을 분리한 확산 행동 전문가(diffusion action expert) 구조를 제시했으며, HumanPlus와 H2O는 RGB 카메라만으로 휴머노이드 전신 원격조작을 가능케 했다. 2025년에는 π0.5, GR-3, Gemini Robotics 1.5, Being-H0.5 같은 대규모 일반화 '로봇 두뇌'와 VLA-Adapter, TinyVLA, BitVLA 같은 경량·1비트 양자화 모델로 분야가 양극화되었고, CoT-VLA·ThinkAct·OneTwoVLA가 명시적 System-2 추론을 도입했으며, RoboPAIR가 촉발한 적대적 공격(adversarial attack) 연구에 대응해 RationalVLA의 합리적 거부(rational refusal)와 Fast-in-Slow 같은 이중 시스템 안전 구조가 등장했다. 또한 SIMPLER, AutoEval, RoboArena가 자율 평가 병목을 해소하고, OneDP·Consistency Policy의 단일 단계 증류로 실시간 추론이 가능해졌다. 향후 분야는 3D Gaussian Splatting, GPU 병렬 시뮬레이션, 생성적 디지털 트윈을 결합한 통합 real-to-sim-to-real 학습 환경 위에서 강화학습 미세조정(RFT)과 세계 모델 기반 검증을 결합하고, PointWorld가 시사하듯 행동과 장면을 3D 포인트 흐름으로 통합하는 신경-기호적(neuro-symbolic) 체화 일반 지능을 향해 수렴할 것으로 전망된다.

🔗 Interactive Paper Network →

Research Insights 7 findings

융합
VLA와 World Model 융합
Vision-Language-Action 모델과 World Model이 빠르게 융합되고 있으며, DiWA, NORA-1.5, TriVLA, UniVLA, Motus 등 다수의 연구에서 world model을 VLA의 post-training 또는 내부 모듈로 통합하는 추세가 강하게 관찰된다. 이는 단순 모방학습의 한계를 넘어 로봇이 미래 상태를 예측하며 행동을 계획하는 방향으로 패러다임이 전환되고 있음을 의미한다.
VLA Policy Training and Adaptation · Vision-Language-Action Model Architectures · LLM-Augmented Embodied Agent Frameworks [1368] [1494] [1596] [1599] [1481] [1632] [1626] [1631]
🏛 World Model 통합 VLA는 실제 로봇 배포 신뢰성을 높이므로, 관련 평가 기준 및 안전성 검증 프레임워크 수립이 시급하다.
융합
3D표현과 VLA 정책 통합
3D Gaussian Splatting, point cloud, 3D scene graph 등 3D 표현 기술이 VLA 정책 학습과 결합되는 연구가 급증하고 있다. DP3, 3DFA, SpatialVLA, PointWorld, GauDP, RE3SIM 등이 3D 표현을 통해 sim-to-real 전이와 공간 이해를 동시에 개선한다. 이는 2D 이미지 기반 정책의 한계를 극복하는 핵심 방향으로 부상하고 있다.
3D Simulation and Robot Manipulation · VLA Policy Training and Adaptation · Vision-Language-Action Model Architectures [1288] [1289] [1290] [1523] [1401] [1576] [1517]
🏛 3D 인식 기반 로봇 정책의 실용화를 위해 표준화된 3D 데이터셋 구축 및 공개 인프라 지원 정책이 필요하다.
신흥 트렌드
RL 기반 VLA 미세조정 부상
사전학습된 VLA 모델을 강화학습으로 미세조정하는 연구들이 2025년을 기점으로 급격히 증가하고 있다. VLA-RL, SimpleVLA-RL, ConRFT, GR-RL, VLA-RFT, FLaRe 등이 SFT 대비 분포 외 시나리오 대응력과 dexterous manipulation 성능을 크게 향상시킴을 보여준다. 이는 대규모 데이터 수집 없이도 성능을 개선할 수 있는 핵심 방법론으로 자리잡고 있다.
VLA Policy Training and Adaptation · Vision-Language-Action Model Architectures · Robotic Safety and Efficiency Systems [1620] [1573] [1338] [1411] [1619] [1394] [1532]
🏛 RL 기반 VLA 미세조정 기술의 표준화와 보상 함수 설계 가이드라인 마련이 산업 현장 적용을 가속화할 것이다.
연구 갭
LLM 로봇 편향·안전 연구 부족
LLM/VLM 기반 로봇 시스템의 편향성과 jailbreak 취약점에 관한 연구(1440, 1458, 1550, 1501)는 1041편 중 극소수에 불과하며, 실질적인 방어 메커니즘이나 정책 프레임워크를 제시하는 논문은 더욱 희소하다. 로봇이 인종·성별 고정관념을 물리적으로 재현하거나 폭력적 명령을 수행할 수 있다는 심각한 위험이 입증되었음에도 체계적 대응 연구가 크게 부족하다.
Robotic Safety and Efficiency Systems · LLM-Augmented Embodied Agent Frameworks · VLA Policy Training and Adaptation [1440] [1458] [1550] [1501]
🏛 LLM 기반 로봇 시스템의 안전성 인증 제도와 편향성 감사 의무화를 위한 법·제도적 기반 마련이 시급하다.
신흥 트렌드
인간 비디오 기반 로봇 학습
로봇 하드웨어 없이 대규모 인간 비디오 데이터만으로 로봇 정책을 사전학습하는 연구가 2025년 이후 급부상하고 있다. EgoScale, DreamDojo, UniSkill, ZeroMimic, Phantom, Human2Robot 등이 수만 시간의 이고센트릭 비디오를 활용해 로봇 데이터 수집 비용을 획기적으로 절감하는 방법을 제시한다. 이는 로봇 학습의 데이터 병목 문제를 해결하는 새로운 패러다임으로 주목받고 있다.
VLA Policy Training and Adaptation · 3D Simulation and Robot Manipulation · Vision-Language-Action Model Architectures [1376] [1355] [1601] [1634] [1515] [1425]
🏛 인간 행동 비디오 데이터의 공공 아카이브 구축 및 로봇 학습용 활용 허가 체계 정비가 연구 생태계 발전을 견인할 것이다.
융합
듀얼시스템 VLA 아키텍처 수렴
인지과학의 System 1(빠른 직관)/System 2(느린 추론) 개념을 VLA 아키텍처에 적용하는 연구들이 다수 수렴하고 있다. Fast-in-Slow, Hume, DualVLN, OpenHelix, ThinkAct, OneTwoVLA 등이 고속 제어와 심층 추론을 분리하거나 통합하는 다양한 방식을 탐구하며, 이 설계 철학이 VLA 아키텍처의 새로운 표준으로 자리잡아가고 있다.
Vision-Language-Action Model Architectures · VLA Policy Training and Adaptation · Robotic Safety and Efficiency Systems [1391] [1428] [1414] [1509] [1584] [1503]
🏛 듀얼시스템 VLA 표준 아키텍처 확립을 위한 벤치마크와 평가 기준 국제 표준화 논의를 선도할 필요가 있다.
감소 추세
단순 행동복제 정책의 쇠퇴
초기 VLA 연구의 근간이었던 단순 Behavior Cloning 기반 정책(BeT, ACT 등)은 diffusion policy, flow matching, RL 기반 미세조정 등 더 강력한 방법론들에 의해 대체되는 추세가 뚜렷하다. 2024-2025년 신규 연구들은 대부분 단순 BC를 베이스라인으로만 사용하며, 핵심 기여는 생성 모델이나 RL을 결합한 고급 정책 학습 방법에 집중되고 있다.
VLA Policy Training and Adaptation · 3D Simulation and Robot Manipulation [1316] [1362] [1339] [1502] [1375] [1580]
🏛 차세대 로봇 교육 및 산업 인력 양성 커리큘럼에서 생성 모델 기반 정책 학습 및 강화학습 통합 기술 역량을 핵심으로 설정해야 한다.
3D Simulation and Robot Manipulation 109편
LLM-Augmented Embodied Agent Frameworks 196편
Robotic Safety and Efficiency Systems 54편
VLA Policy Training and Adaptation 235편
Vision-Language Grounded Robot Navigation 137편
Vision-Language-Action Model Architectures 310편
Generated by Claude Code · Physical AI Paper Curation · 2026-06-14

🎧 Audio Overview

이 Deep Research 답변을 팟캐스트형 오디오로 생성합니다. (Gemini · 키는 브라우저에만 저장 · 완성본은 이메일로도 전송)
▸ 고급: 구성 방향(대본 작성 지침) 직접 수정
속도 1.0x
⬇ MP3 다운로드