Robot Learning from Human Videos: A Survey
์ ์: Junyi Ma, Erhang Zhang, Haoran Yang, Ditao Li, Chenyang Xu, Guangming Wang, Hesheng Wang | ๋ ์ง: 2026-04-30 | URL: https://arxiv.org/abs/2604.27621 📄 PDF
Essence
Figure 2. Taxonomy of robot learning from human videos.
๋ณธ ๋
ผ๋ฌธ์ ๋ก๋ด์ด ์ธ๊ฐ ์์ ์์ฐ์ผ๋ก๋ถํฐ ์กฐ์ ๊ธฐ์ ์ ์ต๋ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ํฌ๊ด์ ๋ฆฌ๋ทฐ๋ก์, taskยทobservationยทaction ๋ ๋ฒจ์์์ ๊ณ์ธต์ ์ ์ด ๊ฒฝ๋ก๋ฅผ ์ ์ํ๊ณ ๋ฐ์ดํฐ ๊ธฐ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ค. ์ธ๊ฐ ์์ ๊ธฐ๋ฐ ํ์ต์ด ๊ธฐ์กด ๋ก๋ด ํ
๋ ์๋์ ๋นํด 5-10๋ฐฐ ์ด์์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์ ๊ณตํจ์ ๊ฐ์กฐํ๋ค.
Motivation
- Known: ์ธ๊ฐ ๊ธฐ์ ํ์ต์ผ๋ก๋ถํฐ ๋ก๋ด ์คํฌ ํ๋์ด๋ผ๋ ๊ฐ๋
์ ์๋ ค์ ธ ์์ผ๋, imitation learning๊ณผ reinforcement learning์ ๊ธฐ์กด ํจ๋ฌ๋ค์์ ์์ง ๋น์ฉ๊ณผ ์ํ ํจ์จ์ฑ ์ธก๋ฉด์์ ํ๊ณ๊ฐ ์๋ค. ์ต๊ทผ computer vision๊ณผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋ฐ์ ์ด ์๋ก์ด ๊ธฐํ๋ฅผ ์ ์ํ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ฆฌ๋ทฐ๋ค์ ์ธ๊ฐ ์์์ผ๋ก๋ถํฐ ๋ก๋ด ์คํ๊น์ง์ ์ ๋ณด ํ๋ฆ์ ์ค์ฌ์ผ๋ก ํ ๋ถ๋ฅ ์ฒด๊ณ๊ฐ ๋ถ์ฌํ๋ฉฐ, ์ ์ด ๊ฒฝ๋ก๋ค์ ๊ด์ (viewpoint) ์ ํยท์ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์กด์ฑยทํ์ต ํจ๋ฌ๋ค์์ ๋ํ ์ฒด๊ณ์ ๋น๊ต๊ฐ ์ด๋ฃจ์ด์ง์ง ์์๋ค. ๋ํ ์ธ๊ฐ ์์ ๋ฐ์ดํฐ์
์ ๋ฐ์ ๋ํฅ๊ณผ ๋น๋์ค ์์ฑ ๊ธฐ๋ฒ์ ๋ํ ํตํฉ์ ๋ถ์์ด ๋ฏธํกํ๋ค.
- Why: ์ธ๊ฐ ์์์ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ๊ทผ๋ณธ์ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๋ ํต์ฌ ์๋จ์ผ๋ก, ๋๊ท๋ชจ๋ก ์ฝ๊ฒ ์์ง ๊ฐ๋ฅํ๋ฉด์๋ ํ๋ถํ ํ์คํฌ ์๋ฏธ๋ก ๊ณผ ์ํธ์์ฉ ํจํด์ ํฌํจํ๋ค. ์ด๋ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ก๋ด ์ ์ฑ
๊ฐ๋ฐ์ ์ํ ํ์์ ๊ธฐ์ด์ด๋ฉฐ, ์ฒด๊ณ์ ๋ถ๋ฅ์ ๋น๊ต ๋ถ์์ด ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ๋ฆฝ์ ์ค์ํ๋ค.
- Approach: hierarchical taxonomy๋ฅผ ํตํด human-robot skill transfer๋ฅผ task levelยทobservation levelยทaction level ์ธ ๊ฒฝ๋ก๋ก ๋ถ๋ฅํ๊ณ , ๊ฐ ๊ฒฝ๋ก์ video-derived intermediates๋ฅผ ์๋ณํ๋ค. ๋ํ viewpoint ์ ํยท์ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์กด์ฑยทlearning paradigm๊ณผ์ coupling์ ๋ถ์ํ๊ณ , human video datasets์ video generation schemes์ ํต๊ณ์ ์ถ์ธ๋ฅผ ๋๊ท๋ชจ๋ก ์กฐ์ฌํ๋ค.
Achievement
Figure 2. Taxonomy of robot learning from human videos.
๊ณ์ธต์ ์ ์ด ๋ฉ์ปค๋์ฆ์ ์ ์: task/observation/action ๋ ๋ฒจ์ ๋ช
ํํ ๋ถ๋ฅ ํ๊ณผ ๊ฐ ๊ฒฝ๋ก์ ์ค๊ณ ์์นยทํธ๋ ์ด๋์คํ ๋ถ์. ๋ฐ์ดํฐ ๊ตฌ์ฑ๊ณผ ํ์ต ํจ๋ฌ๋ค์์ ๋น๊ต ๋ถ์: ์๋ก ๋ค๋ฅธ ์ ์ด ๊ณ์ด ๊ฐ methodological couplings ๊ท๋ช
. ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ ๋ถ์ ๋๊ตฌ์ ์ฒด๊ณํ: hand detectionยทobject trackingยทpose estimation ๋ฑ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ข
ํฉ. ์ธ๊ฐ ์์ ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ํต๊ณ ๋ถ์: dataset ๋ฐ์ ์ถ์ธ์ LfHV ๋ฉ์๋์ ๋ฐ์ดํฐ ์ ํธ๋ ๋ถ์ (๊ธฐ์กด ์ฐ๊ตฌ ๋๋น ๊ฐ์ฅ ํฌ๊ด์ ). ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์: ๋ชจ๋ธ๋ง ํจ๋ฌ๋ค์ยท๋ฐ์ดํฐ ๋ชจ๋ฌ๋ฆฌํฐยท๋ฒค์น๋งํฌยท์ํ๊ณ ํ๋ ฅ ์ธก๋ฉด์์์ ๊ธฐํ ์์ญ ๋์ถ.
How
Figure 2. Taxonomy of robot learning from human videos.
- ์ธ๊ฐ ์์์์ ๋ก๋ด ์กฐ์๊น์ง์ ์ ๋ณด ํ๋ฆ์ task/observation/action ์ธ ๊ฒฝ๋ก๋ก ๊ณ์ธตํํ๊ณ ๊ฐ ๊ฒฝ๋ก์ ์ค๊ฐ ์ญํ ์ ํ๋ ์์(intermediates) ์๋ณ
- viewpoint ์ ํ(egocentric vs. third-person), ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์กด์ฑ, learning paradigm(imitation vs. reinforcement vs. hybrid) ๊ด์ ์์ cross-family ๋น๊ต ๋ถ์
- hand detectionยทobject recognitionยท3D pose estimationยทtrajectory prediction ๋ฑ off-the-shelf tools์ practical utility์ popularity ํ๊ฐ
- ๊ธฐ์กด open-source human video datasets์ ์๊ฐ์ ๋ฐ์ ์ถ์ธ์ ๊ฐ LfHV ๋ฉ์๋ ๊ณ์ด๋ณ ๋ฐ์ดํฐ ํ์ฉ ํจํด ํต๊ณ ๋ถ์
- video generation schemes(synthetic data generation) ๋ฑ์ฅ์ ์ญํ ๊ณผ ๋ฏธ๋ ๊ธฐ์ฌ๋ ํ๊ฐ
Originality
- novel taxonomy construction: ์ธ๊ฐ ์์๊ณผ ๋ก๋ด ์คํ ๊ฐ ์ ๋ณด ํ๋ฆ ์ค์ฌ์ ๊ณ์ธต์ ๋ถ๋ฅ์ฒด๊ณ ์ฒ์ ์ ์
- systematic cross-family analysis: ๊ธฐ์กด ๋ฆฌ๋ทฐ๊ฐ ๋ถ์ฌํ viewpoint ์ ํยทreal robot data ์์กด์ฑยทlearning paradigm ๊ฐ coupling ๋ถ์
- comprehensive statistical landscape: LfHV ๋งฅ๋ฝ์์ ์ธ๊ฐ ์์ ๋ฐ์ดํฐ์
์ ๋ํ ์ญ๋ ๊ฐ์ฅ ๊ด๋ฒ์ํ ํต๊ณ ๋ถ์ ์ ๊ณต
- integration of multiple perspectives: policy learning foundationsยทhuman-object interaction analysisยทdata foundationsยทfuture directions๋ฅผ ์ผ๊ด๋ ํ๋ ์์ํฌ๋ก ํตํฉ
Limitation & Further Study
- Scope limitation: ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ๊ตญํํ์ฌ whole-body controlยทlocomotionยท๋ณต์กํ ์ํธ์์ฉ ์๋ ๊ณผ์ ์ ์ธ
- Temporal scope: ๋งค์ฐ ๋น ๋ฅธ ๋ถ์ผ ์ง์ ์ผ๋ก ์ธํด survey ์์ฑ ํ ์ถํํ๋ ์๋ก์ด ๋ฉ์๋ยท๋ฐ์ดํฐ์
์ ๋๋ฝ ๊ฐ๋ฅ์ฑ
- Quantitative depth: ๋๋ถ๋ถ ๊ธฐ์ ๋ฆฌ๋ทฐ ํํ๋ก, ๋ฉ์๋ ๊ฐ ์ ๋์ ์ฑ๋ฅ ๋น๊ตยท๋ฒค์น๋งํฌ ํ๊ฐ๊ฐ ์ ํ์
- Video generation schemes ๋ฏธ์ฑ์์ฑ: synthetic data generation ๊ธฐ๋ฒ์ ๋ํ ์ฒด๊ณ์ ํ๊ฐ๊ฐ ๋ฏธํกํ๋ฉฐ ์ค์ ๋ก๋ด ์ฑ๋ฅ ์ํฅ ๋ถ์ ๋ถ์ฌ
- Generalization analysis ๋ถ์กฑ: ๋ค์ํ ๋ก๋ด ํ๋ซํผ(humanoid vs. non-humanoid)ยท๋๋ฉ์ธ(์ฐ์
vs. ๊ฐ์ )ยท๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ์์์ ์ผ๋ฐํ ํน์ฑ์ ๋ํ ๊น์ด ์๋ ๋ถ์ ์ ํ
ํ์ ์ฐ๊ตฌ:
- ๋ฉ์๋ ๊ฐ ์ ๋์ ๋ฒค์น๋งํน ํ๋ ์์ํฌ ๊ฐ๋ฐ
- ์ค์ ๋ก๋ด ๋ฐฐ์น ํ๊ฒฝ์์์ long-term performance ์ถ์
- synthetic data์ real-world transfer ํน์ฑ ์ฌํ ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ survey๋ ๋ก๋ด ํ์ต ๋ถ์ผ์์ ์ธ๊ฐ ์์ ๊ธฐ๋ฐ ์คํฌ ํ๋์ด๋ผ๋ ๊ธ์ฑ์ฅํ๋ ๋ถ์ผ์ ๋ํด ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ด๊ณ ํฌ๊ด์ ์ธ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํ๋ฉฐ, ๋ค๊ฐ์ ์ธ ๋น๊ต ๋ถ์๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ ํต๊ณ๋ฅผ ๋ฐํ์ผ๋ก ํ์ฌ ์ฐ๊ตฌ ๊ฒฝ๊ด์ ๋ช
ํํ ์กฐ๋งํ๋ค. ์ค์ ๋ฐ์ดํฐ ํจ์จ์ฑ ๊ฐ์ (5-10๋ฐฐ)์ด ์ค์ฆ๋์ด ์์ด ํ์ ์ ยท์ค๋ฌด์ ์ค์์ฑ์ด ๋์ผ๋, ์ ๋์ ์ฑ๋ฅ ๋น๊ต์ ์๋ก์ด ๋ฉ์๋ ์ ์๊ฐ ์๋ ์์ ๋ฆฌ๋ทฐ ๋
ผ๋ฌธ์ด๋ผ๋ ํ๊ณ๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์