Simulating Infant First-Person Sensorimotor Experience via Motion Retargeting from Babies to Humanoids
๐ง Audio Overview ์์ฑ
์ ์ : Francisco M. Lรณpez, Hoshinori Kanazawa, Ondrej Fiala, Yakov Balashov, Valentin Marcel, Lukas Rustler, Miles Lenz, Dongmin Kim, Yasuo Kuniyoshi, Jochen Triesch, Matej Hoffmann | ๋ ์ง : 2026-04-30 | URL : https://arxiv.org/abs/2604.27583 📄 PDF
Essence
Fig. 2.
๋ณธ ๋
ผ๋ฌธ์ ์์์ ๋จ์ผ ๋น๋์ค๋ก๋ถํฐ 3D ์ ์ฒด ์์ธ๋ฅผ ์ถ์ ํ๊ณ ์ด๋ฅผ iCub, pyCub, EMFANT, MIMo ๋ฑ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋งคํํ์ฌ ๊ณ ์ ์์ฉ๊ฐ๊ฐ, ์ด๊ฐ, ์๊ฐ ๋ฑ ๋ค์ค๊ฐ๊ฐ ์คํธ๋ฆผ์ ์๋ฎฌ๋ ์ด์
ํ๋ motion retargeting ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
Known : 3D ํฌ์ฆ ์ถ์ ์ ์ฑ์ธ์ ๋์์ผ๋ก ๊ฐ๋ฐ๋ ๊ธฐ๋ฒ์ด ์์์๋ ์ ์ฉ ๊ฐ๋ฅํจ์ด ๋ณด๊ณ ๋์๊ณ , ์ผ์ธ์นญ ์์ ๋ถ์์ ์ต๊ทผ ์ธ์ง๋ฐ๋ฌ ์ฐ๊ตฌ์์ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค. ํนํ ViTPose๋ ์์ ๋ฐ์ดํฐ์
์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, iCub์ ๋ฐ๋ฌ ๋ก๋ณดํฑ์ค์ ํ์ค ํ๋ซํผ์ผ๋ก ํ์ฉ๋์ด์๋ค.
Gap : ๊ธฐ์กด์ ์ธ๊ฐ-๋ก๋ด motion retargeting ๊ธฐ๋ฒ์ ์ด๋ํ(kinematics)๋ง์ ์ฌํํ๊ณ ๊ฐ๊ฐ๊ฒฝํ(sensorimotor experience)์ ๋ฌด์ํด์๋ค. ๋ํ ์ผ์ธ์นญ ์์ ๋ถ์์ ์นจ์ต์ ์ธ ๋จธ๋ฆฌ์ฅ์ฐฉ ์นด๋ฉ๋ผ๊ฐ ํ์ํ์ฌ ์ข
๋จ ๋ฐ๋ฌ ์ถ์ ์ ๋ถ์ ํฉํ๋ค. ๋ฐ๋ผ์ 3์ธ์นญ ๋น๋์ค๋ก๋ถํฐ 1์ธ์นญ ๊ฐ๊ฐ๊ฒฝํ์ ์๋ฎฌ๋ ์ด์
ํ๋ ํตํฉ ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
Why : ์์์ ์ด๊ธฐ ๊ฐ๊ฐ์ด๋ ๋ฐ๋ฌ์ ์ดํดํ๋ ๊ฒ์ ์ธ๊ฐ ์ธ์ง๋ฐ๋ฌ์ ๊ธฐ์ด๋ฅผ ๊ท๋ช
ํ๊ณ ์ ๊ฒฝ๋ฐ๋ฌ ์ด์์ ์กฐ๊ธฐ์ ์ง๋จํ๋ ๋ฐ ํ์์ ์ด๋ค. ๊ธฐ์กด ํ๋ ๋ถ์ ๋ฐฉ๋ฒ๋ค์ ์ ํ๋ ์ ๋ณด๋ง ์ ๊ณตํ๋ฏ๋ก, ์์์ ๋ด์ฌ์ ๊ฐ๊ฐ๊ฒฝํ์ ์ง์ ์๋ฎฌ๋ ์ด์
ํ ์ ์๋ ๋๊ตฌ๋ ๋ฐ๋ฌ๊ณผํ๊ณผ ๋ก๋ณดํฑ์ค ๋ชจ๋์ ํฐ ๊ฐ์น๊ฐ ์๋ค.
Approach : Multi-view ์นด๋ฉ๋ผ๋ก ์ดฌ์๋ ์์ ์์์์ ViTPose๋ฅผ ์ด์ฉํด ๊ฐ ๋ทฐ์์ 2D ํคํฌ์ธํธ๋ฅผ ์ถ์ถํ๊ณ ์นด๋ฉ๋ผ ๊ฐ ๋์ ๊ด๊ณ๋ฅผ ํตํด 3D ์ขํ๋ฅผ ๊ณ์ฐํ๋ค. ๋จ์ผ ๋ทฐ์ ๊ฒฝ์ฐ SMPL ๊ธฐ๋ฐ ๋ชจ๋ธ(SMIL)์ 2D ํฌ์์ ๋ง์ถ๋ค. ์ถ์ ๋ 3D ์์ธ๋ฅผ MIMo์ ๊ธฐํํ์ ์์ํ(geometric primitives)์ ์ค์ผ์ผ๋งํ์ฌ ๋งคํํ๊ณ , iCub๊ณผ EMFANT์ ์ค์ ๊ด์ ๊ตฌ์กฐ์ ๋ง์ถ๋ค. ์ดํ ๊ฐ ๋ก๋ด ํ๋ซํผ์์ ์์ธ๋ฅผ ์ฌํํ์ฌ proprioception, touch, vestibular sensation, vision ๋ฑ์ ๋ค์ค๊ฐ๊ฐ ์คํธ๋ฆผ์ ๊ธฐ๋กํ๋ค.
Achievement
Fig. 3. Accuracy of the motion retargeting. MIMo and EMFANT achieve
์ต์ ์ผ์น ๊ตฌํ์์ sub-centimeter ์ ํ๋ ๋ฌ์ฑ : MIMo์ EMFANT์ motion retargeting์ด ๋์ ์ ํ๋๋ก ์๋ํจ์ ์
์ฆํ๋ค. ๋ค์ค๊ฐ๊ฐ ์คํธ๋ฆผ ์์ฑ : iCub์ 4,000๊ฐ ์ด๊ฐ ์์ฉ์ฒด ๋ชจ์, MIMo์ ๊ฐ์ ์ด๊ฐ ํผ๋ถ, ์์ ์๊ฐ ๋ ๋๋ง ๋ฑ์ ํตํด ํ๋ถํ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค. ๋ฐ๋ฌ ๋ก๋ณดํฑ์ค ๋ฐ ์ ๊ฒฝ๋ฐ๋ฌ ์ง๋จ ์์ฉ : ์์ ๋ฐ๋ฌ ๋ถ์ ๋ฐ ํ๋ ์๋ ์ฃผ์ ๋ฌ์ฑ, ์ ๊ฒฝ๋ฐ๋ฌ ์ด์ ์กฐ๊ธฐ ์ง๋จ์ ํ์ฉ ๊ฐ๋ฅํ ๋๊ตฌ ์ ๊ณต.
How
Fig. 2.
2D ํคํฌ์ธํธ ์ถ์ถ: ViTPose๋ฅผ ๋ค์ค ๋ทฐ์ ์ ์ฉํ์ฌ ๊ฐ ๋ทฐ์์ ๋
๋ฆฝ์ ์ผ๋ก ์ถ์ถ
3D ์ขํ ์ผ๊ฐ์ธก๋: ๋ฉํฐ๋ทฐ ๋์ ๊ด๊ณ๋ฅผ ํตํด 3D ์ขํ ๊ณ์ฐ; ๋จ์ผ ๋ทฐ ์ SMIL ๋ชจ๋ธ ํผํ
ํด๋จธ๋
ธ์ด๋ ๋งคํ: MIMo๋ ๊ธฐํํ์ ์์ํ ์ค์ผ์ผ๋ง์ผ๋ก ์์ ์ฒดํ ๋ณด์ , iCub/EMFANT๋ ๊ด์ ์ ์ฝ ์ ์ฉ
๊ฐ๊ฐ ์๋ฎฌ๋ ์ด์
: ์ฌํ๋ ์์ธ๋ก๋ถํฐ proprioceptive signals, touch sensor activation, binocular vision ๊ธฐ๋ก
๊ฒ์ฆ: 6๊ฐ์ ์์ ๋น๋์ค(2,900 ํ๋ ์, 116์ด) ๋จ์ผ ์์์ผ๋ก ์์คํ
์
์ฆ
Originality
์ฒซ ํตํฉ ํ๋ ์์ํฌ : 3D ํฌ์ฆ ์ถ์ ๊ณผ ๋ค์ค๊ฐ๊ฐ ์๋ฎฌ๋ ์ด์
์ ๊ฒฐํฉํ ์ต์ด ์์คํ
์ผ๋ก, ๊ธฐ์กด motion retargeting์ ์ด๋ํ ์ค์ฌ ์ ๊ทผ์ ๋์ด ๊ฐ๊ฐ๊ฒฝํ ์ฌํ์ผ๋ก ํ์ฅ
์์-๋ก๋ด ๋งคํ์ ์๋ก์ด ์์ฉ : ViTPose + multi-robot platform(iCub, pyCub, EMFANT, MIMo) ํตํฉ ํ์ดํ๋ผ์ธ์ผ๋ก, ๋จ์ผ ๋น๋์ค๋ก๋ถํฐ ๋ค์ํ ์ฒด๊ตฌ ๋ก๋ด์ผ๋ก์ ์ ํํ ์ฌํ๊ฒํ
์คํ
๋ค์ค๊ฐ๊ฐ ์ ๊ทผ๋ฒ : proprioception, touch, vestibular, vision์ ํจ๊ป ์๋ฎฌ๋ ์ด์
ํ์ฌ ๊ฐ๊ฐ์ด๋ ํ์ต ์ฐ๊ตฌ์ ์๋ก์ด ์ฐจ์ ์ถ๊ฐ
Limitation & Further Study
๋จ์ผ ์์ ๊ฒ์ฆ : 6๊ฐ์ ์์ 1๋ช
์ ๋จ์ผ ๋น๋์ค๋ก๋ง ๊ฒ์ฆ๋์ด ๋ฐ๋ฌ ๊ถค์ ์ ๋ค์์ฑ ๋ฏธํก
์์ธ ์ถ์ ์ ํ๋ ์์กด์ฑ : ViTPose ์ฑ๋ฅ ํ๊ณ(ํนํ ํ์ ์ด๋์ด๋ occlusion)๊ฐ ํ๋ฅ ์ฌํ๊ฒํ
์ ํ๋์ ์ง์ ์ํฅ
๋ก๋ด ์ฒด๊ตฌ ํธ์ฐจ : iCub(4์ธ ์๋ ๋ชจ๋ธ)์ด ์์ ์ฒดํ๊ณผ ์ฐจ์ด๋ก ์ธํ ์ ํ๋ ๊ฐ์; ์์ ์ ์ฉ ๋ก๋ด ํ์์ฑ
ํ์ ์ฐ๊ตฌ : ๋๊ท๋ชจ ์์ ๋ฐ์ดํฐ์
์ ์ฉ, ์ ๊ฒฝ๋ฐ๋ฌ ์ฅ์ ์ง๋จ ๊ฒ์ฆ, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ํ๋ ํฅ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ ์์ ๋ฐ๋ฌ ์ฐ๊ตฌ์ ๋ก๋ณดํฑ์ค์ ๊ต์ ์์ motion retargeting์ ๋ค์ค๊ฐ๊ฐ ์๋ฎฌ๋ ์ด์
์ ๊ฒฐํฉํ ์ฐฝ์์ ์ด๊ณ ๊ธฐ์ ์ ์ผ๋ก ๊ฑด์ ํ ์์
์ด๋ค. Sub-centimeter ์ ํ๋์ ์ค์ ๋ฐ ๊ฐ์ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์์์ ์
์ฆ์ ๊ฐ์ ์ด๋, ๋จ์ผ ์์ ๊ฒ์ฆ๊ณผ ์์ ๋ชจ๋ธ ๋ถ์ฌ๋ก ์ธํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์ ์ฝ์ด ํ๊ณ์ด๋ค. ์ฝ๋ ๊ณต๊ฐ ๋ฐ ๋ช
ํํ ๋ฐฉ๋ฒ๋ก ์ ์๋ ๋์ด ํ๊ฐ๋๋ฉฐ, ๋ฐ๋ฌ๊ณผํ๊ณผ ์ ๊ฒฝ๋ฐ๋ฌ ์ง๋จ ์์ฉ์ ๋ฏธ๋ ์ ์ฌ๋ ฅ์ด ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com