DIJIT: A Robotic Head for an Active Observer
๐ง Audio Overview ์์ฑ
์ ์ : Mostafa Kamali Tabrizi, Mingshi Chi, Bir Bikram Dey, Yu Qing Yuan, Markus D. Solbach, Yiqian Liu, Michael Jenkin, John K. Tsotsos | ๋ ์ง : 2025-12-08 | URL : https://arxiv.org/abs/2512.07998 📄 PDF
Essence
Fig. 1.
์ธ๊ฐ์ ์๊ฐ ์ฒด๊ณ๋ฅผ ๋ชจ๋ฐฉํ ์์ฒด๋ชจ๋ฐฉ ์์ ๋ก๋ด ํค๋ DIJIT๋ฅผ ์ ์ํ๋ฉฐ, 9๊ฐ์ ๊ธฐ๊ณ์ ์์ ๋์ 4๊ฐ์ ๊ดํ์ ์์ ๋๋ฅผ ํตํด ๋ฅ๋์ ์๊ฐ ์ฐ๊ตฌ์ ์ธ๊ฐ ์๊ฐ์ ์๊ตฌ-๋จธ๋ฆฌ ์ด๋์ ํ๊ตฌํ๋ค.
Motivation
Known : ๋ก๋ด ์๊ฐ ์์คํ
์ ๊ณ ์ ๋ ์์ ์คํ
๋ ์ค ์นด๋ฉ๋ผ๋ pan-tilt ๊ตฌ์กฐ์ ์ ํ๋์ด ์์ผ๋ฉฐ, ๊ธฐ์กด ์์ฒด๋ชจ๋ฐฉ ๋ก๋ด ํค๋๋ค์ ๋ฌด๊ฒ, ํฌ๊ธฐ, ์์ ๋ ์ธก๋ฉด์์ ์ธ๊ฐ ์๊ฐ๊ณ๋ฅผ ์์ ํ ๊ตฌํํ์ง ๋ชปํ๋ค.
Gap : ๊ธฐ์กด ๋ก๋ด ํค๋๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๊ธฐ์ค์ (baseline), ๊ธฐ๊ณ์ ์์ ๋, ๊ดํ์ ์์ ๋๋ฅผ ๋ชจ๋ ๊ฐ์ถ๋ฉด์๋ saccade ์ฑ๋ฅ์ ์ ๋์ ์ผ๋ก ๋ณด๊ณ ํ ์์คํ
์ด ๋ถ์กฑํ๋ค.
Why : ์ธ๊ฐ ์๊ฐ๊ณผ ์ปดํจํฐ ์๊ฐ์ ์ฐจ์ด๋ฅผ ํ๊ตฌํ๊ธฐ ์ํด ๋ฅ๋ ์๊ฐ ์ฐ๊ตฌ๊ฐ ์ค์ํ๋ฉฐ, ์ธ๊ฐ ์์ค์ ๋น ๋ฅธ ์๊ตฌ ์ด๋(saccade)์ ์๋ฌผํ์ ๋ฅ๋ ์๊ฐ์ ํ์ ์์์ด๋ค.
Approach : ์ธ๊ฐ์ ์๊ตฌ ์ด๋ ๋ฒ์์ ์๋์ ๋ง์ถ 9๊ฐ ์์ ๋์ ๊ธฐ๊ณ์ ์ค๊ณ์ homography ๊ธฐ๋ฐ์ saccade ์ ์ด ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ์ฌ ์นด๋ฉ๋ผ ๋ฐฉํฅ๊ณผ ๋ชจํฐ ๊ฐ ๊ฐ์ ์ง์ ์ ๊ด๊ณ๋ฅผ ์๋ฆฝํ๋ค.
Achievement
Fig. 1.
์์ ํ ์์ ๋ ๊ตฌํ : ๊ฐ ์นด๋ฉ๋ผ๋ง๋ค pan, tilt, roll์ 3๊ฐ ์์ ๋์ neck์ 3๊ฐ์ ์์ ๋(pan, side-bending, flexion/extension)๋ฅผ ์ถ๊ฐ๋ก 4๊ฐ์ ๊ดํ์ ์์ ๋๋ฅผ ์ ๊ณตํ์ฌ ์ด 13๊ฐ ์์ ๋ ํ๋ณด
์ธ๊ฐ ์์ค์ ์ฑ๋ฅ : saccade ํผํฌ ์๋๊ฐ ์ธ๊ฐ ์ฑ๋ฅ์ 85% ์ด์์ ๋ฌ์ฑํ๋ฉฐ ์ ํ๋๋ ์ธ๊ฐ๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์์ค ๋ฌ์ฑ
์ปดํฉํธ ์ค๊ณ : ํค๋ ํฌ๊ธฐ 22cmร18cmร12cm(๋ชฉ ์ ์ธ), ์ ์ฒด ํฌ๊ธฐ 22cmร22cmร26cm์ผ๋ก ๋ชจ๋ฐ์ผ ํ๋ซํผ ํ์ฌ์ ์ ํฉ
์ธ๊ฐ๊ณผ ์ ์ฌํ ๊ธฐ์ค์ : 115mm์ inter-camera baseline์ผ๋ก ์ธ๊ฐ(45-80mm)๊ณผ ์ ์ฌํ ์์ค์ ์คํ
๋ ์ค ๊ธฐํํ ๊ตฌํ
์๋ก์ด saccade ์ ์ด ๋ฐฉ๋ฒ : ๊ด๋ฒ์ํ ํ์ต์ด๋ ๋์ /์ด๋ํ ๋ชจ๋ธ๋ง ์์ด homography๋ฅผ ์ด์ฉํ ํจ์จ์ ์ธ saccade ์คํ ๋ฐฉ๋ฒ ์ ์
How
9๊ฐ์ ๊ธฐ๊ณ์ ์์ ๋: neck์ 3DOF(pan, side-bending, flexion/extension), ๊ฐ ์นด๋ฉ๋ผ์ 3DOF(pan, tilt, roll)๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ๊ตฌํ
4๊ฐ์ ๊ดํ์ ์์ ๋: ๊ฐ ์นด๋ฉ๋ผ ๋ง๋ค ์ด์ ๊ฑฐ๋ฆฌ, ์ด์ ์์น, ์กฐ๋ฆฌ๊ฐ, ๋ ์ฆ ์ ํ์ผ๋ก ๊ตฌ์ฑ
Homography ๊ธฐ๋ฐ saccade ์ ์ด: ์นด๋ฉ๋ผ ๋ฐฉํฅ ๋ณํ๋ฅผ ๋ชจํฐ ๊ฐ์ผ๋ก ์ง์ ๋งคํํ์ฌ ๋ณต์กํ ๋์ญํ ๋ชจ๋ธ๋ง ํํผ
vergence, version, cyclotorsion ์ด๋ ๋ฒ์ ํฌํจ: ์๋ ด ์คํ
๋ ์ค ์๊ฐ์ ํ์ํ ๋ชจ๋ ์๊ตฌ ์ด๋ ๊ตฌํ
์จ๋ผ์ธ ํ์ต ๋์ calibration ๊ธฐ๋ฐ ์ ๊ทผ: ์ฌ์ ํ์ต ๋ฐ์ดํฐ ์์ง์ ๋ถ๋ด์ ์ ๊ฑฐํ ํจ์จ์ ์ธ calibration ๋ฐฉ์ ์ ์ฉ
Originality
์ต์ด ๋ฌ์ฑ : ์ธ๊ฐ ์์ค์ ๊ธฐ์ค์ ๊ณผ ์์ ๋(๊ฐ ๋ 3DOF, ๋ชฉ 3DOF)๋ฅผ ๋ชจ๋ ๊ฐ์ถ ๋์์ 4๊ฐ์ ๊ดํ์ ์์ ๋๋ฅผ ํฌํจํ๊ณ saccade ์ฑ๋ฅ์ ์ ๋ํํ ์ต์ด ๋ก๋ด ํค๋
Homography ๊ธฐ๋ฐ ์ฌ์นด๋ ์ ์ด : COG์ ์จ๋ผ์ธ ํ์ต ๋ฐฉ์(90๋ถ calibration)์ ๊ฐ์ ํ์ฌ ์ฌ์ ์ ์๋ homography๋ฅผ ์ด์ฉํ ์ ์ํ๊ณ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ ์ ์
์ฒด๊ณ์ ๋น๊ต : ๊ธฐ์กด 24๊ฐ ๋ก๋ด ํค๋์์ ์์ธ ๋น๊ตํ(Table I)๋ฅผ ํตํด DIJIT์ ์์น ๋ช
ํํ ์ ์
Open-source ๊ณต๊ฐ : 3D ๋ชจ๋ธ, ๋ถํ ๋ชฉ๋ก, ์ํํธ์จ์ด ์ฝ๋๋ฅผ MIT ๋ผ์ด์ผ์ค๋ก ์์ ๊ณต๊ฐ
Limitation & Further Study
Primary saccade ์ค์ฌ : ์ธ๊ฐ์ ๋ค๋จ๊ณ saccade ์ ๋ต ์ค corrective saccade๋ ๋ถ๋ถ์ ์ผ๋ก๋ง ๋ค๋ฃจ์ด์ง
์ ํ๋ 85% ์์ค : ํผํฌ ์๋๊ฐ ์ธ๊ฐ์ 85% ์์ค์ด๋ฏ๋ก ๊ณ ์ ์ถ์ ์์
์์์ ์ฑ๋ฅ ์ ์ฝ ๊ฐ๋ฅ์ฑ
๊ดํ ์์ฐจ ๋ฏธ๋
ผ์ : 4๊ฐ์ ๊ดํ์ ์์ ๋๊ฐ ์ ์๋์์ผ๋ ์ด์ ๊ฑฐ๋ฆฌ, ์กฐ๋ฆฌ๊ฐ ๋ฑ์ ์ํธ์์ฉ๊ณผ ๊ดํ ์์ฐจ ํน์ฑ ๋ถ์ ๋ถ์ฌ
์ค์ ๋ฅ๋ ์๊ฐ ์์
ํ๊ฐ ๋ฏธํก : ๋
ผ๋ฌธ์ saccade ์ด๋ ์ฑ๋ฅ ํ๊ฐ์ ์ง์คํ๋ฉฐ SLAM, ๊ฐ์ฒด ์ธ์ ๋ฑ ์ค์ ์๊ฐ ์์
์์์ ์ด์ ๊ฒ์ฆ ๋ถ์กฑ
ํ์ ์ฐ๊ตฌ : ๋ฅ๋ ์๊ฐ ์ฐ๊ตฌ์ human-machine vision ๋น๊ต ์ฐ๊ตฌ๊ฐ ์งํ ์ค์ด๋ฉฐ, cyclotorsion, vergence ๋ฑ ์ถ๊ฐ ์์ ๋์ ์ ์ฉ์ฑ ๊ฒ์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : DIJIT์ ์ธ๊ฐ ์๊ฐ์ ํต์ฌ ํน์ฑ์ ์ข
ํฉ์ ์ผ๋ก ๊ตฌํํ ์ต์ด์ ๋ก๋ด ํค๋๋ก, ์์ฒด๋ชจ๋ฐฉ ์ค๊ณ์ ์ค์ saccade ์ฑ๋ฅ ํ๊ฐ๋ฅผ ํตํด ๋ฅ๋ ์๊ฐ ์ฐ๊ตฌ์ ์๋ก์ด ํ๋ซํผ์ ์ ๊ณตํ๋ค. ์์ ๊ณต๊ฐ๋ ์ค๊ณ์ ์ฒด๊ณ์ ์ธ ๋น๊ต ๋ถ์์ ํ์ ๋ก๋ด ์๊ฐ ์ฐ๊ตฌ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com