DIJIT: A Robotic Head for an Active Observer
๐ง Audio Overview ์์ฑ
์ ์ : Mostafa Kamali Tabrizi, Mingshi Chi, Bir Bikram Dey, Yu Qing Yuan, Markus D. Solbach, Yiqian Liu, Michael Jenkin, John K. Tsotsos | ๋ ์ง : 2025-12-08 | URL : https://arxiv.org/abs/2512.07998 📄 PDF
Essence
Fig. 1.
๋ณธ ๋
ผ๋ฌธ์ ๋ฅ๋์ ๊ด์ฐฐ์ ์ญํ ์ ์ํํ๋ ์ด๋ํ ๋ก๋ด์ ์ํด ์ค๊ณ๋ ์ด์ค ์นด๋ฉ๋ผ ๋ก๋ด ํค๋ DIJIT๋ฅผ ์ ์ํ๋ค. DIJIT๋ 9๊ฐ์ ๊ธฐ๊ณ์ ์์ ๋์ 4๊ฐ์ ๊ดํ์ ์์ ๋๋ฅผ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ, ์ธ๊ฐ์ ์๊ฐ ์ฒด๊ณ์ ์ ์ฌํ ๋ฒ์์ ์๋์ ์นด๋ฉ๋ผ ์ด๋์ด ๊ฐ๋ฅํ๋ค.
Motivation
Known : ๋ฅ๋ ์๊ฐ(active vision)์ ๋ก๋ด ์๊ฐ ์ฐ๊ตฌ์์ ์ค์ํ ํจ๋ฌ๋ค์์ด๋ฉฐ, ๋ค์ํ saccade ์ ์ด ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์ด ์๋ค. ๊ธฐ์กด ๋ก๋ด ํค๋๋ค์ ์์ ๋, ๊ธฐ์ (baseline) ๊ธธ์ด, ์ด๋ ๋ฒ์ ๋ฑ์์ ์ธ๊ฐ ์๊ฐ ์ฒด๊ณ์์ ์ ์ฌ์ฑ์ด ์ ํ์ ์ด๋ค.
Gap : ๊ธฐ์กด ๋ก๋ด ํค๋๋ค ์ค ๋๋ถ๋ถ์ด ์ธ๊ฐ์ ์๊ฐ ์ฒด๊ณ์ ๋น๊ตํ์ฌ ๊ธฐ๊ณ์ ์์ ๋๊ฐ ๋ถ์กฑํ๊ฑฐ๋ ์ธ๊ฐ ์์ค์ ๊ธฐ์ ๊ธธ์ด๋ฅผ ๊ฐ์ถ์ง ๋ชปํ๊ณ ์๋ค. ํนํ ๊ฐ ์นด๋ฉ๋ผ๊ฐ 3๊ฐ์ ๋
๋ฆฝ์ ์ธ ํ์ ์์ ๋(pan, tilt, roll)์ ํจ๊ป ๋ชฉ ๋ถ๋ถ์ 3๊ฐ์ ์ถ๊ฐ ์์ ๋๋ฅผ ๊ฐ์ถ ์์ ํ ์์คํ
์ ๋๋ฌผ๋ค.
Why : ์ธ๊ฐ์ ์๊ฐ์ด eye์ head ์ด๋์ ํตํด ์๊ฐ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ์๊ณผ ํ๋ ์ปดํจํฐ ๋น์ ๋ฐฉ๋ฒ์ ์ฐจ์ด๋ฅผ ์ดํดํ๋ ๊ฒ์ ๋ก๋ด ์๊ฐ ์์คํ
์ ์ค๊ณ์ ๊ฐ์ ์ ์ค์ํ ์์ฌ์ ์ ์ ๊ณตํ ์ ์๋ค. ๋ํ saccade์ ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ ์๊ฐ ์ด๋์ ์ ํํ๊ฒ ๊ตฌํํ๋ ๊ฒ์ ๋ฅ๋ ์๊ฐ ์ฐ๊ตฌ์ ๊ธฐ์ด์ด๋ค.
Approach : DIJIT์ ์ค๊ณ๋ ์ธ๊ฐ์ ์๊ฐ ์ฒด๊ณ๋ฅผ ์์ฒด๋ชจ๋ฐฉํ์ฌ ๊ฐ ์นด๋ฉ๋ผ๋น 3๊ฐ์ ํ์ ์์ ๋์ ๋ชฉ์ 3๊ฐ์ ์ถ๊ฐ ์์ ๋๋ฅผ ํฌํจํ๋ค. Saccade ์ ์ด๋ฅผ ์ํด ์นด๋ฉ๋ผ ๋ฐฉํฅ๊ณผ ๋ชจํฐ ๊ฐ ์ฌ์ด์ ์ง์ ์ ์ธ ๊ด๊ณ๋ฅผ homography๋ฅผ ์ด์ฉํ์ฌ ๊ฐ๋ฐํ๋ฉฐ, ์ด๋ ๊ด๋ฒ์ํ ํ๋ จ ์์ด ์ํ ๊ฐ๋ฅํ๋ค.
Achievement
Fig. 1.
DIJIT ์ค๊ณ ๋ฐ ๊ตฌํ : ์ธ๊ฐ๊ณผ ์ ์ฌํ ๊ธฐ์ ๊ธธ์ด(115mm)์ ์์ ๋(์นด๋ฉ๋ผ๋น 6DOF, ๋ชฉ 3DOF)๋ฅผ ๊ฐ์ถ ๋ก๋ด ํค๋ ๊ฐ๋ฐ. Saccade ์ฑ๋ฅ : ์ธ๊ฐ saccade ์๋์ 85% ์ด์์ ๋ฌ์ฑํ๋ฉฐ ์ธ๊ฐ ์์ค์ ์ ํ๋๋ฅผ ๋ณด์. ๊ดํ์ ์์ ๋ : ๊ฐ ์นด๋ฉ๋ผ๋น 4๊ฐ์ ๊ดํ์ ์์ ๋(์ด์ , ์กฐ๋ฆฌ๊ฐ ๋ฑ) ํฌํจ. ์คํ์์ค ๊ณต๊ฐ : 3D ๋ถํ ๋ชจ๋ธ, ๋ถํ ๋ชฉ๋ก, ์ํํธ์จ์ด ์ฝ๋๋ฅผ MIT ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐ.
How
๊ฐ ์นด๋ฉ๋ผ์ ๋ํด ๊ฐ๋ณ์ ์ธ pan, tilt, roll ์ ์ด๋ฅผ ์ํ 3๊ฐ์ ํ์ ์์ ๋ ๊ตฌํ
๋ชฉ(neck) ๋ถ๋ถ์ ์ถ๊ฐ 3๊ฐ์ ๊ธฐ๊ณ์ ์์ ๋(vergence, version, cyclotorsion ํฌํจ) ์ถ๊ฐ
Homography ๊ธฐ๋ฐ saccade ์ ์ด: ์นด๋ฉ๋ผ ๋ฐฉํฅ๊ณผ ๋ชจํฐ ๊ฐ ์ฌ์ด์ ์ง์ ์ ์ธ ๋งคํ ๊ฐ๋ฐ
ROS ์ธํฐํ์ด์ค๋ฅผ ํตํ ์ํํธ์จ์ด ํตํฉ
๊ธฐ์กด COG ํ๋ก์ ํธ์ ์จ๋ผ์ธ ํ์ต ๋ฐฉ์ ๋์ ์ฌ์ ๊ณ์ฐ๋ homography ์ฌ์ฉ์ผ๋ก ์ค์๊ฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ
Originality
์นด๋ฉ๋ผ๋น ์ ์ฒด 3DOF์ ๋ชฉ 3DOF๋ฅผ ๋ชจ๋ ๊ฐ์ถ ์ต์ด์ ์ธ๊ฐํ ๋ก๋ด ํค๋๋ก, ๊ธฐ์กด ์์คํ
๋ค(ETL-Humanoid, Robot Bionic Eyes ๋ฑ)๊ณผ ๋น๊ตํ์ฌ ๋ ์์ ํ ์์ ๋ ๊ตฌํ
Homography ๊ธฐ๋ฐ์ ๊ฐ๋จํ๊ณ ํจ์จ์ ์ธ saccade ์ ์ด ๋ฐฉ๋ฒ์ผ๋ก, ๊ด๋ฒ์ํ ์ ๊ฒฝ๋ง ํ๋ จ์ด๋ ๋ณต์กํ ๋์ญํ ๋ชจ๋ธ๋ง์ ํํผ
์ธ๊ฐ ์์ค์ ๊ธฐ์ ๊ธธ์ด(45-80mm vs. DIJIT 115mm)์ ์ด๋ ๋ฒ์๋ฅผ ๊ฐ์ถ ์ค๊ณ
Limitation & Further Study
๋
ผ๋ฌธ์์๋ saccade ์ฑ๋ฅ ํ๊ฐ์๋ง ์ง์คํ๋ฉฐ, vergence์ cyclotorsion์ ์ค์ ์ ์ฉ์ฑ์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ ๋ถ์ฌ
๊ธฐ์กด COG ํ๋ก์ ํธ์ 90๋ถ calibration ์๊ฐ ๊ฐ์ ๊ฒฐ๊ณผ๋ ์ ์๋์ง ์์
๋ชฉ์ 3๊ฐ ์์ ๋๊ฐ ์ค์ ๋ก ์๊ฐ ๊ณผ์ ์ํ์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง์ ๋ํ ์ ๋์ ๋ถ์ ๋ถ์กฑ
ํฅํ ์ฐ๊ตฌ : DIJIT๋ฅผ ์ด์ฉํ ์ธ๊ฐ๊ณผ ๋ก๋ด์ ์๊ฐ ์ ๋ต ๋น๊ต, vergence์ ์ค์ ํจ์ฉ์ฑ ๊ฒ์ฆ, ๋ ๋ณต์กํ ์๊ฐ ๊ณผ์ ์ ๋ํ ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : DIJIT๋ ์ธ๊ฐ์ ์๊ฐ ์ฒด๊ณ๋ฅผ ํฌ๊ด์ ์ผ๋ก ๋ชจ๋ฐฉํ ์ ์ค๊ณ๋ ๋ก๋ด ํค๋๋ก, active vision ์ฐ๊ตฌ์ ์ธ๊ฐ-๊ธฐ๊ณ ์๊ฐ ๋น๊ต๋ฅผ ์ํ ๊ฐ์น ์๋ ํ๋ซํผ์ ์ ๊ณตํ๋ค. ํนํ ์์ ํ ์์ ๋ ๊ตฌํ๊ณผ ์ค์ฉ์ ์ธ saccade ์ ์ด ๋ฐฉ๋ฒ์ ์ฃผ๋ชฉํ ๋งํ๋ฉฐ, ์คํ์์ค ๊ณต๊ฐ๋ก ์ธํ ์ ๊ทผ์ฑ๋ ๊ฐ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com