Thinking in 360ยฐ: Humanoid Visual Search in the Wild
์ ์: Heyang Yu, Yinan Han, Xiangyu Zhang, Baiqiao Yin, Bowen Chang, Xiangyu Han, Xinhao Liu, Jing Zhang, Marco Pavone, Chen Feng, Saining Xie, Yiming Li | ๋ ์ง: 2025-11-25 | URL: https://arxiv.org/abs/2511.20351 📄 PDF
Essence
Figure 1. We pose a fundamental question: can an AI agent actively search for objects or paths in a 3D world like a huma
์ธ๊ฐ์ฒ๋ผ 360ยฐ ํ๋
ธ๋ผ๋ง ํ๊ฒฝ์์ ๋จธ๋ฆฌ ํ์ ์ ํตํด ๋ฅ๋์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ํ์ํ๊ฑฐ๋ ๊ฒฝ๋ก๋ฅผ ์ฐพ๋ embodied ์๊ฐ ํ์ ์์ด์ ํธ๋ฅผ ์ ์ํ๊ณ , ์ค๋ด ์ฅ๋ฉด์ ๋์ด ์งํ์ฒ ์ญยท์ผํ๋ชฐยท๊ฑฐ๋ฆฌ ๋ฑ ๋ณต์กํ ํ์ค ํ๊ฒฝ์ ๋์์ผ๋ก ํ H*Bench ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๋ค.
Motivation
- Known: ์ต๊ทผ MLLM ๊ธฐ๋ฐ์ ์๊ฐ ํ์ ๋ฐฉ๋ฒ๋ค์ด ์ ์ 2D ์ด๋ฏธ์ง ๋ด ๋ฌผ์ฒด ํ์์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ผ๋ฉฐ, RL ๊ธฐ๋ฐ post-training์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด ์๊ฐ ํ์ ์ฐ๊ตฌ๋ ์ ์ ์ด๋ฏธ์ง์ ์ ํ๋์ด ์๊ณ ๋ฌผ๋ฆฌ์ embodiment๊ณผ 3D ์ธ๊ณ์์ ์ํธ์์ฉ์ ๊ณ ๋ คํ์ง ์์ผ๋ฉฐ, ํ์ค์ ํ๋์จ์ด ์ ์ฝ์ ์ฐํํ๋ฉด์๋ ์ธ๊ฐ ์์ค์ ๋ฅ๋์ ๊ณต๊ฐ ์ถ๋ก ์ ์ํํ ์ ์๋ ์ค์ผ์ผ๋ฌ๋ธํ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: humanoid robots, assistive technology, AR ๋ฑ ํ์ค ์์ฉ์์ ๋ณต์กํ ํ๊ฒฝ์์ ๋ฅ๋์ ์ผ๋ก ์ ๋ณด๋ฅผ ํ์ํ ์ ์๋ ์์ด์ ํธ์ ํ์์ฑ์ด ๋์ผ๋ฉฐ, ์ด๋ ์กฐ์๊ณผ ๋ค๋น๊ฒ์ด์
๊ฐ์ embodied task์ ์ ํ ์กฐ๊ฑด์ด๋ค.
- Approach: 360ยฐ ํ๋
ธ๋ผ๋ง๋ฅผ ๊ฒฝ๋ ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ฉํ์ฌ ๋จธ๋ฆฌ ํ์ ์ ๋ฐ๋ฅธ ํ์ ๋ฃจํ perception-action ์ฌ์ดํด์ ๊ตฌํํ๊ณ , humanoid object search (HOS)์ humanoid path search (HPS) ๋ ๊ฐ์ง embodied task๋ฅผ ์ ์ํ ๋ค, SFT์ RL์ ํตํด Qwen2.5-VL์ post-trainingํ๋ค.
Achievement
Figure 4. Comparison of In-task (train and test on the same task family) and Cross-task (train on one task family and te
- H*Bench ๋ฒค์น๋งํฌ ๊ตฌ์ถ: ์งํ์ฒ ์ญ, ์ผํ๋ชฐ, ๊ฑฐ๋ฆฌ, ๊ณต๊ณต๊ธฐ๊ด ๋ฑ ์๊ฐ์ ์ผ๋ก ๋ณต์กํ in-the-wild ์ฅ๋ฉด์ ํฌํจํ๋ ์ต์ด์ humanoid visual search ๋ฒค์น๋งํฌ ์ ์
- ์ฑ๋ฅ ํฅ์: Post-training์ ํตํด Qwen2.5-VL์ object search ์ฑ๊ณต๋ฅ ์ 14.83%์์ 47.38%๋ก, path search๋ฅผ 6.44%์์ 24.94%๋ก 3๋ฐฐ ์ด์ ํฅ์
- ์ฑ๋ฅ ํ๊ณ ๊ท๋ช
: ์ต์ proprietary ๋ชจ๋ธ๋ ์ฝ 30% ์์ค์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ฌ ํ MLLM์ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ์ ๋ํ
- Scalable ํ๋ ์์ํฌ: ์ค์ 3D ์๋ฎฌ๋ ์ดํฐ๋ ๋ก๋ด ํ๋์จ์ด ์์ด 360ยฐ ํ๋
ธ๋ผ๋ง๋ง์ผ๋ก embodied reasoning์ ์ฐ๊ตฌํ ์ ์๋ ํ์ฅ ๊ฐ๋ฅํ ํ๋ซํผ ์ ์
How
Figure 2. Pipeline Illustration. Stage 1 (SFT) provides the foundational ability to map perspective images to plausible
- 360ยฐ ํ๋
ธ๋ผ๋ง ์ด๋ฏธ์ง์์ ํ์ฌ head orientation์ ํด๋นํ๋ ์ข์ ์์ผ๊ฐ ๋ทฐ๋ฅผ ์ถ์ถํ์ฌ MLLM์ ์
๋ ฅ์ผ๋ก ์ ๊ณต
- HOS task: ๋ชฉํ ๋ฌผ์ฒด์ ์์น๋ฅผ ํ์
ํ๊ณ ์ต์ ์ head orientation์ ์์ธกํ๋๋ก ํ์ต
- HPS task: ๋ชฉ์ ์ง๋ก ํฅํ๋ ๋ค๋น๊ฒ์ด์
๊ฐ๋ฅ ๊ฒฝ๋ก๋ฅผ ์๋ณํ๊ณ ground plane ์์ ๋ฐฉํฅ ๋ฒกํฐ ์์ฑ
- Supervised fine-tuning (SFT)์ผ๋ก ๊ธฐ๋ณธ ๋ฅ๋ ฅ์ ํ์ตํ ํ, reinforcement learning (RL)์ ์ ์ฉํ์ฌ embodied planning ๋ฅ๋ ฅ ๊ฐํ
- In-task ๋ฐ Cross-task generalization ํ๊ฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ฒ์ฉ์ฑ ๋ฐ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ ๊ฒ์ฆ
Originality
- Humanoid visual search ๊ฐ๋
: ๊ธฐ์กด์ ์ ์ 2D ์ด๋ฏธ์ง ํ์์์ ๋ฒ์ด๋ ๋ฅ๋์ head rotation์ ํตํ 360ยฐ embodied ์๊ฐ ํ์์ผ๋ก ํ์ฅํ ์ฒซ ์๋
- Hardware-free embodied reasoning: ์ค์ ๋ก๋ด์ด๋ 3D ์๋ฎฌ๋ ์ดํฐ ์์ด 360ยฐ ํ๋
ธ๋ผ๋ง๋ฅผ ํ์ฉํ ๊ฒฝ๋ ํ๋ซํผ ์ ์
- In-the-wild ๋ฒค์น๋งํฌ: ๊ธฐ์กด ๊ฐ๊ตฌ ์ฅ๋ฉด ์ค์ฌ ๋ฒค์น๋งํฌ๋ฅผ ๋ฒ์ด๋ ์งํ์ฒ ์ญ, ์ผํ๋ชฐ, ๊ฑฐ๋ฆฌ ๋ฑ ๊ตฌ์กฐ์ ยท์๋ฏธ์ ยท์ฒด์ ๋ณต์ก์ฑ์ด ๋์ ํ์ค ํ๊ฒฝ์ ์ด์
- Dual embodied task: HOS์ HPS ๋ ๊ฐ์ง ํต์ฌ embodied task๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ๊ณ ํ๊ฐ
Limitation & Further Study
- Path search์ ๋ฎ์ ์ฑ๋ฅ: HPS์ ์ต๊ณ ์ฑ๊ณต๋ฅ ์ด ์ฝ 25%์ ๋ถ๊ณผํ์ฌ ๋ณต์กํ ๊ณต๊ฐ ์์(spatial commonsense) ์๊ตฌ ๋ฅ๋ ฅ์ ํ๊ณ ๋
ธ์ถ
- ๋จ์ผ ํ๋
ธ๋ผ๋ง ์ ์ฝ: 360ยฐ ํ๋
ธ๋ผ๋ง๋ง์ผ๋ก๋ ํํ ๊ฐ๋ฅํ embodied task์ ๋ฒ์๊ฐ ์ ํ์ ์ด๋ฉฐ, ์ฅ๊ฑฐ๋ฆฌ ๋ค๋น๊ฒ์ด์
์ด๋ ๋ฉํฐ ํ ํ์์ ๋ค๋ฃจ์ง ๋ชปํจ
- MLLM ๊ธฐ๋ฐ ์ ๊ทผ์ ๊ทผ๋ณธ์ ํ๊ณ: ๋ชจ๋ธ์ด vision-action์ ์ ํํ๊ฒ ๋งค์นญํ์ง ๋ชปํ๊ฑฐ๋ ๋ถ์ ์ ํ ๊ฒฝ๋ก ๋ฐฉํฅ์ ์ ์ํ๋ failure case๊ฐ ์กด์ฌ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํ ์๋ก์ด post-training ๊ธฐ๋ฒ, (2) multi-step reasoning์ ์ง์ํ๋ ์์ด์ ํธ ์ํคํ
์ฒ, (3) ์ค์ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ transfer learning ์ฐ๊ตฌ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: humanoid visual search๋ผ๋ ์๋ก์ด embodied AI ๋ฌธ์ ๋ฅผ ์ ์ํ๊ณ ํ์ค์ ์ด๊ณ ๋์ ์ ์ธ H*Bench ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํจ์ผ๋ก์จ MLLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ๊ธฐํ์ ๋ง๋ จํ์ผ๋ฉฐ, SFT์ RL์ ํตํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๋ ๋จ์ ํฐ ๋์ ๊ณผ์ ๋ ๋ช
ํํ ๊ท๋ช
ํ ๋์ ๊ฐ์น์ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์