H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
์ ์: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu | ๋ ์ง: 2025-05-12 | URL: https://arxiv.org/abs/2505.07819 📄 PDF
Essence
Figure 2: Overview of H3DP. H3DP integrates three hierarchical design principles across the
HยณDP๋ RGB-D ์
๋ ฅ์ depth-aware layering, ๋ค์ค ์ค์ผ์ผ visual representation, ๊ทธ๋ฆฌ๊ณ hierarchically conditioned diffusion process๋ฅผ ํตํฉํ์ฌ visuomotor policy learning์์ ์๊ฐ ์ธ์ง์ ํ๋ ์์ฑ ๊ฐ์ coupling์ ๊ฐํํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค.
Motivation
- Known: Diffusion Policy๋ฅผ ํฌํจํ ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๋ค์ด robotic manipulation์์ progress๋ฅผ ์ด๋ฃจ์์ผ๋, ์ด๋ค์ ์ฃผ๋ก ์๊ฐ ํํ๊ณผ ํ๋ ์์ฑ์ ๋
๋ฆฝ์ ์ผ๋ก ๊ฐ์ ํ๋ฉด์ ๋ ์ฌ์ด์ critical coupling์ ๊ฐ๊ณผํด์๋ค.
- Gap: ๊ธฐ์กด visuomotor policy ํ์ต ๋ฐฉ๋ฒ๋ค์ hierarchical action generation๋ง ๋ชจ๋ธ๋งํ๊ฑฐ๋, multi-scale visual representation์ ์ฑํํ๋ฉด์๋ ๋ ๊ตฌ์ฑ์์ ๊ฐ์ tight correspondence๋ฅผ ๋ช
์์ ์ผ๋ก ๊ตฌ์ถํ์ง ๋ชปํ๋ค.
- Why: ์ธ๊ฐ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์์ ์๊ฐ ํผ์ง์ ๊ณ์ธต์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ณ motor behavior๋ฅผ ์์ฑํ๋ฏ๋ก, ์ด๋ฌํ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ๋ก๋ด ์ ์ฑ
์ ๋์
ํ๋ฉด spatial reasoning๊ณผ cluttered scenarios์์์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: RGB-D ์
๋ ฅ์ depth ๊ฐ์ ๋ฐ๋ผ ์ฌ๋ฌ ๋ ์ด์ด๋ก ๋ถํดํ๊ณ , ๋ค์ค ์ค์ผ์ผ visual encoder๋ฅผ ํตํด coarse-to-fine ํน์ง์ ์ถ์ถํ ํ, diffusion process์ ๊ฐ denoising ๋จ๊ณ๋ฅผ ํด๋น ์๊ฐ ํน์ง ์ค์ผ์ผ๊ณผ ์ ๋ ฌ์ํจ๋ค.
Achievement
Figure 1: H3DP can not only achieve superior performance across 44 tasks on 5 simulation bench-
- ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ: 5๊ฐ ๋ฒค์น๋งํฌ์ 44๊ฐ ์์
์์ baseline ๋๋น ํ๊ท +27.5% ์๋ ์ฑ๋ฅ ๊ฐ์ ๋ฌ์ฑ
- ์ค์ ๋ก๋ด ์ฑ๋ฅ: cluttered ํ๊ฒฝ์ 4๊ฐ bimanual ์กฐ์ ์์
์์ Diffusion Policy ๋๋น +32.3% ์ฑ๋ฅ ํฅ์
- ๊ณ์ธต์ ์ค๊ณ์ ์ ํจ์ฑ: depth-aware layering์ด foreground-background ๋ถ๋ฆฌ๋ฅผ ๋ช
์์ ์ผ๋ก ์ํํ์ฌ occlusion๊ณผ distraction ์ต์
How
Figure 2: Overview of H3DP. H3DP integrates three hierarchical design principles across the
- Depth-Aware Layering: Linear-increasing discretization ์์(Eq. 1)์ ์ฌ์ฉํ์ฌ RGB-D ์
๋ ฅ์ depth ๊ฐ์ ๋ฐ๋ผ N๊ฐ์ ๋ ์ด์ด๋ก ๋ถํ ํ๊ณ , ์์
๊ณต๊ฐ์ ๋ ์ง์คํ๋๋ก ์ค๊ณ
- Multi-Scale Visual Representation: ๊ตฌ์ฒด์ ๋ฐฉ๋ฒ๋ก ์ ๋จ๋ฝ์ด ๋๋์ง ์์ ์์ธํ ๋ด์ฉ ๋ฏธ์ ์๋์์ผ๋, ๋ค์ํ granularity์ ํน์ง์ ์ฌ๋ฌ ์ค์ผ์ผ์์ ์ถ์ถํ๋ ๊ตฌ์กฐ
- Hierarchical Action Generation in Diffusion: Denoising ๊ณผ์ ์ ์ฌ๋ฌ ๋จ๊ณ๋ก ๋ถํ ํ์ฌ coarse visual features๋ ์ด๊ธฐ ๋จ๊ณ์์ global structure(low-frequency)๋ฅผ ํ์ฑํ๊ณ , fine-grained features๋ later steps์์ details(high-frequency)๋ฅผ ์ ์
- Semantic Alignment: Multi-scale ์๊ฐ ํน์ง๊ณผ coarse-to-fine ํ๋ ์์ฑ์ diffusion process ๋ด์์ ์ง์ ์ ๋ ฌํ์ฌ semantically grounded action ์์ฑ
Originality
- ์
๋ ฅ, representation, action generation์ ์ธ ๋จ๊ณ ๋ชจ๋์ ๊ฑธ์ณ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ๋ช
์์ ์ผ๋ก ํตํฉํ๋ ํตํฉ์ ์ค๊ณ๋ก, ๊ธฐ์กด works๊ฐ ์ฃผ๋ก action generation ๊ณ์ธตํ์๋ง ์ง์คํ๋ ์ ๊ณผ ์ฐจ๋ณํ
- Depth-aware layering์ ๋จ์ RGB-D concatenation ์ด์์ผ๋ก ๋ฐ์ ์์ผ depth ์ ๋ณด๋ฅผ ์๋์ ์ผ๋ก ํ์ฉํ foreground-background ๋ถ๋ฆฌ ๋ฉ์ปค๋์ฆ ๋์
- Diffusion model์ inherent low-to-high frequency ๋ณต์ ์์ฑ์ ๋ช
์์ ์ผ๋ก ํ์ฉํ์ฌ ๋ค์ค ์ค์ผ์ผ ์๊ฐ ํน์ง๊ณผ coarse-to-fine ํ๋ ์์ฑ์ diffusion process ๋ด์์ ์ ๋ ฌ
Limitation & Further Study
- ๋
ผ๋ฌธ ๋ณธ๋ฌธ์ด ๋ฐ์ท๋ณธ์ด๋ฏ๋ก Multi-Scale Visual Representation์ ๊ตฌ์ฒด์ ๊ตฌํ ๋ฐฉ๋ฒ์ด ๋ถ์์ ํ๊ฒ ์ ์๋์ด ์์
- Depth-aware layering์ discretization ์ ๋ต์ด ๋ชจ๋ ํ๊ฒฝ ๋๋ depth distribution์ ์ต์ ์ธ์ง ๊ฒ์ฆ ํ์ (Appendix์ ์ผ๋ถ ๋น๊ต๊ฐ ์์ผ๋ ๋ณธ๋ฌธ ๋ฏธํฌํจ)
- ์ค์ ๋ก๋ด ์คํ์ด 4๊ฐ ์์
์ผ๋ก ์ ํ์ ์ด๋ฏ๋ก, ๋ค์ํ manipulation ์๋๋ฆฌ์ค์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ ํ์
- ๊ณ์ธตํ๋ diffusion process์ computational overhead์ inference speed์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: ๋ค๋ฅธ modality(e.g., tactile feedback, language instructions)์์ ํตํฉ ๊ฐ๋ฅ์ฑ ํ์, real-to-sim transfer learning์์์ effectiveness ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 3/5 Overall: 4/5
์ดํ: HยณDP๋ visuomotor policy learning์ critical coupling ๋ฌธ์ ๋ฅผ ๋ช
ํํ๊ฒ ์๋ณํ๊ณ human visual cortex์ ๊ณ์ธต์ ์ฒ๋ฆฌ์์ ์๊ฐ์ ๋ฐ์ ์
๋ ฅ๋ถํฐ ํ๋ ์์ฑ๊น์ง ์ผ๊ด๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ๊ตฌ์ถํ ํ์ ์ ์ ๊ทผ๋ฒ์ด๋ค. ๊ด๋ฒ์ํ ์คํ์ ํตํด ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ์
์ฆํ์ผ๋, ๋ณธ๋ฌธ์ด ๋ฐ์ท๋ณธ์ผ๋ก ์ผ๋ถ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ์ด ๋ถ๋ช
ํํ๊ณ ์ค์ ๋ก๋ด ์คํ์ ๊ท๋ชจ๊ฐ ๋ค์ ์ ํ์ ์ด๋ผ๋ ์ ์ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์