์ ์: Zhenyu Jiang, Yuqi Xie, Jinhan Li, Ye Yuan, Yifeng Zhu, Yuke Zhu | ๋ ์ง: 2024-10-16 | URL: https://arxiv.org/abs/2410.12773 📄 PDF
Fig. 2 depicts our proposed method, HARMON. Firstly, we generate human motion based on the
์ธ๊ฐ ๋ชจ์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ฌ์ ํ์ต๋ ํ๋ผ์ด์ด๋ฅผ ํ์ฉํ๊ณ Vision Language Model์ ํตํด ์๊ฐ๋ฝ๊ณผ ๋จธ๋ฆฌ ๋ชจ์ ์ ์์ฑยทํธ์งํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์์ฐ์ค๋ฌ์ด ์ ์ ๋ชจ์ ์ ์ธ์ด ์ค๋ช ์ผ๋ก๋ถํฐ ์์ฑํ๋ค.
Figure 4: Quantitative results of human study. A higher normalized score indicates a better alignment
Fig. 2 depicts our proposed method, HARMON. Firstly, we generate human motion based on the
์ดํ: ์ด ๋ ผ๋ฌธ์ ์ธ๊ฐ ๋ชจ์ ํ๋ผ์ด์ด์ VLM์ ์์์ ์ถ๋ก ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ธ์ด๋ก๋ถํฐ ์์ฐ์ค๋ฌ์ด ํด๋จธ๋ ธ์ด๋ ๋ชจ์ ์ ์์ฑํ๋ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ์ค์ ๋ก๋ด ์คํ๊ณผ ๋์ ์ฌ์ฉ์ ํ๊ฐ๋ก ๊ทธ ์ ํจ์ฑ์ ์ ์ฆํ๋ค.