์ ์: Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik | ๋ ์ง: 2023-03-16 | URL: https://arxiv.org/abs/2303.09553 📄 PDF
Figure 1: Language Embedded Radiance Fields (LERF). LERF grounds CLIP representations in a dense, multi-scale 3D ๏ฌeld. A
LERF๋ CLIP ์๋ฒ ๋ฉ์ NeRF์ ์ ํฉํ์ฌ ์์ฐ์ด๋ก 3D ์ฅ๋ฉด์ ์ฟผ๋ฆฌํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ค์ค ์ค์ผ์ผ ์ธ์ด ํ๋๋ฅผ ํ์ตํจ์ผ๋ก์จ ์๊ฐ์ ์์ฑ, ์๋ฏธ๋ก , ์ถ์์ ๊ฐ๋ , ์ฅ๊ธฐ ๊ผฌ๋ฆฌ ๊ฐ์ฒด ๋ฑ ๋ค์ํ ํํ์ ์์ฐ์ด ์ง์์ ์ค์๊ฐ์ผ๋ก ์๋ตํ๋ค.
Figure 3: Results with LERF for 5 in-the-wild scenes. Each image shows a visual rendering of the LERF (Sec. 3), along wi
Figure 2: LERF Optimization: Left: LERF represents a ๏ฌeld of 3D volumes, parameterized by position x, y, z and scale s (
์ดํ: LERF๋ NeRF์ CLIP์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ 3D ์ฅ๋ฉด์ ๋ฐ์ง ์์ฐ์ด ์ฟผ๋ฆฌ๋ฅผ ์คํํ ์ฐ์ํ ๋ ผ๋ฌธ์ด๋ค. ๋ค์ค ์ค์ผ์ผ ์ธ์ด ํ๋, ๋ง์คํฌ ๋น์์กด ์ค๊ณ, ์ค์๊ฐ ์ฑ๋ฅ์ ์ค์ฉ์ ๊ฐ์น๊ฐ ํฌ๋ฉฐ, ๋ก๋ด๊ณตํ ๋ฐ 3D UI ๋ถ์ผ์์ ์ฆ๊ฐ์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.