LERF: Language Embedded Radiance Fields

Essence

Figure 1: Language Embedded Radiance Fields (LERF). LERF grounds CLIP representations in a dense, multi-scale 3D ﬁeld. A

LERF는 CLIP 임베딩을 NeRF에 정합하여 자연어로 3D 장면을 쿼리할 수 있도록 하는 방법이다. 다중 스케일 언어 필드를 학습함으로써 시각적 속성, 의미론, 추상적 개념, 장기 꼬리 객체 등 다양한 형태의 자연어 질의에 실시간으로 응답한다.

Known: NeRF는 사실적인 3D 장면 재구성에 효과적이지만 의미 정보가 부족하며, CLIP은 강력한 시각-언어 모델이지만 2D에만 적용된다. 기존 2D 오픈 어휘 감지 방법은 마스크 제안이나 세분화 데이터셋을 필요로 한다.
Gap: 3D 장면에서 마스크나 지역 제안 없이 직접적으로 CLIP 임베딩을 밀집하게 정합하는 방법이 부재했으며, 다중 스케일 계층적 언어 쿼리를 지원하는 3D 언어 필드가 없었다.
Why: 자연어는 3D 장면과 상호작용하는 직관적인 인터페이스이며, 이는 로봇공학, 시각-언어 모델 이해, 3D 장면 상호작용 등 다양한 응용 분야에서 실용적 가치가 크다.
Approach: NeRF 최적화 과정에서 위치와 물리적 스케일을 입력으로 하는 언어 필드를 함께 학습하며, 다중 스케일 특성 피라미드를 통해 다양한 스케일의 CLIP 임베딩을 감독한다. DINO 특성으로 정규화하여 최적화된 언어 필드의 매끄러움을 보장한다.

Figure 3: Results with LERF for 5 in-the-wild scenes. Each image shows a visual rendering of the LERF (Sec. 3), along wi

제로샷 다중 스케일 쿼리: 마스크나 지역 제안 없이 픽셀 정렬 방식으로 시각적 속성, 추상 개념, 장기 꼬리 객체, 텍스트 등 광범위한 자연어 쿼리를 지원
3D 일관성: 다중 뷰의 CLIP 임베딩을 평균화하여 2D CLIP보다 더 국소화되고 3D 일관성 있는 관련성 맵 생성
효율적 최적화: 기본 NeRF 구현을 크게 지연시키지 않으면서 훈련 가능하며, 최적화 후 실시간 쿼리 응답 제공
넓은 적용성: 로봇공학, 시각-언어 모델 분석, 3D 장면 상호작용 등 다양한 응용 분야에 활용 가능

Figure 2: LERF Optimization: Left: LERF represents a ﬁeld of 3D volumes, parameterized by position x, y, z and scale s (

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: LERF는 NeRF와 CLIP을 창의적으로 결합하여 3D 장면의 밀집 자연어 쿼리를 실현한 우수한 논문이다. 다중 스케일 언어 필드, 마스크 비의존 설계, 실시간 성능은 실용적 가치가 크며, 로봇공학 및 3D UI 분야에서 즉각적인 영향을 미칠 수 있다.