Avances en Modelos Multimodales 3D: PAR3D para la Comprensión de Escenas

Abstract

La comprensión de escenas 3D ha avanzado significativamente con los modelos de lenguaje multimodal tridimensional (3D-MLLMs). PAR3D introduce una nueva dimensión al permitir la representación consciente de partes en entornos tridimensionales, mejorando tareas como el cuestionamiento visual y la segmentación referencial.

Introducción

Los modelos 3D-MLLMs han revolucionado la manera en que entendemos las escenas tridimensionales, permitiendo una interacción más natural y efectiva con los entornos. Sin embargo, su enfoque centrado en objetos limita la capacidad de modelar estructuras de partes finas, cruciales para la interacción encarnada.

Desarrollo Técnico

PAR3D propone un marco unificado que permite a los modelos comprender y razonar sobre objetos y sus partes en escenas 3D. Se introduce el conjunto de datos sintéticos ScenePart, que incluye anotaciones a nivel de partes y instrucciones de lenguaje. Además, se desarrolla el Aprendizaje de Representaciones 3D Conscientes de Partes para enriquecer las representaciones visuales 3D con semántica de partes detalladas. La Generación de Consultas de Segmentación Jerárquica se propone para anclar objetivos de partes mediante consultas jerárquicas de objeto-parte.

Conclusiones

Los experimentos extensivos demuestran que PAR3D mejora sustancialmente el rendimiento en tareas de respuesta a preguntas a nivel de partes y segmentación referencial, manteniendo un alto desempeño en tareas de visión-lenguaje a nivel de objeto. Esto representa un avance significativo en la comprensión de escenas 3D y la interacción con entornos complejos.

Referencias

PAR3D: A Unified 3D-MLLM with Part-Aware Representation for Scene Understanding