Meta ha presentado las nuevas incorporaciones a su colección Segment Anything: SAM 3 y SAM 3D. Estas herramientas prometen revolucionar la forma en que interactuamos con el contenido visual, desde la edición de vídeos hasta la reconstrucción 3D de objetos y personas.
¿Qué son SAM 3 y SAM 3D?
- SAM 3: Permite detectar y rastrear objetos en imágenes y vídeos utilizando indicaciones de texto y visuales. Imagina poder seleccionar un objeto en un vídeo simplemente escribiendo su descripción.
- SAM 3D: Facilita la reconstrucción 3D de objetos y personas a partir de una sola imagen. Abre un mundo de posibilidades en el modelado 3D asistido por IA.
Ambos modelos ya están disponibles para experimentar en la nueva plataforma Segment Anything Playground.
SAM 3: El poder del lenguaje en la edición visual
La principal novedad de SAM 3 reside en su capacidad para segmentar objetos utilizando descripciones textuales detalladas. A diferencia de los modelos anteriores, que se limitaban a etiquetas predefinidas, SAM 3 comprende una gama mucho más amplia de indicaciones textuales.
¿Quieres segmentar un coche rojo en un vídeo? Simplemente escribe "coche rojo" y SAM 3 se encargará del resto. Incluso puede trabajar con modelos de lenguaje más grandes para comprender indicaciones más complejas, como "personas sentadas, pero que no lleven una gorra de béisbol roja".
Meta planea integrar SAM 3 en sus herramientas de creación de contenido, como Edits (su app de edición de vídeo) y Vibes (en la app Meta AI). Esto permitirá a los creadores aplicar efectos a objetos o personas específicas en sus vídeos de forma mucho más sencilla.
SAM 3D: Convierte imágenes en modelos 3D
SAM 3D consta de dos modelos de código abierto:
- SAM 3D Objects: Reconstruye objetos y escenas.
- SAM 3D Body: Estima la forma y el cuerpo humano.
Ambos modelos ofrecen un rendimiento excelente y superan a los métodos existentes en la reconstrucción 3D. Meta también ha colaborado con artistas para crear SAM 3D Artist Objects, un conjunto de datos de evaluación que representa una nueva forma de medir el progreso en la investigación 3D.
Las aplicaciones de SAM 3D son amplias y variadas. Desde la investigación en realidad aumentada y virtual hasta la creación de assets para videojuegos, pasando por aplicaciones en robótica, ciencia y medicina deportiva.
Incluso se está utilizando para la nueva función "Ver en la habitación" de Facebook Marketplace, que permite a los usuarios visualizar cómo quedarían muebles y objetos de decoración en su hogar antes de comprarlos.
Segment Anything Playground
Meta ha puesto a disposición de todo el mundo sus nuevos modelos a través de la plataforma Segment Anything Playground. No se necesita experiencia técnica para empezar a experimentar.
Puedes subir tus propias imágenes o vídeos y utilizar SAM 3 para segmentar objetos mediante indicaciones de texto, o usar SAM 3D para visualizar escenas en 3D. La plataforma también ofrece plantillas predefinidas para tareas como pixelar caras o crear efectos especiales en vídeos.
Recursos para desarrolladores e investigadores
Meta está compartiendo los pesos del modelo SAM 3, un nuevo conjunto de datos de evaluación para la segmentación de vocabulario abierto y un documento de investigación que detalla cómo se construyó SAM 3. También se ha asociado con la plataforma de anotación Roboflow para que los usuarios puedan anotar datos y ajustar SAM 3 para sus necesidades particulares.
Para SAM 3D, se están compartiendo puntos de control del modelo y código de inferencia, y se está introduciendo un nuevo punto de referencia para la reconstrucción 3D. Este conjunto de datos presenta una variedad diversa de imágenes y objetos, ofreciendo un nivel de realismo y desafío que supera los puntos de referencia 3D existentes.
En resumen, SAM 3 y SAM 3D representan un gran avance en el campo de la IA visual y abren un mundo de posibilidades para la creación y edición de contenido. ¡Prepárate para ver cómo estas tecnologías transforman la forma en que interactuamos con las imágenes y los vídeos!