Noticias

Meta lanza SAM Audio para revolucionar la edición de sonido con IA

Llega SAM Audio, la nueva IA de Meta capaz de aislar cualquier sonido mediante texto o clics visuales. Descubre cómo esta herramienta promete revolucionar la edición de audio y vídeo

Cristian Do Carmo Rodríguez

16 de dic. de 2025

3 min de lectura

Meta, Nuevas tecnologías, Inteligencia Artificial, Avanzado

La tecnología de segmentación ha dado un salto de gigante. Si hace unos años nos sorprendíamos con la capacidad de la inteligencia artificial para recortar objetos en fotos de forma mágica, ahora el equipo de Segment Anything ha decidido ir un paso más allá. Hoy hablamos de SAM Audio, el primer modelo unificado capaz de "dibujar" y separar sonidos específicos dentro de una grabación compleja.

Se acabó pelearse con ecualizadores imposibles para quitar el ladrido de un perro o el ruido del tráfico. Lo que antes requería horas de un técnico de sonido experto, ahora parece que estará a un par de clics de distancia.

¿Qué es exactamente SAM Audio?

Básicamente, es una herramienta de IA diseñada para aislar sonidos individuales a partir de una mezcla de audio. Hasta ahora, el mercado estaba lleno de utilidades muy específicas: unas servían para separar la voz de la música y otras para limpiar el ruido de fondo, pero funcionaban de forma aislada.

black and green audio mixer — Photo by James Kovin / Unsplash

SAM Audio rompe con esto al presentarse como un modelo unificado. Es capaz de entender qué quieres separar basándose en diferentes tipos de "órdenes" o estímulos, lo que lo hace extremadamente versátil tanto para un creador de contenido que graba en su casa como para un profesional del cine.

Cómo funciona: tres formas de pedirle lo que quieres

Lo más interesante de esta tecnología no es solo que separe el audio, sino cómo interactuamos con ella. El sistema permite tres métodos de control que se pueden combinar entre sí:

Mediante texto: Tan sencillo como escribir "ladrido de perro" o "voz de cantante". La IA identifica ese patrón sonoro y lo extrae del resto de la mezcla.
Selección visual: Esta es quizá la función más sorprendente. Si tienes un vídeo, puedes pinchar directamente sobre la persona u objeto que está emitiendo el sonido para que la IA se centre exclusivamente en su audio. Por ejemplo, en una entrevista con mucho ruido ambiente, podrías seleccionar al entrevistado para limpiar su voz.
Segmentos de tiempo (Span prompting): Una novedad en el sector que permite marcar momentos específicos en una línea de tiempo donde ocurre el sonido que nos interesa para que el modelo aprenda y lo aísle de forma más precisa.

selective focus photo of DJ mixer — Photo by Alexey Ruban / Unsplash

Por qué es un cambio importante para el sector

Lo cierto es que la capacidad de limpiar audio de forma intuitiva soluciona problemas reales en múltiples campos. No se trata solo de hacer magia, sino de ahorrar tiempo y costes en:

Podcasting y YouTube: Eliminar ruidos molestos de grabaciones domésticas sin necesidad de ser un experto en postproducción.
Cine y televisión: Facilitar la limpieza de diálogos grabados en exteriores ruidosos.
Accesibilidad: Podría ayudar a desarrollar mejores sistemas de audición asistida, centrando el foco en la voz de quien habla.
Investigación científica: Identificar y separar sonidos de animales en grabaciones de campo complejas.

Disponibilidad: Pruébalo tú mismo

Lo mejor de este anuncio es que no se queda en una simple promesa de laboratorio. El modelo ya está disponible para descarga y se puede probar directamente en el Segment Anything Playground. Esta plataforma permite subir tus propios archivos de audio y vídeo para testear hasta dónde llega la precisión de SAM Audio con tus propios proyectos.

¿Estamos ante el fin de las grabaciones estropeadas por un ruído inoportuno? Es pronto para decirlo, pero desde luego, las herramientas de edición acaban de volverse mucho más inteligentes.