Gemini 2.5: Google lleva el audio nativo a la IA para desarrolladores

Google DeepMind integra audio nativo en Gemini 2.5, abriendo nuevas posibilidades para desarrolladores. Descubre cómo la IA ahora genera audio identificable y seguro.

Ana Blanco Vigo

5 de jun. de 2025

2 min de lectura

Google sigue innovando en el campo de la inteligencia artificial, y la última novedad es la integración de audio nativo en los modelos Gemini 2.5. Esto significa que los desarrolladores tendrán a su disposición nuevas herramientas para crear aplicaciones más interactivas y enriquecedoras. Pero, ¿qué implica exactamente esta mejora y por qué es importante?

Nuevas capacidades para la creación de aplicaciones

La principal ventaja de esta actualización reside en las nuevas capacidades que ofrece a los desarrolladores. Ahora podrán generar salidas de audio directamente desde la API de Gemini, lo que abre un abanico de posibilidades para crear aplicaciones que interactúen con los usuarios de una manera más natural e intuitiva.

Diálogos interactivos: Los desarrolladores pueden experimentar con diálogos de audio nativos usando Gemini 2.5 Flash en Google AI Studio.
Generación de voz controlable (TTS): Disponible en vista previa para Gemini 2.5 Pro y Flash, permitiendo generar voz seleccionando la opción de generación de medios en Google AI Studio.

Seguridad y responsabilidad: La clave del desarrollo de la IA

Con cada avance en la IA, la seguridad y la responsabilidad se vuelven aspectos cruciales. Google parece estar tomándose esto en serio, ya que han implementado medidas proactivas para evaluar y mitigar los riesgos potenciales asociados con las nuevas funcionalidades de audio nativo. Esto incluye evaluaciones internas y externas, así como un exhaustivo "red teaming" para garantizar un despliegue responsable.

Además, para garantizar la transparencia y la identificación del audio generado por IA, todas las salidas de audio de los modelos Gemini estarán integradas con SynthID, la tecnología de marca de agua de Google. Esto permitirá identificar fácilmente el audio como generado por IA.

¿Cómo empezar a usarlo?

Los desarrolladores interesados en explorar las nuevas capacidades de audio de Gemini 2.5 pueden comenzar a experimentar a través de la API de Gemini en Google AI Studio o Vertex AI. La generación de voz controlable (TTS) está disponible en vista previa para Gemini 2.5 Pro y Flash seleccionando la opción de generación de voz en Google AI Studio.

En resumen, la integración de audio nativo en Gemini 2.5 representa un paso adelante en el desarrollo de la inteligencia artificial, abriendo nuevas posibilidades para la creación de aplicaciones interactivas y priorizando la seguridad y la responsabilidad en su despliegue.