Traducción simultánea con IA en Google Meet: Un avance revolucionario

¿Te imaginas participar en una reunión internacional donde todos hablen su idioma y aun así se entiendan a la perfección? Google Meet está haciendo ese sueño realidad gracias a la traducción simultánea con Inteligencia Artificial (IA). Un equipo de ingenieros de Google, en colaboración con Google DeepMind, ha logrado un avance significativo en la comunicación global, permitiendo conversaciones fluidas y naturales entre personas que hablan diferentes idiomas.

Un salto cualitativo en la traducción de audio

Fredric, líder del equipo de ingeniería de audio en Meet, ha sido testigo de la transformación que la IA ha traído a su trabajo. Hace dos años, su equipo se embarcó en el proyecto de traducción del habla, enfrentándose al desafío de lograr una traducción instantánea, algo esencial para las llamadas en vivo de Google Meet. Los modelos existentes eran capaces de manejar la traducción offline, pero la velocidad era el obstáculo principal.

La colaboración con Google DeepMind fue clave. Lo que al principio parecía un proyecto de cinco años se materializó en dos gracias al rápido avance de la IA. Ahora, una comunidad de ingenieros de Google, provenientes de equipos como Pixel, Cloud y Chrome, trabajan junto a Google DeepMind para perfeccionar la traducción del habla en tiempo real.

¿Qué hay de nuevo en esta tecnología?

Las tecnologías de traducción de audio anteriores se basaban en un proceso de múltiples pasos: transcripción del habla, traducción del texto y conversión de nuevo a voz. Esta cadena generaba una latencia considerable, a menudo de 10 a 20 segundos, lo que hacía imposible una conversación natural. Además, las voces traducidas eran genéricas y no capturaban las características únicas del hablante.

El verdadero avance, según Huib (líder de gestión de producto para la calidad de audio), se debe a los "modelos grandes", capaces de realizar una traducción "de un solo disparo". Esto significa que el modelo recibe el audio y casi de inmediato comienza a generar la traducción, reduciendo drásticamente la latencia a niveles similares a los de un intérprete humano. Se ha encontrado que un retraso de dos a tres segundos es el punto óptimo para una conversación fluida.

Superando obstáculos

El desarrollo de esta compleja función no ha estado exento de desafíos. Uno de los aspectos más críticos era garantizar una traducción de alta calidad, que puede variar mucho según factores como el acento del hablante, el ruido de fondo o las condiciones de la red.

El equipo de Meet y DeepMind han trabajado conjuntamente para perfeccionar estos aspectos, probando modelos y ajustándolos en función del rendimiento en el mundo real. La colaboración con lingüistas y expertos en idiomas ha sido fundamental para comprender los matices de la traducción y los acentos. Las lenguas con afinidades cercanas, como el español, el italiano, el portugués y el francés, fueron más fáciles de integrar, mientras que las lenguas estructuralmente diferentes, como el alemán, plantearon mayores desafíos debido a las variaciones en la gramática y los modismos comunes.

Actualmente, el modelo tiende a traducir la mayoría de las expresiones literalmente, lo que puede dar lugar a malentendidos divertidos. Sin embargo, se esperan actualizaciones que utilizarán modelos de lenguaje grandes (LLM) avanzados para captar y traducir estos matices con mayor precisión, e incluso capturar el tono y la ironía.

Con esta nueva funcionalidad Google Meet se sitúa a la vanguardia de la comunicación en línea, mejorando la colaboración y entendimiento entre personas de diferentes culturas.