Puede que pronto escuches la voz de Google Assistant hasta en la sopa

9 de abr. de 2018

3 min de lectura

A falta de un cuerpo que lo caracterice, lo que da personalidad a cualquier asistente de voz es precisamente eso, su voz. En los asistentes modernos se intenta que el usuario interactúe lo mínimo posible con el asistente. Como consecuencia voces como la de Siri son conocidas y reconocidas en todo el mundo, llegando incluso a alcanzar cierta fama o aparecer en alguna serie de televisión. Con el último producto de Google es posible que nos cansemos de la voz de Google Assistant.

La voz de Google.

Nuestros teléfonos por norma general están preparados para convertir el texto a voz. Este proceso se realiza mediante la API de TTS (Text To Speech) que se encarga de transformar el texto en voz. Hasta ahora, si optamos por este camino nos encontramos con la típica voz robótica de los teléfonos Android.

¿Alternativas? Existen alternativas a este TTS pero en algunos casos es necesario pasar por caja para ello, es decir, tendremos que pagar para que nuestro teléfono o aplicación hablen de otra forma.

¿Qué trampa usaban los desarrolladores? Para conseguir una mejor voz en sus aplicaciones y programas hacían un mal uso del traductor de Google. Enviando texto y observando la respuesta que Google Traductor hacía era posible extraer el archivo en mp3 de la voz de Google diciendo nuestro texto.

Claramente este no era el cometido de Google Traductor ni era demasiado legal. Como consecuencia, esto ya no es posible y, en el mejor de los casos, Google nos pedirá que completemos un Captcha para detectar posibles bots.

La aparición de WaveNet.

Conforme ha ido pasando el tiempo Google ha mejorado la voz para sus aplicaciones. Esto es algo que podemos ver en WaveNet, un proyecto del que ya os hemos hablado anteriormente en AndroidTR y que consigue obtener voces muy similares a la voz natural usando redes neurales. El resultado es la voz actual del asistente de Google que nada tiene que ver con la voz que podíamos escuchar hace unos años.

WaveNet para todo.

Ahora que Google ha perfeccionado WaveNet y ha conseguido mejorar el renderizado de su voz, ya que inicialmente se tardaba un par de segundos en generar un segundo de voz y en vista del interés que despierta esta voz en los desarrolladores, Google ha puesto esta API a disposición de los usuarios.

Esta nueva API de TTS que hace uso de la tecnología de WaveNet la podemos encontrar en Google Cloud y no parece estar pensada para todo el mundo puesto que su uso tiene un coste de 16 dólares cada millón de caracteres. Dependiendo de si el objetivo es grabar muchos audios o generar cada audio cuando sea necesario lo cierto es que el coste puede llegar a ser muy significativo.

¿Para qué está pensado esto? Como ya adelantaba el título de este artículo, las grandes empresas si encontrarán en Google Cloud y su TTS una alternativa de mejor calidad antes las voces robóticas de los últimos años. Por este motivo es posible que la próxima vez que llamemos para concertar una cita o para hacer un pedido sea la misma voz de Google Assistant la que nos conteste.

Por ahora en España podemos estar tranquilos. Por el momento desde Google Cloud la tecnología de WaveNet no está disponible para voces en español por lo que puede que tardemos un poco en escuchar a la polifacética voz de Google Assistant en otros entornos.