Que una máquina te llame no es nada nuevo; pero que lo haga para conversar contigo de forma natural es algo muy distinto. Es lo que ofrece Google Duplex; el sistema de inteligencia artificial aplicado a la automatización de las conversaciones telefónicas.
La demostración dejó a todos asombrados; Sundar Pichai fue el encargado de realizar la prueba durante la conferencia Google I/O 2018. Como él mismo indicaba; el sistema es el resultado de varios años de trabajo en esos ámbitos.
En el momento en que la llamada se realiza y la máquina empieza hablar con una persona y lo hacía de forma totalmente natural; marca un punto de inflexión en la tecnología.
El sistema de conversaciones telefónicas de Google Duplex
El sistema conversacional de Google Duplex se basa en una Red Neuronal Recurrente (RNN) desarrollada mediante TensorFlow Extended.
Como ocurre con otros sistemas similares; para lograr esta precisión en su nivel de conversación la red neuronal tuvo que ser entrenada con conversaciones telefónicas anonimizadas. El mismo hace uso de la tecnología ASR (Automatic Speech Recognition) de Google; y analiza distintos parámetros para lograr diferenciar el contexto y entender qué le está diciendo el interlocutor. Sin embargo, todo el entrenamiento se mantuve en base a la inteligencia artificial; está es la que va permitir el desarrollo final.
Asimismo; para lograr que esa voz suene natural se usa el sistema de dictado (Text to Speech, TTS) usando Tacotron y WaveNet para controlar la entonación. Lo más interesante es la introducción de las llamadas ‘speech dysfluencies‘; esas pausas en forma de “ahm” y “uhm” que son comunes entre los seres humanos al expresarse y que hacían que la voz sintetizada fuera aún más convincente a la hora de parecer humana.
Voz humanoide gracias a la inteligencia artificial.
Esa llamada en la que una máquina hablaba con una persona y lo hacía de forma totalmente natural marcó la diferencia. Va más allá de la inteligencia artificial.
Las pausas; los «ahmm…» y esos «mm-hmm…» ayudó a que la voz robótica se convirtiera en una voz humana; con entonación humana y con esas mismas pausas y dudas que habitualmente hacemos al hablar los seres humanos.
Pichai mostró algunos ejemplos algo distinto; como el de la llamada del sistema para una reserva de restaurante que no acabó de resolverse del todo; pero aun así el asistente consiguió lo que el usuario deseaba: no tener que hacer él la llamada y obtener esa reserva (o algo parecido a ella).
Google Duplex tiene sus desventajas
Detrás de este impresionante avance; hay ciertas desventajas que no terminan de convencer a todo el público. Una de las tantas; es que afecta el sistema de privacidad, ya que es probable que Google Duplex registre toda la conversación; la grabe y la analice (previa anonimización) para «mejorar el servicio», como suelen avisar todos estos sistemas.
Sin embargo; las suspicacias sobre lo que se pueden hacer con todas esas grabaciones son evidentes. Aquí es donde Google debe ser transparente sobre qué se guarda, cómo se guarda y durante cuánto tiempo.
Y por último está el problema de los malos usos. Será difícil controlar como siempre que una herramienta se utilice de forma inadecuada. Pero independientemente de eso, no debería frenar su evolución tecnológica, solo evaluar todo los parámetros de seguridad correspondientes y necesarios para seguir adelante con su evolución.
[bctt tweet=»La voz #robótica se convirtiera en una voz humana » username=»artech_digital»]
Fuente / Xataka