lunes, 20 de marzo de 2017

Lo siento, tus hijos no necesitan aprender inglés

Sin ser mi lengua materna, me he pasado media vida trabajando en inglés. Podríamos decir que me manejo bastante bien y, sin embargo, la falta de un dominio absoluto de este idioma me ha perjudicado notablemente en no pocas ocasiones.

Recuerdo con cierto amargor las intensas discusiones técnicas que mantuve hace unos años con un tal Scott para definir la arquitectura de un sistema de gestión de competencias. No es que yo tuviera siempre razón pero, de vez en cuando, mis argumentos conseguían imponerse a su visión, demasiado académica, de los problemas que nos planteábamos en el grupo de investigación. O deberían haberlo hecho porque el hombre, al sentirse acorralado, bajaba el tono de voz, aumentaba la cadencia de sus palabras y pasaba al modo "Shakespeare" para comenzar a rebatir mis argumentos en una idioma que me resultaba casi incomprensible. Así, tras media hora sin entender la mitad de los términos que empleaba y tener que instarle a repetir continuamente su discurso, al final yo acababa cediendo y sus argumentos imponiéndose.

Con esto sólo quiero recalcar que reconozco la tremenda importancia que tiene el inglés en los tiempos actuales y justifico los enormes esfuerzos que todos los padres hacemos para que nuestros hijos adquieran un buen dominio de esta lengua.

Sin embargo, me temo que tales esfuerzos habrán sido en vano porque, en apenas unos años, la traducción automática y simultánea entre dos idiomas cualquiera será una realidad gracias a las nuevas técnicas de Inteligencia Artificial.

LA TRADUCCIÓN SIMULTÁNEA

Para conseguir una traducción simultánea efectiva deben orquestarse tres componentes:
  • Voice-to-Text: una aplicación capaz de escuchar lo que decimos y convertirlo a un texto que pueda ser procesado por las máquinas
  • Traductor: el sistema encargado de trasladar el texto de un idioma a otro
  • Text-to-Speech: una última aplicación que nos dicta el texto traducido
Disponiendo de estos tres elementos, sería posible desarrollar un sistema que nos permitiera comunicarnos en tiempo real con cualquier persona del mundo hablando en nuestro idioma materno.

No es ciencia ficción, Microsoft ya anunció hace tiempo la capacidad de Skype Translator para vencer la barreras lingüísticas permitiendo la traducción simultánea en 8 idiomas en sus llamadas de voz o vídeo y de hasta 50 si utilizas el sistema de mensajería instantánea.

Es decir, con Skype Translator puedes llamar a una persona en China, decirle cualquier cosa en español y escuchar sus respuestas instantáneamente también en un "perfecto" español.

No sé si lo habéis probado pero los resultados, sin ser perfectos, son bastante satisfactorios. Y, sin embargo, lo mejor de la traducción simultánea está aún por venir.

VOICE-TO TEXT

Desde hace ya tiempo, la mayoría de los móviles incluyen la opción de reconocimiento de voz (normalmente integrada en el teclado) que podemos usar en aplicaciones como Instagram, Whatsapp o Skype para dictar los mensajes que queremos enviar.

La fiabilidad de estos sistemas no para de aumentar año tras año. Es más, en Octubre de 2016 Microsoft anunció que había logrado disminuir la tasa de error de sus algoritmos de reconocimiento de voz hasta el 5,3% lo que los iguala con la capacidad del ser humano. Esfuerzos similares está realizando IBM para que su Inteligencia Artficial, Watson, sea capaz de reconocer la voz humana sin errores, Google sigue esta misma línea para mejorar la habilidades de Google Now y Apple hace lo propio para que, algún día, Siri sea capaz de entender lo que le decimos.

Y, lo mejor de todo, es que cualquier desarrollador puede incorporar el reconocimiento de voz en sus aplicaciones gracias a los servicios existentes en la nube. Así Google nos ofrece Cloud Speech API, Microsoft dispone de la Bing Speech API integrada en sus Cognitive Services y Amazon lo hace a través de los Alexa Voice Services.

Sin embargo, aún no podemos cantar victoria. Los sistemas de reconocimiento de voz tienen problemas cuando hay mucho ruido de ambiente o cuando varias personas hablan simultáneamente tal y cómo, indefectiblemente, ocurre en cualquier tertulia familiar.

TRADUCTOR

Tras convertir nuestra voz a texto, toca ahora traducirla al otro idioma, sin duda la tarea más compleja de las tres que deben realizarse para conseguir la traducción simultánea.

Sin embargo, el sistema de traducción de Google (GNMT: Google  Neural Machine Translation System) comienza ya a aproximarse a la exactitud que consiguen los mejores traductores humanos tal y cómo se muestra en el gráfico que acompaña esta sección.

Para demostrar la capacidad de este sistema, he cometido la osadía de publicar este mismo artículo en inglés traducido directamente por Google Translator y sin realizar cambio alguno (espero que los anglosajones sepan perdonarme). Aqui tenéis el resultado.

(*) Habilidades similares demuestra Microsoft Translator aunque los de Gates ya han anunciado que pronto serán capaces de traducir conversaciones en grupo en varios idiomas en tiempo real. Es decir que pronto podremos mantener una conversación simultánea con un chino, un japonés y un americano (perdonadme, parece el comienzo de un chiste). Estos avances se trasladarán automáticamente a Skype e incluso a Outlook en dónde ya podemos traducir automáticamente cualquier correo electrónico que recibamos con este add-in

Como os podéis imaginar IBM no se queda atrás con el Watson Language Translator que ofrece gratuitamente a través de Bluemix.

Para demostrarlo aquí tenéis el párrafo marcado con (*) traducido al inglés con las herramientas de Microsoft, Google e IBM:

MICROSOFT: "Similar skills shows Microsoft Translator although Gates's have already announced that they will soon be able to translate conversations group in several languages in real time. That is to say that we will soon have a simultaneous conversation with a Chinese, a Japanese and an American (forgive me, looks like the beginning of a joke). These advances will be transferred automatically to Skype, even Outlook where already we can automatically translate any email that we receive with this add-in"

GOOGLE: "Similar skills prove Microsoft Translator although Gates have already announced that they will soon be able to translate multi-lingual group conversations in real-time. That is to say that soon we will be able to maintain a simultaneous conversation with a Chinese, a Japanese and an American (excuse me, it seems the beginning of a joke). These advances will automatically be transferred to Skype and even Outlook where we can already automatically translate any emails we receive with this add-in"

BM WATSON: "Similar Skills shows Microsoft Translator but Gates have already announced that they will soon be able to translate group conversations in multiple languages in real time. This means that soon we can maintain a simultaneous conversation with a Chinese, a Japanese and an American (perdonadme, it seems the beginning of a joke). These advances are automatically moved to Skype and even Outlook where we can automatically translate any email that we receive this add-in"

[ACTUALIZACIÓN 3/9/17]
Desde que escribí el artículo, un nuevo actor ha irrumpido en este mundillo de los traductores automáticos. Se trata de  DEEPL, su trabajo no desmerece al de sus más afamados contrincantes:

DEEPL: (*) Similar skills demonstrates Microsoft Translator but Gates's have already announced that they will soon be able to translate group conversations into multiple languages in real time. That is to say that soon we will be able to have a simultaneous conversation with a Chinese, a Japanese and an American (forgive me, it seems like the beginning of a joke). These advances will automatically be transferred to Skype and even Outlook where we can automatically translate any emails we receive with this add-in

Vosotros diréis quién lo hace mejor pero, sobretodo, realizad este mismo ejercicio el año que viene a ver qué sucede

TEXT-TO-SPEECH

De los tras sistemas que intervienen en la traducción simultánea éste es, aparentemente, el más sencillo de implementar. Sin embargo, llevamos décadas escuchando a los ordenadores hablar con voces robóticas. Esto se debe a que, para hablar correctamente, es necesario jugar con la entonación y las pausas.

En este área Google parece estar un paso por delante con Wavenet, un sintetizador (y algo más) con una calidad comparable a la voz humana. Sin entrar en detalles técnicos, aquí podéis escuchar una misma voz sintetizada con algoritmos tradicionales y con el nuevo algoritmo de Google (fuente DeepMind...)
Por su parte Amazon está desarrollando Polly, un servicio en la nube que incluye  47 voces realistas en 11 idiomas. Aquí tenéis algunos ejemplos (pulsad en el nombre de cada persona para escuchar su voz):

LenguajeFemeninoMasculinoTexto de muestra
InglésJoannaJoeyHello. Do you speak a foreign language? One language is never enough.
DanésNajaMadsHej. Taler du et fremmed sprog? Et sprog er aldrig nok.
Portugués de BrasilVitóriaRicardoOi. Você fala algum idioma estrangeiro? Somente um idioma nunca é bastante.
EspañolPenélopeMiguelHola. ¿Hablas algún idioma extranjero? Un solo idioma no es suficiente.
IslandésDóraKarlHalló, Hæ talar þú erlent tungumál? Eitt tungumál er aldrei nóg.

Tampoco podemos olvidarnos de Microsoft quién también ofrece este tipo de servicios de nuevo a través de la Bing Speech API (en esta misma página tenéis una demo para probar el sistema)

EN DEFINITIVA

Los sistemas de traducción simultánea son ya una realidad cómo tan bien ha sabido demostrar Skype, pero lo mejor aún está por llegar.

Al día de hoy ya podemos impartir una conferencia en inglés o chino armados sólo con el traductor de Google dejando que nuestro ordenador o móvil traduzca y transmita nuestro discurso. Pero no tardaremos en ver cómo cualquier conversación por el móvil será traducida automáticamente y en tiempo real al idioma de nuestro interlocutor con una voz completamente natural y sin apenas cometer errores.

Y poco más tardarán en ser posibles las conversaciones en grupo dejando así obsoleto el viejo mito de la Torre de Babel.

De ser así, ¿seguirán nuestros hijos necesitando aprender inglés?

ACTUALIZACIÓN [6/10/17]

Apenas unos meses después de escribir este artículo, Google ha anunciado el lanzamiento para finales de 2017 de los Google Pixel Buds, unos auriculares que nos permitirán hablar en tiempo real con cualquier persona en 40 idiomas.

Para conseguir este milagro Google combina las capacidades de su traductor y la potencia de la inteligencia artificial desarrollada en el Google Assistant para convertir voz a texto y viceversa.

Para ello necesitaréis descargaros una app en un móvil compatible, por ejemplo en los nuevos Pixel2. A partir de ese momento, todo lo que digas será traducido automáticamente a la lengua de tu interlocutor. Podéis comprobar su funcionamiento en este vídeo:


Seguramente, aún tendremos que esperar unos cuantos años (o meses, las cosas están yendo muy rápido) para que la traducción sea perfecta pero el hecho es que la tecnología para conseguir una traducción simultánea efectiva ya está aquí.

2 comentarios:

  1. Excelente todos tus artículos y me gustaría poder estar en contacto para que estas nuevas técnicas sean manejadas también con la experiencia y los estudios de planificación y control que tengo, que nada envidian estas nuevas técnicas y modos de abstracción de la problemática de los negocios. Y las barreras del idioma como indicas en este artículo se ajustan mucho al tema de la tecnología que va a pasos agigantados.
    un saludos especial Gustavo

    ResponderEliminar
    Respuestas
    1. Gracias Gustavo, me alegro que te hayan resultado interesantes mis planteamientos.

      Eliminar