Pangeanic consigue grandes avances en su plataforma de traducción automática neuronal híbrida

Pangeanic ha alcanzado el primer gran avance en su proyecto Plataforma de traducción automática neuronal híbrida. Dicho proyecto, que cuenta con el respaldo del CDTI y la UE —en el marco de su proyecto Crecimiento Operativo de Inteligencia (proyecto n.º IDI-20170964) —, tiene como objetivo crear un programa de traducción automática neuronal mediante el desarrollo de técnicas de hibridación, con ayuda de la inteligencia artificial.

¿Por qué traducción automática neuronal?

Los sistemas de traducción automática neuronales son un tema de actualidad en la comunidad científica. En los últimos años, la cantidad de publicaciones relacionadas con este tema ha ido en aumento. Estos sistemas tienen grandes ventajas: el contexto que se analiza a la hora de traducir es a nivel de frase (en los sistemas estadísticos clásicos solo se tenía en cuenta una ventana de entre generalmente 5 y 7 palabras) y todos los componentes del sistema se entrenan a la vez, con lo que se consigue una traducción de mejor calidad. Además, el modelo guardado para traducir ocupa menos memoria y pesa menos que en los sistemas clásicos estadísticos. Grandes empresas como Google (Wu et al., 2016) y Microsoft (Hassan et al., 2018) están interesadas en estos sistemas y afirman que están obteniendo resultados de traducción automática semejantes a los de la traducción humana. [caption id="attachment_3716" align="aligncenter" width="625"] PLATAFORMA DE TRADUCCIÓN AUTOMÁTICA NEURONAL HÍBRIDA

PLATAFORMA DE TRADUCCIÓN AUTOMÁTICA NEURONAL HÍBRIDA

Mercedes García-Martínez y Alexandre Helle, miembros de Pangeanic en el proyecto de la plataforma de traducción neuronal híbrida[/caption] La arquitectura de los sistemas neuronales es completamente nueva y distinta de la de los sistemas de traducción estadísticos clásicos. Esto hace que se tengan que investigar de nuevo todas las funcionalidades existentes en los sistemas de traducción automática estadística clásica. La implementación de estas funcionalidades no es obvia, sino que requiere un estudio profundo y la comprensión de los modelos de entrenamiento, así como la cantidad necesaria de datos y ejemplos para el entrenamiento.

¿Dónde ha llegado Pangeanic en este ámbito?

Parte de los primeros hitos en la plataforma incluyen:

El desarrollo de los procedimientos mediante preproceso y postproceso independiente de la arquitectura del modelo neuronal, diseñados con anterioridad en sistemas estadísticos que podrían funcionar correctamente en sistemas neuronales.
El desarrollo de un algoritmo para combinar los dos métodos de alineación y escoger la mejor para colocar las etiquetas. Este proceso nos permite traducir un texto automáticamente sin perder información de formato.
La selección del conjunto de herramientas para el proyecto.
La selección de datos paralelos específicos para cada dominio.
El diseño específico del proyecto; se decidió utilizar el modelo estándar principal: bidirectional sequence-to-sequence recurrent neural network.

Se probaron las herramientas: Nematus, ModernMT, TensorFlow y OpenNMT. OpenNMT es abierta, tiene muchas funcionalidades y la documentación es bastante completa para poder implementar nuevas opciones fácilmente. Además, cuenta con el apoyo de Harvard y Systran y una amplia comunidad de usuarios. Por tanto, nos decantamos por ella. Tras decidirnos por OpenNMT, lo primero que hicimos fue experimentar para analizar cuáles eran los mejores parámetros y la arquitectura de la red necesaria para la cantidad de datos que tenemos.

Publicaciones futuras relacionadas con la plataforma de traducción automática neuronal híbrida

Actualmente se está revisando un artículo en el que recopilamos los resultados obtenidos durante la investigación acerca del impacto de la tokenización en la calidad de la traducción final (realizada en la primera parte de este proyecto). Asimismo, tenemos previsto elaborar varios artículos con los resultados de las investigaciones llevadas a cabo durante esta segunda parte y enviarlos a congresos y seminarios de alta relevancia que se celebrarán durante el 2019. Finalmente, prepararemos demostraciones del sistema que se va a desarrollar durante el proyecto, con el fin de presentarlas en uno de los congresos más relevantes que se celebrarán el próximo año.

Referencias

Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., et al. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.

Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, Shujie Liu, Tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Ta, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou (2018). Achieving Human Parity on Automatic Chinese to English News Translation. arXiv preprint arXiv 1803.05567.

Do you want to read this news in English? Click here