Más allá de la tecnología y la inteligencia artificial, Pangeanic cuenta con una auténtica arma secreta para seguir a la cabeza de la innovación en...
Pangeanic ha alcanzado el primer gran avance en su proyecto
Plataforma de traducción automática neuronal híbrida. Dicho proyecto, que cuenta con el respaldo del CDTI y la UE —en el marco de su proyecto
Crecimiento Operativo de Inteligencia (proyecto n.º IDI-20170964) —, tiene como objetivo crear un programa de traducción automática neuronal mediante el desarrollo de técnicas de hibridación, con ayuda de la inteligencia artificial.
¿Por qué traducción automática neuronal?
Los sistemas de traducción automática neuronales son un tema de actualidad en la comunidad científica. En los últimos años, la cantidad de publicaciones relacionadas con este tema ha ido en aumento. Estos sistemas tienen grandes ventajas: el contexto que se analiza a la hora de traducir es a nivel de frase (en los sistemas estadísticos clásicos solo se tenía en cuenta una ventana de entre generalmente 5 y 7 palabras) y todos los componentes del sistema se entrenan a la vez, con lo que se consigue una traducción de mejor calidad. Además, el modelo guardado para traducir ocupa menos memoria y pesa menos que en los sistemas clásicos estadísticos. Grandes empresas como Google (Wu et al., 2016) y Microsoft (Hassan et al., 2018) están interesadas en estos sistemas y afirman que están obteniendo resultados de traducción automática semejantes a los de la traducción humana. [caption id="attachment_3716" align="aligncenter" width="625"] Mercedes García-Martínez y Alexandre Helle, miembros de Pangeanic en el proyecto de la plataforma de traducción neuronal híbrida[/caption] La arquitectura de los sistemas neuronales es completamente nueva y distinta de la de los sistemas de traducción estadísticos clásicos. Esto hace que se tengan que investigar de nuevo todas las funcionalidades existentes en los sistemas de traducción automática estadística clásica. La implementación de estas funcionalidades no es obvia, sino que requiere un estudio profundo y la comprensión de los modelos de entrenamiento, así como la cantidad necesaria de datos y ejemplos para el entrenamiento.¿Dónde ha llegado Pangeanic en este ámbito?
Parte de los primeros hitos en la plataforma incluyen:- El desarrollo de los procedimientos mediante preproceso y postproceso independiente de la arquitectura del modelo neuronal, diseñados con anterioridad en sistemas estadísticos que podrían funcionar correctamente en sistemas neuronales.
- El desarrollo de un algoritmo para combinar los dos métodos de alineación y escoger la mejor para colocar las etiquetas. Este proceso nos permite traducir un texto automáticamente sin perder información de formato.
- La selección del conjunto de herramientas para el proyecto.
- La selección de datos paralelos específicos para cada dominio.
- El diseño específico del proyecto; se decidió utilizar el modelo estándar principal: bidirectional sequence-to-sequence recurrent neural network.