Actualización 2024 Desde el inicio del Proyecto de Inteligencia Artificial de Pangeanic, la...
Pangeanic ha alcanzado el primer gran avance en su proyecto
Plataforma de traducción automática neuronal híbrida. Dicho proyecto, que cuenta con el respaldo del CDTI y la UE —en el marco de su proyecto
Crecimiento Operativo de Inteligencia (proyecto n.º IDI-20170964) —, tiene como objetivo crear un programa de traducción automática neuronal mediante el desarrollo de técnicas de hibridación, con ayuda de la inteligencia artificial.
¿Por qué traducción automática neuronal?
Los sistemas de traducción automática neuronales son un tema de actualidad en la comunidad científica. En los últimos años, la cantidad de publicaciones relacionadas con este tema ha ido en aumento. Estos sistemas tienen grandes ventajas: el contexto que se analiza a la hora de traducir es a nivel de frase (en los sistemas estadísticos clásicos solo se tenía en cuenta una ventana de entre generalmente 5 y 7 palabras) y todos los componentes del sistema se entrenan a la vez, con lo que se consigue una traducción de mejor calidad. Además, el modelo guardado para traducir ocupa menos memoria y pesa menos que en los sistemas clásicos estadísticos. Grandes empresas como Google (Wu et al., 2016) y Microsoft (Hassan et al., 2018) están interesadas en estos sistemas y afirman que están obteniendo resultados de traducción automática semejantes a los de la traducción humana. [caption id="attachment_3716" align="aligncenter" width="625"] Mercedes García-Martínez y Alexandre Helle, miembros de Pangeanic en el proyecto de la plataforma de traducción neuronal híbrida[/caption] La arquitectura de los sistemas neuronales es completamente nueva y distinta de la de los sistemas de traducción estadísticos clásicos. Esto hace que se tengan que investigar de nuevo todas las funcionalidades existentes en los sistemas de traducción automática estadística clásica. La implementación de estas funcionalidades no es obvia, sino que requiere un estudio profundo y la comprensión de los modelos de entrenamiento, así como la cantidad necesaria de datos y ejemplos para el entrenamiento.¿Dónde ha llegado Pangeanic en este ámbito?
Parte de los primeros hitos en la plataforma incluyen:- El desarrollo de los procedimientos mediante preproceso y postproceso independiente de la arquitectura del modelo neuronal, diseñados con anterioridad en sistemas estadísticos que podrían funcionar correctamente en sistemas neuronales.
- El desarrollo de un algoritmo para combinar los dos métodos de alineación y escoger la mejor para colocar las etiquetas. Este proceso nos permite traducir un texto automáticamente sin perder información de formato.
- La selección del conjunto de herramientas para el proyecto.
- La selección de datos paralelos específicos para cada dominio.
- El diseño específico del proyecto; se decidió utilizar el modelo estándar principal: bidirectional sequence-to-sequence recurrent neural network.
Publicaciones futuras relacionadas con la plataforma de traducción automática neuronal híbrida
Actualmente se está revisando un artículo en el que recopilamos los resultados obtenidos durante la investigación acerca del impacto de la tokenización en la calidad de la traducción final (realizada en la primera parte de este proyecto). Asimismo, tenemos previsto elaborar varios artículos con los resultados de las investigaciones llevadas a cabo durante esta segunda parte y enviarlos a congresos y seminarios de alta relevancia que se celebrarán durante el 2019. Finalmente, prepararemos demostraciones del sistema que se va a desarrollar durante el proyecto, con el fin de presentarlas en uno de los congresos más relevantes que se celebrarán el próximo año.Referencias
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., et al. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.
Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, Shujie Liu, Tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Ta, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou (2018). Achieving Human Parity on Automatic Chinese to English News Translation. arXiv preprint arXiv 1803.05567.
Do you want to read this news in English? Click hereArtículos Relacionados
Más allá de la tecnología y la inteligencia artificial, Pangeanic cuenta con una auténtica arma secreta para seguir a la cabeza de la innovación en...
El investigador experto en tecnologías lingüísticas Alexander Raginsky se ha unido a Pangeanic como parte del proyecto Expert de la UE para avanzar...