¿Dónde estamos con la traducción automática neuronal?

Escrito por Amando Estela | 14/12/22

Neural Machine Translation (NMT) es el nuevo enfoque de la traducción automática. La traducción automática neuronal es conocida porque trabaja con una arquitectura de extremo a extremo que tiene como objetivo capacitar a todos los componentes simultáneamente para maximizar su rendimiento. La arquitectura tiene en cuenta la oración completa como contexto, lo que le permite lograr una traducción fluida.

El ascenso de la traducción automática neuronal

La evolución de la traducción automática neuronal (TAN) desde sus orígenes hasta hoy: ¿Cómo se convirtió TAN en un imprescindible para hacer negocios a nivel mundial?

Cuando se propuso la primera idea de la máquina programable en 1834, y se pensaba en traducir idiomas de otras naciones, nadie imaginaba que 120 años después, durante el experimento Georgetown-IBM de 1954, en Nueva York se presenciaría la primera demostración de una máquina de traducción automática de idiomas. Esta permitió convertir breves declaraciones sobre campos como la política, la ley, la química y los asuntos militares del ruso al inglés.

Este proceso de traducción ha cambiado mucho a lo largo de su desarrollo, desde sistemas que requirieron horas y días de tiempo de programación para producir una traducción de baja calidad, hasta los sistemas de traducción automática neuronal (TAN) que conocemos hoy en día, que pueden procesar el mismo contenido en cuestión de segundos y con mucha más precisión.

 

Traducción automática neuronal: ¿Cómo funciona? 

La traducción automática neuronal utiliza las redes neuronales para traducir un texto de origen al texto de destino, estas redes pueden trabajar con conjuntos de datos muy grandes y requieren poca supervisión. Hay dos tipos de redes neuronales en los sistemas de traducción: una red de codificadores y una red de decodificadores. 

¿A qué nos referimos con red neuronal?

Cuando hay una serie interconectada de nodos modelados en el cerebro humano, lo llamamos red neuronal. En este sistema la información que entra pasa a través de los nodos para, posteriormente, volver a salir. Esta estructura se llama se llama red neuronal de secuencia a secuencia (Seq2Seq). Esto quiere decir que funciona observando una oración en el idioma de base y produciendo una oración en el idioma de destino correspondiente. 

 

¿Qué tipo de traducción automática neuronal necesito?

Los servicios de traducción automática neuronal pueden mejorar su calidad si se realiza corrección y edición por traductores humanos tras realizar la traducción desde el software informático. Esto permite que su traducción final sea 100% precisa y fiable, con un toque humano que no puede proporcionar una máquina.

Ofrecemos dos tipos de servicios de edición para nuestros proyectos de traducción automática:

  • Traducción automática personalizada: si lo que necesita es traducir una gran cantidad de datos y va a utilizar la TA de forma intensiva, le recomendamos entrenar los motores neuronales desde cero. Podemos extraer datos del campo que necesita para crear un motor especializado que cubra muchas áreas lingüísticas. 

  • Traducción automática Deep Adaptive: parte de cualquiera de nuestros motores de serie y que cubren la mayoría de las áreas de conocimiento. Este tipo de traducción es muy recomendable para proveedores de servicios lingüísticos y los clientes corporativos en los momentos de máxima producción o a largo plazo. 

 

¿La traducción automática neuronal ha logrado la paridad humana?

Recientemente, Google, Microsoft y SDL han argumentado que la Traducción Automática Neural (TAN) ha logrado la paridad de la traducción humana con “Sistema de Traducción Automática  Neural de Google”: Cerrando la brecha entre la traducción humana y la máquina “,” Lograr la paridad humana en la traducción automática de noticias de chino a inglés“y” SDL rompe la traducción de ruso a inglés “respectivamente”.

En un trabajo reciente, que ha sido aceptado en la conferencia EMNLP 2018, se están llevando a cabo experimentos comparando traducciones automáticas neuronales con traducciones humanas. La tarea consistía en clasificar 55 documentos y 120 oraciones del conjunto de pruebas chino-inglés de WMT 2017. Los documentos y oraciones se evaluaban en condiciones monolingües (solo texto de idioma de destino) y bilingües (texto de idioma de origen y de destino). Los raters eran traductores profesionales con al menos tres años de experiencia y cuentan con comentarios positivos de los clientes.

Para la condición monolingüe, reclutaron 5 traductores nativos en inglés, mientras que, para la condición bilingüe, reclutaron 2 traductores nativos en chino, 1 traductor nativo en inglés y 1 traductor nativo en inglés y chino. En la condición monolingüe, los traductores prefirieron el texto producido por humanos sobre el texto producido por máquina en términos de las oraciones, así como los documentos. En condiciones bilingües, las calificaciones de los traductores demostraron una preferencia significativa por la traducción humana a través de la traducción automática al evaluar documentos.

Sin embargo, al evaluar oraciones aisladas, la traducción automática logra la paridad hacia el ser humano sin mostrar preferencia

 

 

Aspectos a considerar en la Traducción automática neuronal

Este es sin duda un buen hallazgo. La calidad de TAN es impresionante, pero hay dos aspectos importantes a considerar.

  1. El primero es que los autores son cautelosos de concluir que los resultados podrían hacernos pensar que la TA funciona mejor en adecuación que la fluidez. Sin embargo, la evaluación de TA probablemente puede ser más favorable cuando la mayoría de los traductores son nativos en el idioma de origen.

  2. El segundo es que la evaluación a nivel de oración puede ser insuficiente, ya que se desconoce el contexto, cultural y de otro tipo y estos elementos deben tenerse en cuenta para comprender realmente la traducción. Estos hallazgos confirman la necesidad de continuar investigando a nivel de documento como trabajos recientes.

Al aumentar el contexto al nivel de documento, la traducción automática neuronal podrá mejorar la coherencia y la cohesión del texto traducido. La TAN de nivel documental puede evitar algunos errores que a nivel de oración son imposibles de reconocer como la concordancia de género en las oraciones. 

 

¿Es útil la traducción automática neuronal para traducir textos literarios? 

El mercado de la traducción de literatura está creciendo debido al uso de libros electrónicos. En los últimos años, las ventas de libros electrónicos se han duplicado en todo el mundo. Hoy en día, es más fácil leer un libro en cualquier dispositivo o incluso escuchar audiolibros.

La traducción, obviamente también está creciendo en este mercado. Sin embargo, traducir textos literarios requiere una creatividad que las máquinas no pueden permitirse, por ejemplo, frente a la intraducibilidad, metáforas o expresiones idiomáticas. Este es el escenario más desafiante para la traducción automática. A pesar de la mejora del rendimiento de la traducción utilizando traducción automática neuronal (TAN) debido a tener en cuenta la frase como contexto, los textos literarios siguen siendo difíciles de traducir automáticamente.

Para saber hasta dónde podemos avanzar con la traducción automática en el dominio de la literatura, en este trabajo presentado por el Dr. Antonio Toral y el Prof. Andy Way, 12 novelas están traducidas del inglés al catalán con sistemas TAN:

  • Auster’ s Sunset Park (2010)

  • Collins 'Hunger Games #3 (2010)

  • El Señor de las Moscas de Golding (1954)

  • El viejo y el mar de Hemingway (1952)

  • Highsmith’ s Ripley Under Water (1991)

  • Hosseini’ s A Thousand Splendid Suns (2007)

  • Ulises de Joyce (1922)

  • Kerouac’ s On the Road (1957)

  • Orwell’ s 1984 (1949)

  • Harry Potter #7 de Rowling (2007)

  • Salinger’ s The Catcher in the Rye (1951)

  • El Señor de los Anillos de Tolkien #3 (1955)

Inglés y catalán -provenientes de diferentes familias- fueron elegidos para hacer la tarea más desafiante. Además, el catalán es una lengua europea de tamaño medio, lo que significa que hay recursos disponibles para formar un sistema, pero no tanto como otras lenguas europeas importantes como el español, el francés, el alemán o el italiano.

El sistema TAN se formó con 133 novelas traducidas del inglés al catalán y 1000 libros escritos en catalán. Las traducciones de 3 libros fueron clasificadas manualmente por hablantes nativos de catalán comparando la traducción humana con traducción automática neuronal. Para 2 libros, el sistema TAN obtuvo una calidad equivalente a las traducciones humanas en alrededor de un tercio de los casos.

 

Calidad de la traducción automática neuronal 

La calidad de la traducción automática neuronal, depende de una gran cantidad de factores independientemente de la herramienta que se haya elegido. También se debe tener en cuenta: el par de idiomas al que se quiere hacer la traducción, la cantidad de datos de entrenamiento incluidos e incluso la cantidad y tipo de texto que se quiere traducir. 

Cuantas más traducciones realice un modelo para un dominio e idioma específico, mejor calidad tendrá las traducciones finales. Con el paso de los años, las traducciones automáticas han aumentado y, como consecuencia, ha sido necesaria la investigación y mejora de esta tecnología tan necesaria en la actualidad. Conocer las herramientas que existen y saber cuál es mejor para el tipo de traducción que quiere realizar es esencial para un trabajo óptimo. 

En Pangeanic contamos con una traducción automática de calidad casi humana en varios aspectos. Nuestra larga trayectoria en el sector de la traducción nos ha permitido contar con datos de entrenamiento suficientes para que nuestros motores puedan ofrecer traducciones de calidad de gran cantidad de documentos en tiempo récord. 

 

Las principales ventajas de la traducción automática neuronal

La traducción automática neuronal ofrece muchas ventajas en la actualidad de los negocios, ya que permite traducir grandes cantidades de textos a diferentes idiomas en tiempo reducido, algo que es necesario en la era digital y de la inmediatez. 

Las primeras herramientas de traducción automática revolucionaron el mercado, pero con la llegada de la traducción automática neuronal basado en modelos neuronales, se ha revolucionado el ámbito de la traducción asistida dando lugar a una herramienta más precisa e interesante para quién la requiera. 

Por lo tanto, entre algunos de los beneficios de esta herramienta encontramos: 

  • Traducciones precisas: se basa en conjuntos de datos cada vez más amplios y al utilizar el modelado lingüístico, los motores de TAN son capaces de contextualizar las palabras y frases para realizar trabajos de traducción precisos y fluidos.

     

  • Aprendizaje rápido: Las redes neuronales pueden entrenarse rápidamente mediante procesos automatizados.

     

  • Integración fácil y flexible: Un beneficio de esta herramienta es que puede integrarse mediante API y SDK en cualquier software y se puede aplicar a muchos formatos de archivos de contenido.

     

  • Es personalizable: según el contenido que se quiera traducir, se puede actualizar el modelo para adaptarlo a la demanda del consumidor a través de bases de datos terminológicas, glosarios específicos y otras fuentes de datos para mejorar los resultados.

     

  • Rentable: La traducción humana implica tiempo y puede ser costosa, especialmente en proyectos de gran cantidad de palabras e idiomas. La TAN permite producir traducciones por una fracción del coste y siempre se puede contar con traductores humanos que se encarguen de la postedición de la traducción automática.

     

  • Es escalable: Cuando una traducción necesite ser ampliada, la traducción automática neural permite satisfacer el aumento de la demanda, fácil y rápidamente. 


 

 

Avances tecnológicos en la traducción automática neuronal

La tecnología ha mejorado el rendimiento de la traducción automática en este dominio, pero sigue siendo una tasa baja, por lo que requiere muchos esfuerzos de revisión humana como se mencionó en una publicación anterior. Los autores planean investigar si el TAN puede ser útil para ayudar a los traductores humanos en la traducción del texto literario que mide el esfuerzo y la calidad.

Los nuevos enfoques y la recopilación de datos mejorarán estos resultados. Hay mucha investigación para lograr una tasa competitiva en el dominio de la literatura. Un día, la traducción automática estará lista para eso, pero llevará algún tiempo.

 

Visualización y comprensión de la traducción automática

Cuando se trata de traducciones, las personas todavía se consideran mejor que las máquinas. Aun así, en la actualidad, existen diferentes empresas que cuentan con este servicio de traducción automática neuronal. Cuando se trata de herramientas de hardware, la calidad puede ser fácil de detectar.

Cuando hablamos de servicios y, en concreto, la traducción automática neuronal, la calidad suele ser mejor. Otra de sus ventajas es el coste, este servicio es más económico que la traducción humana al igual que permite ahorrar tiempo.

A pesar de ello, la traducción humana sigue siendo necesaria ya que los traductores pueden aplicar su pensamiento crítico de manera que el texto esté localizado en el idioma y contexto correspondiente. 

El crecimiento tecnológico está permitiendo innovar y mejorar los servicios que se pueden ofrecer entorno a la traducción automática neuronal. No todas estas formas de TA se pueden imponer a los traductores ya que estos son capaces de transcrear el contenido para adaptarlo al contexto. Por eso, siempre está la opción de combinar ambos servicios de traducción automática y postedición. 

Pangeanic ha desarrollado un sistema de gestión que permite administrar conjuntos de formación y limpia automáticamente algunos datos, entrena motores y crea nuevos motores con una variedad de otras características personalizables. Como personalizadores de traducción automática, sabemos que inicialmente algunas configuraciones, parámetros, pesos y características deben configurarse cuidadosamente para obtener un buen comienzo y posterior resultado.