Idiomas que desafían las iniciativas de la traducción automática

De las más de 7.000 lenguas que existen en el mundo, algunas permiten una aplicación de traducción automática más sencilla, mientras que otros presentan un reto importante frente a iniciativas de automated translation.

El concepto machine translation se basa en permitir que un sistema de traducción sea capaz de recibir un texto en el idioma origen y genere un texto de salida en el idioma destino. Para ello, aplica reglas lógicas y estadísticas (ya sean simples o más complejas), y su último fin es acercarse al 100% de paridad con la traducción profesional humana.

Las técnicas actuales y la existencia de multitud de datos bilingües permiten en muchos casos acercarse a este objetivo. No obstante, algunos idiomas minoritarios aún suponen un reto para la tecnología de la traducción actual. Desgranamos este problema y sus posibles soluciones mediante sistemas de traducción automática neuronal.

Los principales desafíos de la traducción automática

A día de hoy, las técnicas de traducción automática han evolucionado para incluir varias opciones:

La opción tradicional es la conocida como Rule-based Machine Translation (RBMT): utilizan reglas establecidas para convertir un texto fuente a un nuevo idioma de destino. Estas reglas son implantadas por lingüistas y se refieren a aspectos semánticos, sintácticos y léxicos.

El reto o limitación más importante de esta opción es que se requiere una ingente cantidad de reglas que, además, para ser elaboradas, requieren de expertos lingüistas.

En este sentido, aparecen desafíos importantes cuando los idiomas a traducir presentan un alfabeto diferente del latino o presentan sistemas sintácticos o verbales complejos.

La segunda opción para la traducción automática se refiere a la traducción automática estadística (SMT, por sus siglas en inglés). Se trata de una opción eficiente y que sigue presentando una gran proyección en la actualidad.

En este caso, se basa en grandes cantidades de datos a partir de los cuales el sistema es capaz de aprender y generar traducciones. Para ello, se requiere de un entrenamiento especializado.

En los trabajos SMT los lingüistas humanos se limitan a supervisar el trabajo de las máquinas. No obstante, aquí el principal reto tiene que ver con el acceso a datos de calidad: si bien existen idiomas donde el material traducido es abundante (inglés, español, francés, alemán…), los idiomas minoritarios están más limitados, pues no existen tantas traducciones o las traducciones que existen no son de gran calidad.

Esta limitación se corresponde, a su vez, con la demanda real de traducciones. Las combinaciones más comunes incluyen inglés y español, español y alemán, español y francés, e italiano y español, por citar algunas. No obstante, salir de los idiomas mayoritarios implica un mayor esfuerzo, no solo a nivel de recabar datos, sino también en el tiempo necesario para realizar estas traducciones.

Lenguajes minoritarios

Para que la traducción automática estadística sea aplicable, se requiere que el idioma presente suficientes datos para alimentar a los algoritmos. Idiomas como el inglés y el español no representan ningún tipo de reto, pues aparecen modelos de lenguaje de 50 millones de segmentos, o más.

No obstante, como se ha mencionado, lenguas minoritarias (por ejemplo, birmano o gujarati) presentan, normalmente, una menor disponibilidad de datos bilingües. Esta limitación restringe la capacidad del motor de traducción automática y produce una calidad de salida de la traducción más baja.

Contenido relacionado: Cómo entrenar tu motor de traducción

Cómo entrenar a una máquina para traducir lenguas minoritarias

La escasez de datos bilingües (la materia prima de cualquier proceso de traducción) obliga a la aplicación de técnicas especiales en el caso de las lenguas minoritarias. Entre ellas, destaca la aplicación de técnicas de traducción automática neuronal.

Traducción automática neuronal

La traducción neuronal utiliza redes neuronales entrenadas a través del aprendizaje automático como algoritmo de traducción. Así, se trata de la aplicación de técnicas estadísticas refinadas que permiten la definición de un modelo de traducción con millones de parámetros que, en definitiva, convierte el texto original en texto traducido.

Esta forma de Inteligencia Artificial imita el modo en que funciona el pensamiento en el cerebro humano. Así, se trata de lograr que las máquinas aprendan el significado de las palabras, más allá de memorizar palabras o frases. Este tipo de traducción automática abre la puerta a manejar datos y modelos de lenguaje más complejos.

Hoy en día este tipo de sistemas se entrenan a partir de millones de páginas de texto. El objetivo futuro será reducir la cantidad de datos que necesitan para este entrenamiento.

Así, a día de hoy, en las lenguas minoritarias, o mejor dicho, con escasos recursos disponibles, la traducción neuronal funciona de la misma manera que con otras lenguas, aunque el modelo utilizado debe ser entrenado (creado) con técnicas especiales.

Entre estas técnicas destacan:

Generación de datos bilingües sintéticos, es decir, datos bilingües específicamente creados para mejorar el proceso de machine translation. Este enfoque ha probado ser efectivo en traducciones del coreano al inglés, según un estudio de Guanghao Xu, Youngjoong Ko y Jungyun Seo, de la universidad de Seúl.
Incrementación de la cantidad de datos proporcionada al motor de traducción automática, generando datos a través de lingüistas nativos de cada idioma.
Uso de datos monolingües

A pesar de no tener grandes cantidades de textos traducidos, o, como también se conoce, datos paralelos, los motores de traducción automática son capaces de aprender las relaciones entre idiomas y generar traducciones con calidad.

En cualquier caso, los sistemas de traducción automática neuronales también se enfrentan a una serie de retos para los próximos años, incluyendo el logro de una mayor precisión o un aprendizaje más rápido.

Por ello, y aunque a día de hoy los sistemas traducción automática neuronal son indispensables en el sector de la traducción automática, siguen requiriendo de intervención humana, mediación que en muchos casos es crítica.

Cómo funciona la plataforma ECO de Pangeanic

ECO es la plataforma para servicios lingüísticos de Pangeanic que proporciona un servicio de traducción automática o híbrida.

Además de un software preciso y con las últimas tecnologías disponibles, en Pangeanic contamos con un equipo de profesionales lingüistas nativos encargados tanto de entrenar a las máquinas como de revisar los resultados automáticos antes de entregarlos al cliente.

Uniendo el trabajo y conocimientos de nuestro equipo humano a la tecnología punta en inteligencia artificial, somos capaces de adaptarnos a las peticiones de nuestros clientes, más allá de sí una lengua presenta un uso minoritario o una mayor dificultad de traducción.

ECO funciona en la nube y es accesible para cualquier usuario con un navegador y acceso a Internet. Orientado a un funcionamiento intuitivo, el usuario puede así procesar textos directamente o utilizar ficheros con formato.

Nuestros recursos elásticos nos permiten traducir automáticamente cientos de millones de palabras en un tiempo récord (miles de páginas por hora), anonimizar contenido, resumir, extraer conocimiento y datos clave y convertir datos no estructurados en contenido estructurado.

Además, se trata de un servicio apto para ecommerce, comunicaciones internacionales de ámbito judicial y otras soluciones de traducción específicas.