Cómo entrenar su motor de traducción automática

Escrito por Mercedes García | 19/10/21

La tecnología de traducción a través de un motor de traducción automática ofrece múltiples ventajas a quienes la aplican, siendo la reducción del tiempo de traducción y la minimización del equipo humano los principales beneficios.

Se calcula que el valor de mercado de los motores de traducción va a crecer a un ritmo anual del 7.1%, pasando de 153.8 millones de dólares americanos en 2020 a 230.67 millones en 2026, según Mordor Intelligence.

Con el avance de las tecnologías relacionadas con el ámbito del aprendizaje automático y el aprendizaje profundo, los resultados obtenidos a través de un motor de traducción automática son cada vez más exactos. Estas tecnologías implican, a su vez, la necesidad de entrenar el motor de traducción automática para lograr el éxito en las traducciones.

Por ello, desgranamos algunas pautas clave para entrenar motores de traducción y lograr calidad en los resultados de traducción.

¿Qué es un motor de traducción automática?

Un motor de traducción automática en un software capaz de traducir textos de un idioma de origen a otro de destino.

La incorporación de Inteligencia Artificial a estas tecnologías ha potenciado su exactitud. De este modo, a día de hoy, son capaces de analizar enormes cantidades de datos y transformarlas en información para generar traducciones exactas, también a nivel semántico y de intención del hablante.

Así, el motor de traducción automática dotado de IA utiliza datos para identificar correlaciones y estructuras, obteniendo información procedente de enormes cantidades de datos que le ayuda a resolver problemas que requerirían la inversión de miles o millones de horas por parte de personas para procesarlos.

Las capacidades de un motor de traducción automática se multiplican, a su vez, al añadirse tecnologías como el aprendizaje automático y el aprendizaje profundo. A través de estas técnicas, los motores de traducción son capaces de aplicar el aprendizaje automático, mejorando de forma continua los resultados que proporcionan. Para potenciar esta calidad de traducción, no obstante, se requiere de un entrenamiento.

Cómo entrenar su motor de traducción automática

La traducción automática comienza a contar con una solución de tecnología de la traducción adecuada, con capacidades de aprendizaje automático y aprendizaje profundo y desarrollada por un equipo de profesionales humanos que la supervisan.

El objetivo del entrenamiento será que el motor proporcione las traducciones más exactas posibles y, a su vez, pueda adaptar el texto resultante a las preferencias de los usuarios (incluyendo la terminología específica, el tono y preferencias estilísticas, por ejemplo).

El entrenamiento de un motor de traducción automática puede resumirse en al menos 4 pasos:

1. Incorporación de los datos base

El ingrediente básico y combustible para entrenar un motor consiste en introducir datos en forma de ejemplos de frases traducidas del idioma origen al idioma destino al que se traducen los textos.

En este punto es esencial que estos datos que se introducen en el sistema de Inteligencia Artificial sean de calidad. Para ello, existe un mercado de datos disponible para realizar el entrenamiento.

Es más, es precisamente la disponibilidad general del software de código abierto como ECO de Pangeanic, junto con el personal experto en PLN (Procesamiento del Lenguaje Natural) lo que ha acelerado la posibilidad de que toda organización cree sus propios procesos de Inteligencia Artificial y Traducción Automática.

Es posible, igualmente, contar con datos más allá de los textos. Por un lado, los datos de imagen y vídeo deberán ser etiquetados para ser incorporados al proceso de entrenamiento. Para ello, se requiere crear una segmentación de datos de anotación y etiquetado compatible.

A su vez, es posible incorporar también datos de voz. Se trata de un proceso específico, ya que los sistemas de reconocimiento automático del habla requieren de grandes cantidades de datos de audio de alta calidad grabados en numerosos contextos y entornos. Así, la tecnología de traducción automática Pangeanic cuenta con los recursos necesarios para proporcionar conjuntos de datos de audio personalizados que se ajusten a requisitos específicos como la edad, el acento, el idioma, el perfil del hablante, el tema y también el ruido de fondo.

2. Limpieza y normalización de los datos

Tras la recopilación de datos brutos, es necesaria una limpieza de datos sucios y normalización. Este proceso incluye, por ejemplo, utilizar siempre las comillas correctas para ambos idiomas. A partir de este punto, es posible alimentar el motor de traducción automática con los datos adecuados.

En el caso de ECO, la limpieza se realiza de forma automática al enviar ficheros a entrenar, y solo requiere que los datos estén en el formato estándar de traducción basado en XML llamado TMX (Translation Memory Exchange), que representa una memoria de traducción.

3. Posibilidad de análisis de sentimiento

Las tecnologías cada vez más avanzadas están permitiendo a los motores de traducción analizar el sentimiento de los textos, es decir, comprender y tener en cuenta en la traducción el verdadero significado de un texto o la intención del hablante. Para ello, se combina el aprendizaje automático y el PLN.

En este sentido, es posible analizar documentos y textos (tomados, por ejemplo, de las redes sociales) para determinar el sentimiento o las opiniones de los usuarios. Éstos se clasifican (positivos, negativos o neutros) y etiquetan para tenerlos en cuenta y mejorar la calidad de los resultados de traducción.

4. Mantenimiento

Los entrenamientos base pueden durar días. En este sentido, existen medidas automáticas, como el criterio de parada, que permiten controlar cuando el modelo lleva un período de etapas sin aprender nada nuevo y permite parar el entrenamiento ahorrando tiempo. Además, en el caso de especializar modelos para un dominio concreto, el entrenamiento se realizará con los datos disponibles, asimismo, dependiendo de cuánto se desee especializar el modelo se aplicará un entrenamiento más agresivo o más conservativo.

Más allá del entrenamiento inicial, lograr los mejores resultados pasa por mantener un proceso de entrenamiento continuo.

Plataformas como ECO, en su nueva versión 2, cuentan con la ventaja de permitir a los usuarios entrenar al motor de forma privada, sencilla e intuitiva, mejorando de forma continua los resultados.

Podría interesarle: Inteligencia Artificial aplicada a la traducción automática en FITUR 2021

Consejos para mejorar la calidad de su traducción automática

1. Cantidad de datos

Para garantizar la calidad en la traducción, es recomendable contar con grandes cantidades de datos. Este es, en parte, uno de los retos para la traducción de los idiomas considerados más minoritarios.

En este sentido, Pangeanic puede ofrecer grandes cantidades de datos ampliables gracias a su enorme repositorio de 10.000 millones de datos alineados. También ofrece soluciones personalizadas, basadas en las personas, para los conjuntos de datos utilizados con el fin de entrenar la IA de tu motor de traducción automática.

2. Calidad en los datos

La cantidad no lo es todo. Para el éxito en el entrenamiento de una tecnología de traducción es necesario conseguir datos de la máxima calidad posible y del dominio deseado usando, además, la terminología correcta.

Por ello, en Pangeanic proporcionamos segmentos limpios y paralelos procedentes de nuestra gran base de datos, y de nuestros servicios de traducción por encargo. Además, todos los datos traducidos pasan por estrictos controles y verificaciones de calidad para asegurar que son limpios y válidos para el correcto entrenamiento de los motores de traducción automática.

3. La importancia del equipo humano

El asesoramiento de los profesionales de Pangeanic permite ajustarse a las necesidades específicas de cada proyecto de traducción. Para ello, contamos con la combinación perfecta de expertos en ciencias de datos, lingüistas, desarrolladores y recursos humanos que permiten obtener datos de calidad y gestionarlos de forma exitosa.

Nuestros más de 20 años de experiencia en servicios lingüísticos, y como desarrolladores de PLN desde 2009, nos permiten evaluar cuidadosamente cada proyecto. Así, creamos un conjunto específico de reglas a través de las cuales nuestros lingüistas profesionales gestionan la recopilación de datos. Además, todos los datos de Pangeanic se pueden ampliar, son precisos y se adaptan a las necesidades particulares de cada cliente.

En este sentido, los datos humanos son la clave del éxito de cualquier proyecto de aprendizaje automático/profundo, ya que garantizan mucho menos ruido que la alineación de traducciones web (scraping) o el crowdsourcing.

Es más, como desarrolladores de sistemas de traducción automática, comprendemos los efectos que pueden tener los datos de mala calidad en cualquier algoritmo y confiamos plenamente en los procesos humanos ampliables combinados con nuestra extensa experiencia en controles de calidad de los servicios de traducción.

¿Quiere saber más sobre la posibilidad de incorporar un motor de traducción automática a sus esfuerzos de traducción? Póngase en contacto con nosotros y hablemos sobre cómo nuestro sistema ECO puede adaptarse a sus necesidades.

Ver post completo