Pruebe nuestro LLM Masker
Pruebe nuestro LLM Masker
Featured Image

2 minutos de lectura

14/06/2023

EAMT 2023: Pangeanic y su innovador enfoque para la traducción de textos anonimizados

Hemos asistido al evento European Association for Machine Translation (EAMT) 2023, donde como empresa líder en soluciones de inteligencia artificial y procesamiento del lenguaje natural, nuestro CTO Konstantinos Chatzitheodorou ha presentado un paper que ha realizado junto a MªÁngeles García, Responsable de ML y Carmen Grau ingeniera de ML. En su presentación, introduce un flujo de trabajo que combina la traducción automática y la edición humana para lograr la traducción precisa de textos anonimizados. Nuestro objetivo principal con este enfoque es conciliar las necesidades contradictorias de privacidad de datos y calidad de traducción.

 

Presentación Pangeanic en EAMT

 

Nos enfrentamos a diversos desafíos al traducir textos anonimizados. La anonimización puede llevar a la falta de contexto, la pérdida de información útil relacionada con referencias culturales o históricas, el uso de lenguaje no estándar o jerga, y estructuras gramaticales y sintácticas complejas en ciertos idiomas. Además, las diferencias culturales entre los idiomas de origen y destino también pueden dar lugar a inexactitudes en la traducción. 

Nuestro flujo de trabajo combina la traducción automática y la edición humana para lograr traducciones precisas mientras protegemos la información sensible. Los pasos clave incluyen la seudonimización, donde reemplazamos los datos sensibles en el texto original por información alternativa que mantiene el contexto necesario. A continuación, aplicamos la traducción automática al texto seudonimizado para generar una traducción preliminar, la cual es revisada y corregida por traductores profesionales en la etapa de edición humana. Finalmente, reemplazamos las entidades seudonimizadas en el texto editado por sus versiones originales provenientes del texto traducido originalmente. 

Nuestro flujo de trabajo es flexible y puede adaptarse a diversos marcos de traducción automática, y su arquitectura incluye componentes de alineación e integración con herramientas de traducción asistida por computadora. Además, hemos demostrado que este enfoque mejora la calidad de traducción y reduce la carga de trabajo de los editores humanos. Su combinación de la experiencia humana y la traducción automática resulta especialmente valiosa en sectores sensibles como la salud, la banca y el ámbito legal. 

La efectividad de nuestro flujo de trabajo fue evaluada mediante medidas subjetivas y objetivas. En el estudio subjetivo, 14 participantes evaluaron diferentes opciones de seudonimización, y encontramos que el texto seudonimizado y la codificación mediante etiquetas fueron considerados las opciones más apropiadas. Sin embargo, identificamos ciertos problemas que requieren procesos posteriores automatizados para abordarlos. En la evaluación objetiva, los participantes evaluaron diferentes alternativas de post-edición del texto original con reemplazos de entidades traducidas por máquinas. El texto seudonimizado recibió calificaciones más altas en comparación con los códigos numéricos o las sustituciones mediante etiquetas, ya que las entidades seudonimizadas preservaron mejor el significado y las características del texto original. 

Para validar la calidad de la traducción, cinco traductores profesionales realizaron la post-edición de las versiones seudonimizadas al español y al alemán, con el posterior reemplazo de entidades. Los resultados indicaron que la seudonimización produjo traducciones correctas y precisas, preservando el significado original, mientras que otras opciones de anonimización a veces introdujeron problemas de concordancia o resultaron engañosas. 

Si bien nuestro flujo de trabajo mejora la calidad de traducción y reduce la carga de trabajo de los editores humanos, también presenta algunos riesgos potenciales, como inexactitudes en la traducción automática y errores en el proceso automatizado de alineación. Estos hallazgos brindan conocimientos valiosos para mejorar y perfeccionar nuestra metodología en futuras investigaciones. 

La presentación de Pangeanic en el EAMT 2023 destaca nuestro compromiso con la innovación en la traducción automática y nuestra capacidad para abordar los desafíos de privacidad de datos y calidad de traducción en los procesos de traducción de textos anonimizados. Este enfoque prometedor ofrece una solución para las organizaciones que buscan lograr tanto la privacidad de datos como la calidad en sus procesos de traducción. 

 

Pangeanic Sponsor EAMT

 

En nombre de Pangeanic, estamos encantados de haber tenido la oportunidad de participar como silver sponsor en el prestigioso evento EAMT 2023. Ha sido una experiencia extraordinaria formar parte de este encuentro de la industria de la traducción automática, donde hemos podido compartir nuestro conocimiento y colaborar con profesionales y expertos del campo.

El evento nos ha brindado una plataforma invaluable para presentar nuestras soluciones innovadoras y establecer conexiones significativas con líderes y empresas en el ámbito de la traducción automática. Nos sentimos honrados de haber contribuido al éxito de este evento y esperamos seguir colaborando en futuras ocasiones para impulsar el crecimiento y avance de esta industria en constante evolución.