Consorcio de Pangeanic gana contrato europeo de anonimización

INEA ha concedido al consorcio dirigido por Pangeanic casi un millón de euros para desarrollar un kit de herramientas de anonimización multilingüe basado en el procesamiento inteligente de textos médico-sanitarios, de ciencias de la vida y jurídicos para las administraciones públicas europeas. El proyecto MAPA (Multilingual Anonymisation toolkit for Public Administrations) utilizará herramientas de procesamiento de lenguaje natural de última generación para desarrollar un kit de herramientas de código abierto centrado en los ámbitos médico y jurídico, implantándolo en varias administraciones públicas de la Unión Europea.

"El objetivo de MAPA es proporcionar un servicio privado de anonimización de datos para que estos se puedan compartir entre organizaciones, al tiempo que se protegen datos privados o confidenciales. Los casos de implementación se centrarán en la desidentificación, la ofuscación o el pseudoanonimato de la información que identifica a las personas para demostrar que no importa a qué idioma se enfrente la Administración Pública u otros usuarios, existe una solución gracias a la inteligencia artificial. MAPA permitirá que las AA.PP. cumplan con la RGPD con un alto grado de precisión y que protejan los datos privados de una persona mientras mantienen la utilidad del Big Data." - Manuel Herranz, CEO

[caption id="attachment_5172" align="aligncenter" width="886"]

Parte del equipo de desarrollo de Pangeanic en PangeaMT (instalaciones de la aceleradora Innsomnia en Valencia)[/caption]

El toolkit que desarrollará el consorcio MAPA (Pangeanic, Tilde, el Centro Nacional Francés para la Investigación Científica (LIMSI en CNRS), el instituto de recursos lingüísticos ELDA, la Universidad de Malta, el centro de I+D vasco Vicomtech, y la Secretaría de Estado de Digitalización e Inteligencia Artificial, Telecomunicaciones e Infraestructuras Digitales) tratará todas las lenguas oficiales de la UE. Para resolver el reto de la anonimización en idiomas de bajos recursos lingüísticos como el letón, lituano, estonio, esloveno o croata se emplearán técnicas NERC, del cual se beneficiarán también idiomas con recursos escasísimos como el maltés o el irlandés. "Lo que aprendan las redes neuronales de idiomas con muchos recursos como el inglés, francés, español o alemán puede transferirse a idiomas con menos recursos para que todas las AA.PP. puedan beneficiarse del toolkit de anonimización", declaró Manuel Herranz.

¿Por qué anonimizar datos?

El reglamemento RGPD obliga a las oeganizaciones a proteger los datos de los ciudadanos y que no sean utilizados por terceras partes (consulte este vídeo sobre las tecnologías de anonimización de Pangeanic). El conjunto de herramientas de anonimización de datos de MAPA proporcionará los medios para compartir datos e información y proteger al mismo tiempo los datos personales o sensibles que estos contengan. El hecho de poder liberar grandes cantidades de datos anonimizados puede ayudar a la comunidad investigadora, PYMES e industria a disponer de más material de entrenamiento. En un nivel más práctico, los departamentos, agencias y Ministerios de Justicia, las autoridades sanitarias y las empresas de atención a la salud podrán proporcionar acceso a los datos y gestionar una estrategia de anonimización. Lo más importante es que el MAPA satisfará los requisitos de la RGPD a escala. Aunque ningún software puede garantizar el 100% de precisión en la anonimización, al igual que no existe (todavía) una traducción automática perfecta, hará que el intercambio de documentos sea mucho más fácil.

Enfoques técnicos de anonimización

El corazón del proyecto contendrá un conjunto de herramientas de anonimización sobre las que MAPA construirá técnicas de Reconocimiento y Clasificación de Entidades Nombradas (NERC) utilizando tanto técnicas de aprendizaje profundo como redes neuronales. Además, gracias a las capacidades de transferencia de aprendizaje que muestran los nuevos tipos de modelos de aprendizaje profundo, se pueden entrenar nuevos sistemas utilizando conjuntos de datos relativamente pequeños con datos etiquetados manualmente. Los conocimientos adquiridos para un determinado dominio o idioma pueden transferirse y reutilizarse en otros idiomas o dominios. MAPA podrá detectar entidades que transmitan información sensible y eliminarla. MAPA tendrá muchas características y el enfoque NERC se complementará con otros mecanismos configurables, como la detección de patrones basados en expresiones regulares (números de pasaporte o DNI, números de teléfono, direcciones, grupos sanguíneos, edad, sexo, estado civil, direcciones de correo electrónico, cuentas bancarias, etc.). El proyecto incluirá diccionarios definibles por el usuario para aplicaciones concretas.

Casos de uso

MAPA incluye varias implementaciones/casos de uso específicos para instituciones públicas en diversos países de la UE: uno para el ámbito de la salud y otro para el dominio jurídico. Ambos dominios fueron seleccionados dados sus fuertes requisitos de anonimización antes de cualquier publicación y uso compartido de los datos que generan. En cada implementación, el sistema se adaptará a las necesidades específicas de la institución pertinente.

MAPA-Project.eu recibe financiación del programa Conectar Europa (CEF), con el número de Acuerdo A2019/1927065, y se ejecutará desde enero de 2020 hasta diciembre de 2021.