Pruebe ECO LLM Pruebe ECO Translate
Pruebe ECO LLM Pruebe ECO Translate
Featured Image

8 minutos de lectura

13/08/2025

El Laboratorio de Inteligencia Artificial en Tecnologías Lingüísticas… en el Mediterráneo

El Laboratorio de Inteligencia Artificial en Tecnologías Lingüísticas… en el Mediterráneo
18:23

Desde el lanzamiento de ChatGPT 3.5 en diciembre de 2022, el mundo ha quedado cautivado por las impresionantes capacidades de los grandes modelos de lenguaje. Fue la primera vez que los seres humanos experimentaron una verdadera interacción cognitiva con una máquina. Hasta ese momento, nuestras interacciones se limitaban a calculadoras, videojuegos, algunos algoritmos ingeniosos o robots de movimiento lento. En mi primer análisis de 2023, Cómo el nuevo ChatGPT provocará ondas de cambio en el mundo tal como lo conocemos, enumeré una serie de profesiones que, a mi juicio, se verían afectadas. Desde entonces, han surgido muchos más estudios a medida que probamos las posibilidades reales de esta tecnología, así como sus múltiples limitaciones. El temor a la sustitución de empleos ya estaba presente en aquella primera oleada de análisis, y muchos directivos de alto nivel veían a los LLM o a la IA Generativa como herramientas para reducir costes… es decir, personal. Un error.

Las organizaciones entraron en una fase de desconcierto, y el mensaje de la alta dirección fue tan claro como ambiguo: Tenemos que hacer algo con la IA Generativa. Dos años después, con miles de millones invertidos (una buena parte de ellos desperdiciados) y tras múltiples fracasos y decepciones, los mercados y las organizaciones empiezan a reconocer tanto los usos realistas como las limitaciones prácticas de esta tecnología, algo que laboratorios como Pangeanic ya advertíamos: la IA Generativa no es una mala tecnología, pero sin un conocimiento profundo, muchas expectativas resultan poco realistas.

La tecnología transformer es sólida y exitosa. Sin embargo, muchas decisiones e iniciativas “AI-first” se tomaron basándose en aquellas primeras “impresiones cognitivas” derivadas de experiencias personales con un sistema conversacional basado en LLM, asumiendo erróneamente que dicha experiencia individual escalaría sin problemas. Mientras tanto, vendedores de “aceite de serpiente” siguen proclamando capacidades de razonamiento equiparables a las humanas. En realidad, lo que hacemos es utilizar ingentes cantidades de computación, amplias capacidades de recuperación de datos y notables funciones de resumen, con un porcentaje significativo de posibilidades de error.

No ha sido hasta 2025 cuando hemos empezado a comprender el verdadero potencial transformador de un enfoque diferente: los Modelos de Lenguaje Pequeños (Small Language Models o SLM). En Pangeanic, nuestro objetivo es liderar esta transición. Nuestro reciente reconocimiento como “empresa intensiva en I+D” hasta 2028, otorgado por el Ministerio de Ciencia, Innovación y Universidades de España, es prueba de un esfuerzo de investigación y desarrollo en IA que combina vanguardia con realismo.

¿Qué es un Laboratorio de IA y cómo funciona en el ámbito de las tecnologías lingüísticas?

Un Laboratorio de IA en el campo de la tecnología lingüística es un centro de investigación especializado donde equipos interdisciplinarios exploran las fronteras del procesamiento del lenguaje natural y la inteligencia artificial. A diferencia de los departamentos tecnológicos convencionales o de las consultoras de IA que simplemente integran modelos existentes a través de API, un auténtico laboratorio combina investigación fundamental con el desarrollo de aplicaciones prácticas para resolver retos lingüísticos del mundo real.

Su funcionamiento se sustenta en tres pilares esenciales:

  1. Base investigadora sólida: lingüistas, científicos de datos y especialistas en IA colaboran para desarrollar algoritmos y modelos novedosos de comprensión del lenguaje natural, abordando tanto la complejidad computacional como la lingüística.

  2. Entornos de prueba rigurosos: se validan los conceptos teóricos frente a datos lingüísticos reales antes de su implementación, garantizando fiabilidad y rendimiento en entornos de producción.

  3. Alianzas estratégicas: con centros de supercomputación como el Barcelona Supercomputing Center y con instituciones académicas como la Escuela Politécnica de Reconocimiento de Patrones y Tecnología del Lenguaje Humano de Valencia —de donde proceden varios miembros de nuestro equipo—, así como con universidades europeas y actores del sector industrial, para asegurar que la investigación sea científicamente sólida y comercialmente relevante.

Lo que distingue a los laboratorios líderes, como Pangeanic, es su capacidad para cerrar la brecha entre la investigación teórica y la implementación práctica. Mientras muchas organizaciones tratan la IA como una mera funcionalidad añadida a sus productos, nosotros concebimos la tecnología lingüística como un ecosistema complejo que requiere experiencia especializada en lingüística computacional, aprendizaje automático y conocimiento de dominio. Esta visión integral nos permite ir más allá del simple procesamiento superficial del lenguaje para abordar estructuras lingüísticas profundas y contextos culturales específicos.

No solo creamos soluciones de IA: actuamos como socios estratégicos que ayudan a las organizaciones a navegar el complejo panorama de la IA lingüística con expectativas realistas y herramientas diseñadas a medida para resolver retos empresariales concretos.

Innovación impulsada por la investigación: Más allá del ciclo de la moda tecnológica

Nuestro reciente reconocimiento como empresa intensiva en I+D por el Ministerio de Ciencia, Innovación y Universidades de España hasta 2028 refleja un compromiso profundo con el avance del campo, y no simplemente con capitalizar las tendencias actuales. Este distintivo no es meramente ceremonial: representa una evaluación rigurosa de nuestras contribuciones científicas en los últimos años, de nuestra hoja de ruta de innovación y de nuestra voluntad de expandir los límites de la tecnología lingüística.

pyme_innovadora_meic-EN_web

En la práctica, esto significa que nuestro Laboratorio de IA trabaja con un horizonte temporal más amplio que el de la mayoría de empresas de inteligencia artificial. Mientras otras buscan resultados trimestrales integrando la última API disponible en el mercado, nosotros desarrollamos las tecnologías que marcarán la próxima etapa de la IA lingüística; de ahí que el sello ministerial tenga vigencia hasta 2028. Nuestra investigación abarca múltiples áreas, entre ellas técnicas de few-shot learning para lenguas con pocos recursos. Estos métodos de adaptación de dominio permiten especializar rápidamente modelos generales para industrias concretas, así como optimizaciones de eficiencia que hacen posible que la IA lingüística avanzada esté al alcance de organizaciones sin presupuestos masivos de computación en la nube.


Este enfoque investigador también guía nuestro trabajo de consultoría e implementación. Cuando colaboramos con clientes, no nos limitamos a desplegar soluciones existentes; con frecuencia creamos enfoques nuevos adaptados a sus retos específicos. Esto puede implicar el desarrollo de conjuntos de datos de entrenamiento personalizados, la creación de métricas de evaluación inéditas para medir el rendimiento en un dominio concreto, o la arquitectura de sistemas híbridos que combinen  diversas técnicas de IA para obtener el máximo rendimiento. Un ejemplo de ello son nuestros métodos automatizados de evaluación de calidad de traducción (MTQE y LQE) desarrollados para clientes y verticales específicos.

Un legado de innovación: De la traducción estadística a la IA adaptativa profunda

Nuestra trayectoria comenzó en 2005, cuando nuestro CEO, Manuel Herranz, llevó a cabo una adquisición amistosa de la filial europea de la corporación japonesa que representaba desde 1999. Fuimos de las primeras empresas en el mundo en adoptar y personalizar Moses, el sistema pionero de traducción automática estadística de código abierto, creando los primeros motores de traducción capaces de autoentrenarse. (Aún hoy es posible encontrar en línea presentaciones de 2011 en las que nuestro CEO explicaba el concepto de máquinas autoentrenables). Esta adopción temprana de tecnología de vanguardia marcó un patrón que seguimos manteniendo: no seguimos las tendencias, ayudamos a crearlas.

Nuestro papel como Laboratorio de Tecnologías Lingüísticas en IA se ilustra mejor a través de nuestra participación en proyectos europeos pioneros, tales como: 

  • NTEU (Neural Translation for the EU): Lideramos un consorcio junto a KantanMT y Tilde para crear la mayor red de motores de traducción automática neuronal jamás desarrollada: 506 motores de calidad casi humana, que cubren todas las lenguas oficiales de la UE. Este proyecto, con un presupuesto de 2 millones de euros y financiado por Connecting Europe Facility, eliminó la necesidad de utilizar el inglés como lengua intermedia, permitiendo traducciones directas entre cualquier par de lenguas oficiales con una precisión y un respeto cultural sin precedentes.
  • De iADAATPA a MT-Hub: Nuestro consorcio desarrolló la plataforma de traducción automática para las administraciones públicas de la UE, respaldando los esfuerzos de digitalización de los Estados miembros. Durante sus inicios, sirvió como sistema de apoyo a la traducción oficial de la UE, procesando más de 10 millones de palabras en pocos meses, con un alto nivel de seguridad y protección de datos.
  • Plataforma NEC TM Data: Creamos la Plataforma Nacional Europea de Memorias de Traducción, conectando administraciones públicas con proveedores de servicios lingüísticos para optimizar el intercambio de memorias y mejorar los flujos de trabajo de traducción en toda Europa.
  • Proyecto MAPA: Como pioneros en anonimización multilingüe de datos, desarrollamos el primer software mundial de anonimización basado en multilingual BERT, abordando así un reto crítico en la era del RGPD y la protección de datos. Esta solución sigue utilizándose en las instalaciones de la Comisión Europea en Luxemburgo para procesar documentos sensibles.

Estos proyectos fueron mucho más que logros técnicos: constituyeron los cimientos de la infraestructura digital multilingüe de la que Europa depende hoy, y sirvieron como base para iniciativas mayores como Europeana Translate, AI4Culture y el actual Mosaic Media Project, en el que introducimos nuevos flujos de trabajo de IA en cinco radiodifusores europeos. Más aún, posicionaron a Pangeanic más allá del papel de proveedor de servicios lingüísticos, acercándonos a la categoría de centro de I+D capaz de afrontar los retos más complejos en tecnología lingüística.

Colaboraciones con el Barcelona Supercomputing Center y la PRHLT: Avanzando en la ciencia de la IA lingüística

 

Nuestra colaboración con el Barcelona Supercomputing Center (BSC) y la Escuela de Reconocimiento de Patrones y Tecnología del Lenguaje Humano (PRHLT) de la Universidad Politécnica de Valencia representa la vanguardia de nuestras actividades de investigación. Juntos, impulsamos el avance de las tecnologías de PLN e IA con un enfoque en anotación de datos, Reinforcement Learning from Human Feedback (RLHF), detección de sesgos y proyectos de I+D en tecnologías lingüísticas. Nuestro laboratorio de IA colaboró con el BSC en la creación de conjuntos de datos éticos para la primera serie de modelos de lenguaje en catalán, financiada en parte por el Gobierno de España como parte de su iniciativa para proteger y promover las lenguas cooficiales con menos recursos, como el catalán, el euskera y el gallego. Hasta entonces, el catalán se consideraba una lengua infrarrepresentada, cercana a un estatus de “en peligro”. Nuestro compromiso con las lenguas con pocos recursos y la igualdad lingüística también nos ha llevado a participar en varias iniciativas europeas, como ELE, contribuyendo significativamente al avance de la traducción automática en lenguas oficiales y no oficiales de la UE.

Esta colaboración ha sido clave para desarrollar nuestro conocimiento sobre cómo crear modelos de lenguaje grandes (LLM) que sean éticos, robustos y responsables. Desde la detección de sesgos hasta la evaluación y anotación de traducciones, nuestra herramienta PECAT ayudó al BSC a optimizar datos de entrenamiento. Los conjuntos de datos que Pangeanic creó y curó han contribuido a entrenar algunos de los modelos lingüísticos más avanzados de Europa, incluidos los modelos Aina y Salamandra del propio BSC. Estos trabajos alimentan directamente nuestras futuras iniciativas en Modelos de Lenguaje Pequeños (SLM). La PRHLT, por su parte, es un socio habitual en programas de I+D regionales y nacionales, así como una valiosa fuente de incorporación de talento.

Mirando hacia adelante: La próxima década de la tecnología lingüística

De cara a los próximos diez años, varias tendencias tecnológicas y de mercado darán forma a la evolución de la tecnología lingüística, todas ellas alineadas con la dirección estratégica de Pangeanic como laboratorio especializado de IA. Entre las más relevantes, señaladas también en estudios de McKinsey, Gartner y CSA Research, destacan:

  1. Democratización de la IA:  La transición hacia modelos de lenguaje pequeños y específicos para tareas (Task-Specific SLMs), como prevé Gartner, hará posible que organizaciones de todos los tamaños accedan a capacidades avanzadas de tecnología lingüística.  Pangeanic, con cuatro menciones en Hype Cycles y Market Guides, está en una posición óptima para liderar esta evolución. Estos modelos, diseñados para un dominio concreto, ofrecerán un rendimiento superior en infraestructuras estándar —incluso en PCs domésticos o pequeños servidores—, generando ahorro energético y un auténtico sentido de propiedad tecnológica.
  1. Evolución regulatoria: El creciente escrutinio normativo favorecerá soluciones que ofrezcan transparencia, trazabilidad y control local, ámbitos en los que los sistemas especializados, locales o en modalidad SaaS privada, tienen ventajas claras. Nuestra experiencia en industrias reguladas nos posiciona como un socio natural para este cambio.

  2. Preservación cultural: A medida que avanza la globalización, crecerá la importancia de preservar y promover la diversidad lingüística y cultural mediante la tecnología, tanto en África como en Asia y Latinoamérica. Una IA verdaderamente multilingüe debe comprender el contexto cultural, no solo patrones lingüísticos.

  3. Computación en el borde (Edge Computing): La mejora continua de las capacidades de procesamiento local permitirá el despliegue práctico y rentable de IA avanzada en entornos locales, reduciendo la dependencia de la nube y mejorando los tiempos de respuesta.

  4. Especialización sectorial: Los sistemas de IA más valiosos serán aquellos que comprendan los contextos específicos de cada industria, sus requisitos regulatorios y sus procesos de negocio. Las soluciones genéricas dejarán paso a herramientas especializadas, perfectamente integradas en los flujos de trabajo existentes.

La posición de Pangeanic como Laboratorio de Tecnologías Lingüísticas en IA nos sitúa en el centro de todas estas tendencias, con la experiencia, alianzas y capacidades técnicas necesarias para moldear el futuro de la tecnología lingüística empresarial. Como señala nuestro vicepresidente de ingresos, Amando Estela: El futuro de la comunicación es multilingüe y sin fronteras. En Pangeanic, no nos limitamos a traducir textos; facilitamos conexiones culturales profundas en todo el mundo, con una fluidez que antes se creía fuera del alcance de la traducción automática.

Por qué elegir a Pangeanic como su socio en IA para tecnologías lingüísticas

 

Cuando las organizaciones piensan en IA y tecnología lingüística, a menudo se centran en especificaciones técnicas —como el número de parámetros del modelo, el tamaño de los datos de entrenamiento o la velocidad de procesamiento—. Sin embargo, el verdadero valor radica en la experiencia detrás de la tecnología y en un historial probado de innovación. Las múltiples distinciones de Pangeanic por parte de Gartner subrayan nuestro liderazgo en todo el ecosistema de IA lingüística: desde aparecer en el Hype Cycle for Language Technologies (2023) y en el  Hype Cycle for Natural Language Technologies (2024), hasta ser nombrados  Representative Vendor en el Market Guide for Data Masking and Synthetic Data (2024), y más recientemente ser reconocidos en el informe  Emerging Tech: Conversational AI Differentiation in the Era of Generative AI (2025). Estos reconocimientos abarcan desde nuestro trabajo pionero en traducción automática neuronal, hasta enfoques innovadores en privacidad de datos, generación de datos sintéticos y optimización de modelos lingüísticos para IA conversacional.

How will you create a healthy differentiated business if everyone is using the same source models Pangeanic recognized in Gartners Emerging Tech Report on Conversational AI

Pangeanic está reconocida y plenamente alineada con las tendencias que impulsarán las soluciones tecnológicas en la próxima década.

Este respaldo de una de las organizaciones de análisis más respetadas del sector refuerza lo que nos distingue en un mercado competitivo. El último informe de Gartner destaca específicamente el enfoque innovador de Pangeanic para “mejorar la precisión y fiabilidad de las soluciones habilitadas por IA Generativa” mediante técnicas avanzadas de optimización de modelos. Nuestra plataforma ECO ejemplifica los factores diferenciales que Gartner identifica como claves para el liderazgo: modelos lingüísticos optimizados, sistemas avanzados de Retrieval-Augmented Generation y capacidades multimodales completas que soportan más de 200 lenguas.

¿Listo para hablar?