7 minutos de lectura
01/06/2024
“El lenguaje ya no es humano” - Expandiendo el artículo de la revista Multilingual
La revista Multilingual ha publicado recientemente un artículo que escribí a finales del año pasado. "El idioma ya no es humano" ("Language is no longer human") es tanto una afirmación como una exploración que invita a la reflexión sobre lo que considero un punto de inflexión para la industria de la traducción hacia su transformación en una verdadera "industria del lenguaje".
La Real Academia Española de la Lengua define la palabra industria como "Conjunto de operaciones materiales ejecutadas para la obtención, transformación o transporte de uno o varios productos naturales". Eso es precisamente lo que la industria de la traducción/localización nunca ha hecho. En comparación con términos comúnmente utilizados como "la industria de la automoción", "la industria farmacéutica" u otros como los medios, el marketing, la radiodifusión, el procesamiento de alimentos o los videojuegos, la industria del lenguaje no se considera "una industria" y a menudo se clasifica como "servicios". Ciertamente, no fabrica nada. Podríamos decir que procesa versiones en idiomas y crea corpus paralelos como resultado. Y eso sería más o menos todo.
"El lenguaje ya no es humano" discute cómo nuestra comprensión tradicional del lenguaje como una característica única de los seres humanos, de naturaleza semidivina, vinculado a la razón y al conocimiento, ha distorsionado la forma en que la industria de traducción, una "industria" de $65 mil millones ha sido concebida tradicionalmente. Las grandes empresas de traducción comenzaron a aplicar economías de escala y tecnología desde la aparición de los servidores de traducción asistida por computadora, la traducción automática estadística, dando un paso adelante con la traducción automática neuronal que permitió la traducción automática adaptativa y ahora el GenAI aplicado a los procesos de traducción (con la edición automática posterior entrando en escena en 2024).
Aplicar GenAI de calidad humana al finalizar una primera traducción automática nos convertirá en una verdadera industria con procesos industriales estándar similares a la fabricación.
La Inteligencia Artificial convertirá a la industria del lenguaje en una verdadera "industria"
Curiosamente, el concepto de "industria", tal como lo define la RAE, no se ha aplicado a la mayoría de las 14.000 empresas de traducción que existen en el mundo. El hecho de que esta industria esté tan fragmentada es una prueba de la mentalidad artesanal que prevalece en ella, y también en los compradores de traducciones y muchos traductores. Seamos sinceros: la traducción automática era una palabra sucia hasta hace poco, y a los humanos no les ha ido muy bien con los idiomas más allá de cierta edad, como discute el artículo. Nuestros cerebros no están cableados para traducir y dominar varios idiomas. Algunas personas pueden hacerlo, pero a pesar del gran número de personas bilingües en el mundo, conversar fluidamente en más de 3 idiomas no es común.
Si entendemos el término industria como "Conjunto de operaciones materiales ejecutadas para la obtención, transformación o transporte de uno o varios productos naturales", entonces las palabras son tanto nuestras materias primas como nuestros productos fabricados. Las empresas de idiomas (las empresas de traducción) son fábricas. Las palabras son producidas por humanos como materias primas. Por lo general, se procesan más a fondo por otros humanos, utilizando herramientas TAO (traducción asistida por ordenador) o software de QA/QC, y se ofrecen como un producto final.
La innovación generalmente ha llegado en forma de conectores a sistemas CMS para recopilar contenido de la web, complementos o sistemas de traducción automática, como medios para mejorar la productividad de los traductores. Y en 2024, esto no es suficiente.
Celebrar el hecho de que la traducción automática es parte de la IA y que la traducción automática adaptativa demuestra de alguna manera qye somos "parte de la IA" es un análisis bastante superficial. Es cierto que en muchos nuevos desarrollos de LLMs y la IA en general han partiicpado personas como Ilya Sutskever (ex-OpenAI) o Adrian Gomez (Cohere) que en su día formaron parte del equipo de Google Translate en algún momento. Curiosamente, una patente sobre la traducción automática neuronal fue rechazada por la Oficina Europea de Patentes en 2023. En cuanto a la innovación, una industria de traducción de 50-65 mil millones de dólares no tiene nada que celebrar, excepto el hecho de que las empresas de tecnología lingüística han estado utilizando Transformers desde 2017. La industria, en general, ha sido extremadamente lenta en adoptar tecnologías que generalmente se han desarrollado fuera de ella. La mayoría de las empresas de traducción profesionales están esperando decidir dónde y cómo apuestan su dinero, indecisas sobre la NMT, viendo la traducción automática adaptativa como una solución intermedia, insistiendo todavía en que los LLMs "no están listos para la producción" o "son demasiado caros".
En esta ocasión, el furor sobre la IA es diferente
Esta vez es diferente porque, por primera vez en la historia, los humanos estamos teniendo experiencias cognitivas con máquinas. Paso la mayor parte de mi tiempo evangelizando a los clientes sobre esta cuestión: durante los últimos años, hemos tenido algunas experiencias con gafas de realidad virtual. Sabíamos que las imágenes no eran reales, sabíamos que eran avatares de cosas que no existen, pero no podíamos evitar quedar asombrados de lo realista que se ve un juego, de lo real que se ve una ciudad medieval... algunas personas incluso gritan o se caen de sus sillas mientras viven una experiencia deslizándose por una montaña rusa. Nuestra actividad cerebral más básica no puede distinguir lo real de lo irreal. Si vemos algo, está sucediendo. Los humanos han estado tratando de interpretar los sueños durante milenios, a veces pensando que si algo se soñaba, sucedería, que había una razón por la cual el sueño había sucedido. Nuestro cerebro de mamífero más avanzado puede razonar "esto no es real" o "esto ha sido escrito/traducido por una máquina" en un segundo o tercer pensamiento. Pero la verdad es que no somos muy buenos para detectar lo que es real y lo que no, y se está volviendo cada vez más difícil hacerlo.
Desde finales de 2022, las máquinas producen lenguaje de nivel humano
En realidad, las máquinas han estado produciendo lenguaje de nivel humano durante un tiempo. Las traducciones de sistemas de traducción automática (MT) han sido muy, muy buenas durante algún tiempo, y algunas ediciones de MT pos-traducción han formado parte de las ofertas de muchas empresas de traducción durante un tiempo considerable. Figuras conocidas como Christian Federmann de Microsoft o Kirti Vashee de Translated argumentan que la NMT es una solución extremadamente buena y de última generación. Y estoy de acuerdo con ambos porque para la industria del lenguaje en su estado actual, la NMT es suficiente en un gran número de casos. Hablé de esto en mi publicación anterior Traducción automática neuronal versus traducción con LLM basada en prompting: ¿cómo de cerca estamos?
Pero esta vez es diferente. El objetivo es diseñar un proceso con el menor número de humanos posible.
Los Grandes Modelos de Lenguaje (LLMs) son solo una parte del rompecabezas de la Inteligencia Artificial General (AGI), y forman parte de los sistemas de Inteligencia Artificial Generativa (GenAI). Sin embargo, han tenido un impacto profundo en nuestra comprensión tradicional del lenguaje como un atributo exclusivamente humano. Con la capacidad de generar, interpretar y procesar el lenguaje, los sistemas de IA, especialmente a través de los LLMs, han comenzado a realizar tareas que antes se consideraban el dominio exclusivo de los humanos, como la traducción, la creación de contenido y las interacciones conversacionales. Este cambio no solo redefine nuestra relación con el lenguaje, sino que también tiene implicaciones profundas para diversas industrias y profesiones. Esto marca el inicio de una nueva era de automatización y comunicación impulsada por la IA, incluidos, por supuesto, los servicios de traducción con IA donde los humanos ya no estarán en el circuito, sino que se convertirán en controladores de calidad, trabajando en la adaptación cultural, agregando conocimiento mundial. Se convierten en correctores de pruebas. La ISO 17100 (revisada en 2020) y la ISO 18587 (servicios de posedición de traducción automática, de 2017) son ya completamente obsoletas.
Una carrera en la industria y en el lenguaje
Antes de incorporarme a la industria del lenguaje, desde mediados de los 90 hasta principios de los 2000, pasé bastantes años como ingeniero de puesta en marcha trabajando en la industria del automóvil y de grandes motores (aeronáuticos y marinos para cogeneración). También me apasionaban las lenguas y la literatura, la semántica, la evolución histórica de las familias lingüísticas, ¡e incluso la interlingua! Disfrutaba utilizando mis conocimientos lingüísticos, ayudando a los fabricantes a abrir nuevas plantas de producción de motores de combustión o instalando motores aeronáuticos y submarinos RB-211 para producir 27 MW de electricidad y cambiar la vida de la gente con un acceso más estable a la electricidad.
A menudo me convocaban a reuniones que iban más allá de mis conocimientos y de la edad que tenía entonces, simplemente porque hablaba idiomas. Encontré un hilo común en muchas de estas reuniones: los usuarios no podían entender las instrucciones de los manuales de estas grandes máquinas, la interfaz de usuario no tenía sentido, etc.
No podía entender el escaso control de calidad, la falta de automatización de los procesos o la generación de contenidos traducidos de alta calidad. Mi trabajo consistía en gestionar la puesta en marcha de máquinas que creaban otras máquinas (coches) con un control de calidad sobre las entradas y los productos finales. Sin duda, se podía hacer algo. Mi ilusión era disponer de la tecnología que automatizase procesos lingüísticos y el control de calidad. «Los coches tienen unas 8.000 piezas y cada una se fabrica, se realiza el control de calidad y se monta el coche. Tiene que haber una forma de automatizar la producción lingüística a escala», solía pensar.
El idioma como proceso industrial
A partir de perspectivas históricas, tecnológicas y sociológicas, mi artículo argumenta que la capacidad de la IA de comunicarse en idiomas humanos desafía la noción de que el lenguaje es un rasgo exclusivo de la inteligencia humana.
Este punto se ilustra destacando las ventajas inherentes de la IA a la hora de superar barreras lingüísticas a gran escala y en muchas combinaciones de idiomas, y de comunicar sutilezas (al menos en idiomas que cuentan con muchos recursos). La tecnología cuenta ahora con el potencial de democratizar la producción y el acceso a la información lingüística.
¿Adónde vamos a partir de aquí?
"El lenguaje ya no es humano" aborda las limitaciones y desafíos a los que se enfrentan los humanos a la hora de dominar nuevos idiomas. Esto se ilustra con la historia de Henry Kissinger, quien mantuvo su nativo acento alemán durante toda la vida, mientras que su hermano adoptó un inconfundible acento estadounidense.
Estoy señalando las ventajas de la IA para superar tales limitaciones, al mismo tiempo que quiero plantear preguntas críticas sobre la esencia de nuestra unicidad como seres humanoa. Sugiero que el razonamiento, la creatividad y la inteligencia emocional seguirán diferenciando a los humanos de las máquinas y otros mamíferos, lo que nos permitirá enfrentarnos a complejos retos sociales, éticos y creativos en formas que la Inteligencia Artificial, al menos por ahora, no puede replicar. Sin embargo, la producción de contenido lingüístico que requiera poco o ningún conocimiento mundial o adaptación cultural está a punto a convertirse en un proceso industrial con control de calidad por lotes por parte de humanos. Y todos quienes trabajamos en traducción automática sabemos que este será el caso muy pronto, cuando LLMs adaptados revisen inputs iniciales de traducción automática.
Creo en el potencial de la IA para igualar y, en algunos casos, superar las habilidades humanas en lenguaje y comunicación. Como CEO, trabajo todos los días para estimular el pensamiento crítico y validar mi visión con un proceso en el que las máquinas traducirán, editarán automáticamente y proporcionarán una estimación de calidad del contenido producido (en su mayor parte a nivel humano).