¿Son idiomas extranjeros para la inteligencia artificial el japonés, el francés y el español?

Escrito por Amando Estela | 03/08/21

En 2021, el inglés es sin duda el principal idioma utilizado en la IA. Sin embargo, la aplicación de la inteligencia artificial tiende a tener lugar en muchos escenarios y países, y en diferentes lenguas. Crear y entrenar algoritmos con datos en otros idiomas, como el español, abriría la puerta a un mercado global de 580 millones de hispanohablantes, por ejemplo. El francés agregaría alrededor de 350 millones y el japonés 140 millones. El español representa poco más del 27% del mercado mundial de tecnologías de procesamiento de lenguaje natural. Tecnologías de PNL basadas en francés y japonés alrededor del 5% cada una. Entonces, ¿el japonés, el español y el francés siguen siendo idiomas extranjeros para la Inteligencia Artificial?

Siri, Cortana, Alexa y el asistente de Google hablan español, francés y japonés, entre otros idiomas. Pero el inglés es su lengua materna. “A las máquinas les cuesta entender los acentos de diferentes partes de España y las variedades de español en América, mientras que trabajan mejor en inglés porque ese es el idioma de la mayoría de los ensayos científicos, la investigación y las publicaciones”. El mismo caso sucede con acentos franceses y regionales de Canadá y África. En el caso del japonés, aunque es bastante homogéneo, suele carecer de suficientes datos"  dice Mercedes García, Científica Jefe de PangeaMT y experta en inteligencia artificial (IA) y tecnologías lingüísticas adaptativas.

En su opinión, responder a preguntas que implican subjetividad y conocimiento previo del contexto es una de las principales dificultades de la IA cuando se trata de que una máquina  traduzca e interprete. Ese desafío también existe al reconocer e imitar las voces humanas. “No se aprende una respuesta inteligente con las clases de gramática: también requiere saber qué palabras y expresiones son apropiadas en ciertos contextos y registros”, recalca.

Pero si a los algoritmos se les da mucha información y casuística con enormes paquetes de preguntas que se hacen los humanos entre sí, además de sus respuestas probables, los sistemas de IA tendrán información para al menos reproducir situaciones similares, incluso si no son capaces de emular emocionalmente un contexto. “La calidad de la IA mejora a medida que la información contextual se complementa con más datos de formación, pero para ello necesitamos una enorme cantidad de datos en el dominio concreto, especialmente si hay diferentes registros, dialectos, variedades lingüísticas o jerga profesional”, señala Manuel Herranz, CEO y fundador. “Por ejemplo, en Pangeanic hemos creado sistemas adaptativos que rápidamente aprenden a imitar el estilo y las preferencias de un usuario al traducir”.

Manuel recuerda que, en segundo lugar tras el inglés, el principal idioma de IA es el chino, debido a “su capacidad para penetrar los datos diarios del usuario a través del uso de aplicaciones, el compromiso del gobierno con el desarrollo de esta tecnología y el impacto en millones de personas”. Sin embargo, muchas de las “técnicas gratuitas de minería de datos” que utilizan algunas empresas estadounidenses y chinas son simplemente ilegales en la UE y Japón.

¿Son buenos idiomas para la inteligencia artificial el francés, español y japonés?

Pero, ¿qué pasa con el español, la segunda lengua materna del mundo por número de hablantes? ¿Y el francés, hablado ampliamente en la UE, en muchos países de África y, por supuesto, Canadá? ¿Y el japonés, conocido por sus innovaciones y amor a la robótica? “Los conjuntos de datos en aquellos idiomas que se pueden usar para entrenar IA todavía son pequeños en comparación con el inglés”, indica Manuel Herranz.

Por lo tanto, no es extraño que, según cifras de expertos, el español siga representando alrededor del 27% de las tecnologías de mercado de PNL (Procesamiento del Lenguaje Natural) del mundo, que según la consultora Credence Research crecerá a una tasa anual cercana al 12% entre 2018 y 2026.

Manuel está convencido de que la fertilización cruzada entre el procesamiento del lenguaje y la industria de la IA puede convertirse en uno de los “catalizadores” de la competitividad de Europa y Japón en el campo de la inteligencia artificial, ya que las empresas de todos los sectores tienen mucha información heredada en español, francés y japonés con la que pueden entrenar algoritmos para soluciones específicas, desde el sector de Fintech hasta Medtech, seguros, tecnología legal, etc. “El desafío es encontrar, limpiar, refinar y usar los datos correctamente”. En segundo lugar, estos datos mejoran nuestros propios algoritmos. En tercer lugar, lo comercializamos en un mercado potencial con 580 millones de hispanohablantes,  300 millones de francófonos  y  140 millones de hablantes de japonés. “Lo que desarrollemos en español es altamente replicable en francés y japonés - estamos muy contentos de tener asociaciones con empresas japonesas y proyectos de la UE donde el francés es prominente”.

Recopilación de datos multilingües para el aprendizaje automático

Actualmente se están realizando “grandes esfuerzos” para resaltar la importancia de las tecnologías españolas y lingüísticas en general en el futuro de la IA. El CEO de PangeaMT menciona el Plan de Promoción de las Tecnologías del Lenguaje en España, una iniciativa de la Secretaría de Estado para el Avance Digital y el nuevo proyecto NTEU de la  UE, que recoge 15 millones de sentencias de calidad para el aprendizaje automático en todos los idiomas oficiales de la Unión Europea, aunque en inglés para crear motores de traducción automática neuronal para las Administraciones Públicas. “El Plan es uno de los mayores esfuerzos de España para conectar el mundo universitario de la investigación en tecnologías lingüísticas con el mundo corporativo, que está adoptando soluciones lingüísticas a una velocidad vertiginosa en procesos internos y externos para ser más eficientes”.

 

Según Manuel, todos los sectores de la economía pueden beneficiarse de la implementación de tecnologías de procesamiento del lenguaje, que construyen nuevo escenario de relación entre las empresas, las instituciones y sus comunidades y usuarios, las administraciones públicas y los ciudadanos en un mundo cada vez más multilingüe. En su opinión, los beneficios de aplicar la IA a las tecnologías de procesamiento del lenguaje en idiomas más allá del inglés ya son palpables en salud, banca, automoción, seguros, educación, turismo - proporcionando millones de frases traducidas, reconocimiento de patrones, textos anonimizados o con entidades personales identificadas y, por lo tanto, Big Data, procesando datos de voz en milisegundos para aplicación en el entorno legal, o ayudando a acceder a la tecnología a grupos como personas con capacidades diversas, ancianos y niños.

Pero tenemos que estar preparados para lo que está por venir. En los próximos años veremos cómo los asistentes virtuales y personales que utilizan la voz como interfaz modificarán la forma en que entendemos hasta hoy la construcción de marcas, la creación de relaciones en un entorno conversacional, de generar experiencias y contenidos o de vender y servir a clientes", concluye Manuel.

Cifras españolas 7,6% de la población mundial es de habla hispana: 580 millones de personas

Casi 483 millones de personas tienen el español como lengua materna. Es el idioma oficial de 21 países. El español es
 la segunda l
engua materna en el mundo por número de hablantes, después del chino mandarín y el tercer idioma en un recuento mundial de hablantes después del inglés y el chino. En 2060, Estados Unidos será el segundo país de habla hispana en el mundo, después de México y casi uno de cada tres estadounidenses será hispano. Alrededor de 22 millones de estudiantes estudian español como idioma extranjero.

Fuente: Instituto Cervantes

Cifras francesas: El 3,8% de la población mundial es francófona: 280 millones de personas. 

Unos 80 millones de personas tienen francés como lengua materna, 280 millones lo hablan diariamente. Es el idioma oficial de 29 países. El francés es la sexta lengua materna en el mundo por número de hablantes. En 2050, el número de hablantes nativos que utilizan a diario el francés alcanzará los 650-700 millones. Alrededor de 120 millones de estudiantes estudian francés como lengua extranjera.


 
Fuente: Wikipedia, Babbel, Worldpopulationreview

Cifras japonesas: 3,8% de la población mundial es francófona: 280 millones de
 personas
.

128 millones de personas hablan japonés como lengua materna, 280 millones lo hablan diariamente. Es el idioma nacional de Japón y tiene estatus de minoría oficial en Palau (Angaur). El japonés es el 13º idioma más hablado en el
 mundo. Alrededor de 120 millones de estudiantes estudian francés como idioma extranjero.

Fuente: Wikipedia