Le japonais, l’espagnol et le français sont-elles des langues pour l’intelligence artificielle ?

INTELLIGENCE ARTIFICIELLE EXPERT

En 2021, l’anglais sera sans doute la principale langue utilisée dans l’IA. Cependant, l’application de l’intelligence artificielle s’utilise dans de nombreux scénarios et pays, et dans différentes langues. La création et l’entraînement d’algorithmes avec des données dans d’autres langues, comme l’espagnol, ouvrirait la porte à un marché mondial de 580 millions d’hispanophones, par exemple. La langue française ajouterait environ 350 millions et le japonais 140 millions. L’espagnol représente un peu plus de 27 % du marché mondial des technologies de traitement du langage naturel. Les technologies TALN basées sur les langues française et japonaise représentent environ 5 % chacune. Le japonais, l’espagnol, le français peuvent-elles toujours aspirer à être des langues cibles pour l’intelligence artificielle ?

Siri, Cortana, Alexa et l’assistant Google parlent espagnol, français et japonais, entre autres. Mais, l’anglais est leur langue maternelle. « Les machines ont du mal à comprendre les accents des différentes régions d’Espagne et les variétés d’espagnol sur le continent américain ; elles travaillent mieux en anglais car c’est la langue de la plupart des essais, des recherches et des publications scientifiques. Le même phénomène se passe avec les accents français et régionaux du Canada et de l’Afrique. Le japonais, bien qu’il soit assez homogène, manque de données », explique Mercedes Garcia , responsable scientifique chez PangeaMT et spécialiste en intelligence artificielle (IA) et technologies linguistiques adaptatives.

Selon elle, répondre à des questions qui impliquent une subjectivité et une connaissance préalables du contexte est l’un des principaux obstacles de la démarche. L’IA vise à faire une traduction automatique et à interpréter les données humaines. Le défi existe également lorsqu’il s’agit de reconnaître et d’imiter des voix humaines. « Une réponse intelligente ne s’apprend pas avec des cours de grammaire. Il faut aussi savoir quels mots et expressions sont appropriés dans certains contextes et registres », affirme-t-elle.

Cependant, si on donne aux algorithmes beaucoup d’informations et de casuistique avec de vastes paquets de questions d’interaction humaine et leurs réponses probables, ils auront des informations pour au moins reproduire des situations similaires, même s’ils ne sont pas capables d’émuler un contexte à un niveau émotionnel. « La qualité de l’IA s’améliore à mesure que les informations contextuelles sont complétées par davantage de données d’entraînement, mais pour cela, nous avons besoin d’une énorme quantité de données dans le domaine ciblé, surtout s’il existe différents registres, dialectes, variétés linguistiques ou jargons professionnels », fait remarquer Manuel Herranz, PDG et fondateur. « Nous avons créé des systèmes adaptatifs qui apprennent rapidement à imiter le style et les préférences d’un utilisateur lors de la traduction, par exemple. »

Manuel Herranz rappelle qu’après l’anglais, la langue principale de l’IA est le chinois, en raison de « sa capacité à pénétrer les données quotidiennes des utilisateurs par le biais de l’utilisation d’applications, l’engagement du gouvernement en faveur du développement de cette technologie et l’impact sur des millions de personnes. Toutefois, un grand nombre des “techniques d’exploration de données gratuites” utilisées par certaines entreprises américaines et chinoises sont tout simplement illégales dans l’UE et au Japon ».

Le français, l’espagnol et le japonais sont-elles des langues appropriées pour l’intelligence artificielle ?

Qu’en est-il de l’espagnol, deuxième langue maternelle du monde selon son nombre de locuteurs ? Et le français, très répandu dans l’UE et dans de nombreux pays d’Afrique et, bien sûr, au Canada ? Et le japonais, connu pour ses innovations et son amour de la robotique ? « Les ensembles de données dans ces langues qui peuvent être utilisés pour entraîner l’IA sont encore peu nombreux par rapport à l’anglais », ajoute Manuel Herranz.

Par conséquent, il n’est pas étrange que, selon les chiffres des experts, l’espagnol ne représente qu’environ 27 % du marché mondial des technologies TALN (traitement automatique du langage naturel). Selon le cabinet de conseils Credence Research, ce marché devrait connaître un taux de croissance annuel proche de 12 % entre 2018 et 2026, date à laquelle il devrait atteindre 28,6 milliards $.

Manuel Herranz est convaincu que la fertilisation croisée entre le traitement du langage et l’industrie de l’intelligence artificielle peut devenir l’un des plus grands « catalyseurs » de la concurrence entre l’Europe et le Japon dans le domaine de l’intelligence artificielle, car les entreprises de tous les secteurs disposent de nombreuses informations patrimoniales en espagnol, en français et en japonais avec lesquelles elles peuvent entraîner des machines pour des solutions spécifiques, du secteur financier (Fintech) au médical (Medtech), en passant par les assurances, le droit, etc. « D’une part, le défi consiste à trouver, nettoyer, parfaire et utiliser correctement les données. D’autre part, ces données permettent d’améliorer nos propres algorithmes. Et finalement, nous pouvons les commercialiser sur un marché potentiel de 580 millions d’hispanophones, 300 millions de francophones et 140 millions de nippophones. Tout ce que nous développons en espagnol peut être reproduit en français et en japonais. Nous sommes très heureux d’avoir établi des partenariats avec des entreprises japonaises et des projets de l’UE où le français occupe une place importante. »

Collecte de données multilingues pour l’apprentissage automatique

De « grands efforts » sont actuellement déployés pour souligner l’importance de l’espagnol et des technologies linguistiques en général pour l’avenir de l’IA. Le PDG de PangeaMT mentionne le Plan de promotion de l’emploi des technologies linguistiques, une initiative du Secrétaire d’État chargé de la Transition numérique et du nouveau programme de l’Union européenne le projet NTEU, ayant pour objectif de rassembler 15 millions de phrases de qualité pour l’apprentissage automatique dans toutes les langues officielles de l’UE, à l’exception de l’anglais, afin de créer des moteurs de traduction automatique neuronale pour les administrations publiques. « Ce plan illustre l’un des plus grands efforts de l’Espagne pour relier le monde universitaire de la recherche en technologies linguistiques au monde de l’entreprise, qui adopte à une vitesse vertigineuse des solutions linguistiques dans les processus internes et externes pour devenir plus efficace. »

Selon Manuel Herranz, tous les secteurs de l’économie peuvent bénéficier de la mise en œuvre des technologies de traitement automatique du langage naturel, qui construisent un nouveau scénario de relation entre les entreprises, les institutions et leurs communautés d’utilisateurs, et les administrations publiques et les citoyens dans un monde de plus en plus multilingue. D’après lui, les avantages de l’application de l’IA aux technologies de traitement automatique du langage dans des langues autres que l’anglais sont déjà palpables dans les domaines de la santé, de la banque, de l’automobile, de l’assurance, de l’éducation et du tourisme, en fournissant en quelques millisecondes, par le traitement des données vocales, des millions de phrases traduites (et donc des Big Data) pour des applications juridiques, ou en facilitant l’accès à la technologie aux personnes handicapées, personnes âgées et enfants.

« Cependant, nous devons être préparés à ce qui va arriver. Dans les années à venir, nous verrons comment les assistants virtuels et les assistants personnels qui utilisent la voix comme interface modifieront la façon dont nous concevons aujourd’hui la création de marques, la création de relations dans un environnement conversationnel, la génération d’expériences et de contenu ou la vente et le service aux clients », conclut Manuel Herranz.

Chiffres pour l’espagnol : 7,6 % de la population mondiale est hispanophone, soient 580 millions de personnes.

Près de 483 millions de personnes ont l’espagnol comme langue maternelle. C’est la langue officielle de 21 pays. L’espagnol est la deuxième langue maternelle au monde selon son nombre de locuteurs, après le chinois mandarin, et la troisième langue d’après le nombre de locuteurs au niveau mondial, après l’anglais et le chinois. En 2060, les États-Unis seront le deuxième pays hispanophone du monde, après le Mexique. Près d’un Américain sur trois sera hispanique. Environ 22 millions d’étudiants étudient l’espagnol comme langue étrangère.

Source : Instituto Cervantes

Chiffres pour le français : 3,8 % de la population mondiale est francophone, soient 280 millions de personnes.

Quelque 80 millions de personnes ont le français comme langue maternelle, 280 millions le parlent quotidiennement. C’est la langue officielle de 29 pays. Le français est la sixième langue maternelle au monde selon son nombre de locuteurs. En 2050, le nombre de locuteurs natifs utilisant quotidiennement le français atteindra 650 à 700 millions. Environ 120 millions d’étudiants étudient le français comme langue étrangère.

Source : Wikipedia, Babbel, Worldpopulationreview

Chiffres pour le japonais : 1,6 % de la population mondiale est nippophone, soient 126,5 millions de personnes.

126,3 millions de personnes ont le japonais comme langue maternelle, et 121 500 le parlent comme langue étrangère. C’est la langue nationale du Japon et elle a le statut de minorité officielle à Palau (Angaur). Le japonais est la treizième langue la plus parlée au monde. Actuellement, plus de 3,66 millions de personnes étudient le japonais comme langue étrangère dans 137 pays et régions du monde (chiffres de Japan Foundation pour 2015).

Source : Wikipedia