2021年現在、英語は間違いなく AI で最も多く使われる言語です。一方、AI は、多くの国、様々なシーンにおいて異なる言語で利用される傾行がますます強くなっています。スペイン語などの他の言語のデータを使ってアルゴリズムを生成・学習させると、例えば、スペイン語を話す世界5億8千万人に可能性の扉を開きます。さらに、フランス語では3億5千万人、日本語では1億3千万人となります。スペイン語による自然言語処理技術の市場はわずか 27% 超です。フランス語と日本語の自然言語処理技術が占める割合は、それぞれ約 5% 。ここで、日本語、スペイン語、フランス語は AI に適しているのだろうかという疑問が生じます。
Siri、Cortana、Alexa、Google アシスタントは、スペイン語、フランス語、日本語を話します。しかし、あくまでも英語が母語になっています。機械では例えばスペイン語の方言を理解するのは難しく、一方で英語において論文、研究資料、出版物など様々な分野で使われていることから幅広く理解が進んでいます。「アフリカのフランス語やカナダの方言でも同様。日本語は、かなり均質ではあるが、データが不足している」と、PangeaMTのチーフサイエンティストであり、人工知能(AI)・適応型言語技術の専門家であるメルセデス・ガルシアは述べています。
メルセデスによれば、主観性と文脈に対する予備知識をほのめかす質問に答えるのは、言語を機械翻訳して解釈することを目的としたAIにとって大きな課題のひとつだ。この課題は、人間の声を認識し模倣するときにも存在する。知性をともなう回答は文法の授業では学べません。文脈に沿った単語や表現を知る必要があります。
しかし、アルゴリズムに人の間でやりとりされる質問と想定される回答を大量に与えると、感情を伴うことはないが、少なくとも類似の状況に対応します。「コンテキスト情報に大量の学習用データを補うと、AIの品質は向上しますが、方言、言語の種類、または専門用語に対して、膨大な量の分野に特定したデータが必要になります」と CEO 兼創設者マニュエル・エランツは述べています。「そこで、翻訳時に文体や好みを模倣することを素早く学習する適応型システムを作成しました」
AI に用いられる言語で最も多いのは英語で、次いで中国語です。これは、中国ではアプリを利用する数億のユーザのデータに日々アクセスする仕組みがあり、政府がテクノロジーの開発に全面的に取り組んでいるからです。しかし、一部のアメリカおよび中国企業が使用する「自由なデータマイニング技術」の多くは、EUや日本では違法になります。」
日本語、スペイン語、フランス語は AI に適しているのか?
しかし、母語として世界で2番目に多く話されているスペイン語はどうでしょうか?また、EU、アフリカ、カナダで広く話されているフランス語はどうでしょうか?そして、テクノロジーの進んだ日本ではどうでしょうか?「AIを訓練するために使用できるこれらの言語のデータセットは、英語と比べるとまだ小規模だ」とマニュエル・エランツは言います。
そこで、専門家によると、スペイン語は依然として世界の自然言語処理市場の約27%を占めています。コンサルティング会社 Credence Research は、2018年から2026年の間に年率12%近くで成長し、28,60億ドルに達するとのことです。
マニュエルは、言語処理とAI業界の間の相互発展が、人工知能の分野におけるヨーロッパと日本の競争力の触媒の1つになる可能性があると確信しています。スペイン語、フランス語、日本語で多くの原文・訳文データを保有する企業も多くあり、機械翻訳を金融、医療、保険、法律など、特定分野に対応して学習させることができます。次に、このようなデータが独自のアルゴリズムを改善します。また、5億8千万人のスペイン語話者、3億人のフランス語話者、そして1億4千万人の日本語話者がいる市場で販売を展開しています。スペイン語で開発されたシステムは、フランス語や日本語で高度に複製可能であり、日本やフランスでも利用されています。
機械学習用の多言語データ収集
現在、スペイン語をはじめとする言語技術の重要性を認識して努力しています。PangeaMT の CEO が、デジタル技術進歩のための国務省(Secretariat of State for Digital Advancement)による言語技術の促進計画(Promotion of Language Technologies)や EU の新しい NTEU プロジェクトについて言及しています。そこでは、行政で用いるニューラル機械翻訳エンジンを作成するために、英語を除くすべての EU の公用語から機械学習用に 1500 万の質の高い文章を収集しています。「この計画は、言語技術の研究を進める各大学を企業界と結び付けるためのスペイン最大の取り組みの1つであり、学内外で急速に言語処理技術を採用して、業務効率を上げています」 。
マニュエルによると、あらゆる業界が、言語処理技術の実装から利益を得ることができます。ますます多言語化する世界において、企業や組織の間、それらのサービスの利用者、行政と市民の間に新しい関係を構築しています。英語以外の言語処理技術に AI を応用することの利点は、医療、銀行、自動車、保険、教育、観光の業界ですでに明白になっています。膨大な量の翻訳、そしてビッグデータをもたらし、警察では音声データをミリ秒単位で処理し、障害者、高齢者、子供がテクノロジーにアクセスできるように支援しています。
「しかし、私たちはこれから起こることに備える必要があります。今後数年間で、音声をインターフェースとして使用するバーチャルアシスタントやパーソナルアシスタントの進化が加速し、ブランドに対する認識が変わり、会話の精度が向上し、販売や接客の経験も新しくなります」マニュエルは結びます。
スペイン語の話者は、世界人口の7.6%:5億8千万人。
約4億8千3百万人がスペイン語を母語としている。21ヶ国の公用語である。スペイン語は、母国語としての話者数では北京語に次ぐ世界2位の言語。世界の話者数としては英語と中国語に続く第3位の言語である。2060年には、米国はメキシコに次ぐ、世界で2番目のスペイン語圏の国となる。アメリカ人の3人に1人がヒスパニックになる。約2千2百万人がスペイン語を外国語として学んでいる。
出典:Instituto Cervantes
フランス語に関する数字:世界の人口の3.8%がフランス語を話す:2億8千万人。
約8千万人がフランス語を母語とし、さらに2千8百万人が日常用いている。29ヶ国の公用語である。フランス語は、話者数では世界6番目の母語である。2050年には、日常でフランス語を使うネイティブスピーカーの数は6億5千万~7億に達する。約1億2千万人がフランス語を外国語として学んでいる。
出典:Wikipedia, Babbel, Worldpopulationreview
日本に関する数字:世界の人口の1.6%が日本語を話す。1億2千6百50万人。
1億2千6百30万人が母語として、12万1千5百人が第2言語として話す。これは日本の国語であり、パラオ(アンガル)では公式少数語の地位を有する。日本語は、世界で13番目に話されている言語である。約366万人が外国語として日本語を学んでいると推定される。
出典:Wikipedia