Featured Image

2 min read

01/06/2024

ニューラル機械翻訳とプロンプトベースのLLM翻訳 - どれほど近づいているのか?

先ごろバレンシアで開催されたGALA協会の年次総会は、公式に会議シーズンの幕開けとなりました。そしてもちろん、圧倒的な関心事(唯一の関心事と言ってもいいかもしれません)はAI、つまりGenAIとそれが言語業界に与える影響、数年のうちに言語業界そのものがなくなるのか、AIが人間と同等の流暢なコンテンツを生成できる世界において、人間の役割と価値は何か、といったことでした。

Pangeanicのカンファレンスへの貢献と、私が参加した3つのプレゼンテーション「翻訳業界におけるAIの倫理」について、別々にまとめます。このプレゼンテーションは、私が尊敬するSmartlingのOlga Beregovaya氏が司会を務め、ニュースエージェンシーEFEとのユースケース、そして私が同じく尊敬するTranslatedのKirti Vashee氏との「生産にGenAIを使用しない抵抗の道を歩む」というテーマで行われました。

ローカライズ業界は、コーパスで訓練されたバイリンガルモデルから用語集、適応型機械翻訳、そして現在では大規模な言語モデル(LLM)を使用したプロンプトベースの機械翻訳へと移行しています。ニューラル機械翻訳(NMT)は、その柔軟性、拡張性、費用対効果の高さから依然として高い人気を誇っています。

2024年においても、カスタマイズされたMTへの最善のアプローチはニューラルMTであり続けるでしょう。2025年、いや2024年の終わりにも、私はそこに資金を投入することはないでしょう。しかし、適応型機械翻訳(NMT)は、ほとんどの用途において最も高速かつ経済的な機械翻訳ソリューションであり、ゴールドスタンダードです。間違いなく、最も制御しやすく、適応しやすい技術です。これらは、その理由のほんの一部です。この技術の有効性を擁護しているのは私だけではありません。MicrosoftのChristian Federmann氏は、NMTモデルの柔軟性を常に擁護してきました。

適応型(ニューラル)機械翻訳が君臨する理由

これには4つの主な理由があり、「抵抗の道を歩く」ラウンドテーブルのパネル(キルティ・ヴァシー、ホセ・パロマレス、ヘレナ・モニーツ)はそれらについて徐々に説明しました。

  1. 経済的スケーラビリティ:NMTは並列コーパスの利用により、低コストでMTエンジンを作成できる成熟したレベルに達しています。これにより、NMTは多くの組織にとってオンプレミスでもクラウドでも経済的に実行可能な選択肢となり、企業は法外な費用をかけずに高品質のMTソリューションを導入できるようになりました。

  2. 適応性:NMTモデルは、ベースラインモデルに様々なレベルの適応度(このプロセスはアルゴリズムによって自動化されているため、積極性と呼んでいます)でデータを注入することにより、迅速にカスタマイズすることができます。例えばPangeanicでは、様々なレベルの並列コーパスを注入することで、数分でモデルをカスタマイズし、翻訳の出力がクライアントの特定の要件に確実に一致するようにしています。このような適応性は、異なる分野において翻訳の関連性と精度を維持する上で非常に重要です。適応されたエンジンは、ユーザーが求めるコンテンツを正確に生成します。

  3. 管理された出力:NMTは制御された出力を提供するのに優れているため、電子商取引、ソフトウェア、ヘルスケア、さらには慣用的なニュアンスに満ちた字幕など、特定の分野に最適です。これらの分野では、一貫した用語とスタイルを維持することが重要です。これらの分野では、用語が衝突するケースも多いため、別々のエンジンを維持することは非常に理にかなっています。GenAIの素晴らしい能力にもかかわらず、企業ユーザーにとって用語とスタイルの制御は不可欠です。NMTは事前に定義された用語集やスタイルガイドに従うことができるため、翻訳が要求される正確さと一貫性の基準を満たすことができます。

  4. 人間による検証:NMTの専門的なワークフローでは、TMXファイルを適応型NMTエンジンに注入して再トレーニングする前に、人による検証が行われます。このステップは、カスタマイズされたモデルがクライアントの基準を満たす高品質の翻訳を生成するために不可欠です。人間による監視は、潜在的なエラーや矛盾に対するセーフガードとして機能し、MTシステム全体の信頼性を高めます。

プロンプトベースのLLM翻訳

プロンプトベースの翻訳は非常に人気がありますが、利点と欠点があります。私にとって最大の欠点は、出力を制御できないことです(これは、私たちが翻訳用にカスタマイズしたECO LLM 8x7Bモデルの経験を踏まえての発言です)。

LLMがGenAI(生成AI)であり、生成的にモデル化されていることを忘れてはいけません。同じ公式を適用すれば科学や工学では同じ結果が得られることに慣れていますが、LLMに同じ質問をしても必ずしも同じ翻訳結果が得られるとは限りません。これが、たまに使うユーザー、事務所や小規模企業、または単にメールを翻訳する必要がある場合には悪いことではないかもしれません。たとえば、日本語やアラビア語からフランス語、カタルーニャ語、スペイン語への翻訳において、私たちのECO LLMがいかに流暢であるかには、いつも驚かされます — Googleよりもずっと流暢です! では、なぜ私たちはプロンプトベースの翻訳を大規模に使用していないのでしょうか?

プロンプティングベースのLLM翻訳の課題

多くのMT(機械翻訳)やTMS(翻訳管理システム)企業が、ジェネレーティブAIをワークフローに統合しています。この統合は興味深い可能性を持っていますが、同時に課題も伴います。McKinseyによると、「ジェネレーティブAI(Gen AI)の新婚期は終わりました。多くの組織が学んでいるように、驚くべきGen AIプロジェクトを構築することは比較的容易ですが、それを大規模な能力に変えることはまったく別の話です。この飛躍を実現する難しさが、なぜたった11%の企業しかGen AIを大規模に採用していないのかを説明しています。」
Arabic into English translation by Pangeanics ECO

 

Arabic into English translation by Pangeanics ECO LLM

 

 のアラビア語から英語への翻訳と、ECO LLMによるプロンプティングベースのLLM翻訳の比較

ほとんどの人が微妙な違いを判断できるように、英語への翻訳を選びました。

 كما يناقشان كيفية مواجهة الرؤساء التنفيذيين للتحديات الجيوسياسية المتغيرة، وتأثير الذكاء الاصطناعي التوليدي داخل المؤسسات، وكيفية الانتقال نحو استخدام الطاقة المستدامة، بالإضافة إلى ذلك، نستعرض في عدد هذا الشهر مجموعة من الموضوعات البارزة الأخرى التي تدور حول:
كيف تستطيع المؤسسات في مجال التصنيع الاستفادة من الإمكانات الهائلة لتقنيات الذكاء الاصطناعي.

دور المدراء الماليون المهم في تحويل استراتيجيات الشركات من أجل تعزيز قيمتها وخلق فائدة أكبر لها.
استراتيجيات وتقنيات يمكن لمديري عمليات الاستحواذ على صناديق الأسهم الخاصة استخدامها لزيادة القيمة التشغيلية للشركات التي يستحوذون عليها.

أولويات الرؤساء التنفيذيون لتحقيق التميز والريادة خلال فترة قيادتهم.

They also discuss how CEOs face changing geopolitical challenges, and the impact of generative AI within organizations, How to move towards sustainable energy use, In addition, In this month's issue, we will cover a range of other high-profile topics that revolve around:

How can manufacturing organizations take advantage of the enormous potential of AI technologies?

The important role of financial managers in transforming corporate strategies in order to enhance their value and create greater utility for them.

Strategies and techniques that private equity fund acquisition managers can use to increase the operational value of the companies they acquire.

CEO priorities for achieving excellence and leadership during their leadership period.

كما يناقشان كيفية مواجهة الرؤساء التنفيذيين للتحديات الجيوسياسية المتغيرة، وتأثير الذكاء الاصطناعي التوليدي داخل المؤسسات، وكيفية الانتقال نحو استخدام الطاقة المستدامة، بالإضافة إلى ذلك، نستعرض في عدد هذا الشهر مجموعة من الموضوعات البارزة الأخرى التي تدور حول:
كيف تستطيع المؤسسات في مجال التصنيع الاستفادة من الإمكانات الهائلة لتقنيات الذكاء الاصطناعي.
دور المدراء الماليون المهم في تحويل استراتيجيات الشركات من أجل تعزيز قيمتها وخلق فائدة أكبر لها.
استراتيجيات وتقنيات يمكن لمديري عمليات الاستحواذ على صناديق الأسهم الخاصة استخدامها لزيادة القيمة التشغيلية للشركات التي يستحوذون عليها.

أولويات الرؤساء التنفيذيون لتحقيق التميز والريادة خلال فترة قيادتهم

As they discuss how to address the changing geopolitical challenges, the impact of generative AI within institutions, and the transition towards sustainable energy, we will also explore other prominent topics in this month's issue, including:

How manufacturing companies can leverage the immense opportunities provided by AI technologies.

The crucial role of financial managers in translating corporate strategies to enhance a company's value and create greater benefits for it.

Strategies and techniques that corporate raiders can use to increase the operational value of the companies they take over.

Priorities of executives to achieve distinction and leadership during their tenure.

 


これは翻訳業界が現在直面している重要な岐路です。ChatGPTを翻訳に使用するのは比較的簡単ですが、他の要因を考慮に入れると、スケールでの使用はずっと困難になります。高い自動化を提供する可能性があるGenAIも、プロの翻訳に必要なカスタマイズや一貫性を常に保証するわけではありません。多くの企業がGenAIを実験していますが、その実装は依然として進化しています。ここではいくつかの欠点を挙げますが、心配しないでください—利点についても後述します。

1. 

  1. コントロールの欠如:プロンプトベースのLLM翻訳で最も大きな課題の一つは、出力をコントロールできないことです。NMTは同じ入力で一貫した結果を提供しますが、生成型AIであるLLMは、同じ入力に対して無作為に異なる翻訳を生成することがあります。この予測不可能性は、用語の一貫性が求められる大規模な翻訳プロジェクトにとって問題となり得ます。

  2. 生成的性質:LLMは生成的に設計されており、常に必要な用語やスタイルガイドラインに沿わない異なる出力を生み出すことがあります。例えば、特定の用語や一貫したスタイルを厳守する必要があるプロの翻訳タスクでは、LLMが求められる一貫性を提供するのが困難になることがあります。

  3. 使用例:LLMはカジュアルな使用や小規模なニーズに対する流暢な翻訳の生成に優れていますが、大規模で一貫した翻訳には効果が薄れます。電子メール、カジュアルな会話、または一回限りの文書の翻訳に適していますが、正確な用語やスタイルの一貫性が重要な場合には性能が不十分です。セグメントごとの一貫性を確保するのは困難で、LLMは時に自分自身の「思考」を持っており、繰り返しのタスクに飽きることがあります。特に理由もなく、突然「生成」を始めることがあります。

LLMに基づく翻訳の可能性

機械翻訳技術の実装には、常に出発点(翻訳メモリベースのワークフロー)と最終目標についての明確な理解が必要です。NMTからLLMに基づく翻訳に移行する場合も同様です。現在の機能と将来の可能性について理解する必要があります。NMTの強みを活かしながらGenAIの可能性を探るデュアルユースが一つのオプションかもしれません。ローカライズ業界は、多くの技術を先取りすることで知られていませんが、変化するグローバルコミュニケーションのニーズに応えるために、高品質でカスタマイズされた翻訳を提供し続ける必要があります。

確かに、LLMを使用したプロンプトベースの機械翻訳は、特にドメイン固有の訓練データが限られている場合や存在しない場合に、NMTよりも自然でコンテキストに即した翻訳を提供します。LLM翻訳は、日本語<>スペイン語やポーランド語<>中国語の翻訳に優れています。私はここに価値を見出しています(もはや英語を経由せず、文化的に適切な翻訳を得ることができます)。

問題は…どれくらいの間NMTにこだわるべきかということです。おそらくそれほど長くはないでしょう。McKinseyによると、全PoCやプロジェクトのうち11%が成功する実装となっていますが、同じまたはそれ以上のコストで、より多くの自動化を提供するGenAIシステムが見込まれます。これにより、GenAIの流暢さとコンテキストに基づく後編集が大規模に実現します。

特定のタスクにおいては、カスタムトレーニングされたLLMが高品質な翻訳を提供できます。しかし、これを達成するためには、高度なプロンプティング技術と確立されたワークフロー、そしてしばしば多大な計算リソースが必要です。これらがない場合、LLMは専門的な翻訳者が求める精度や正確性に欠ける自由形式の翻訳を生成する可能性があります。

将来展望:NMTからプロンプトベースのLLM翻訳への移行

好きかどうかに関わらず、業界はNMTからGenAIへの移行を徐々に進めるでしょう。GenAIは、より高いレベルの自動化、コンテキストに富んだ流暢さ、そして複雑な翻訳タスクを1つのAPI接続で処理する能力を約束しています。私の見解では、コンテキストに富んだ流暢さを提供する能力が、プロンプトベースのLLM翻訳の採用を検討する際の最も重要なポイントです。

結論

カスタマイズされた機械翻訳の未来は明るく、NMTとGenAIはそれぞれ独自の利点を提供します。現在、NMTは制御、一貫性、費用対効果において優れていますが、GenAIはより自然でコンテキストに即した翻訳の可能性を秘めています。業界が革新を続ける中で、NMTとGenAIのバランスがプロフェッショナル翻訳サービスの未来を形作るでしょう。これらの技術とその進化する能力について十分に理解することで、翻訳専門家は顧客のニーズに最適な決定を下すことができます。

 

現在のNMTからGenAIへの移行をお考えですか?
Pangeanicと共に実現しましょう。ニュースエージェンシーEFEでのGenAIベースの自動ポストエディティングの導入についてぜひお問い合わせください