Lingue che sfidano le iniziative di traduzione automatica

Scritto da Laurent Bié | 08/12/24

Tra le oltre 7.000 lingue del mondo, alcune consentono un'applicazione di traduzione automatica più semplice, mentre altre rappresentano una grande sfida per le iniziative di traduzione automatica.

Il concetto di traduzione automatica si basa sulla capacità di un sistema di traduzione di ricevere un testo nella lingua di partenza e di generare un testo in uscita nella lingua di arrivo. Per fare ciò, applica regole logiche e statistiche (semplici o più complesse) e il suo obiettivo finale è quello di avvicinarsi al 100% alla traduzione umana professionale.

Le tecniche attuali e l'esistenza di una moltitudine di dati bilingui consentono in molti casi di avvicinarsi a questo obiettivo. Tuttavia, alcune lingue minoritarie rappresentano ancora una sfida per le attuali tecnologie di traduzione. Esamineremo questo problema e le sue possibili soluzioni utilizzando sistemi di traduzione automatica neurale.

Le principali sfide della traduzione automatica

Oggi le tecniche di traduzione automatica si sono evolute fino a comprendere diverse opzioni :

  • L'opzione tradizionale è nota come Rule-based Machine Translation (RBMT): utilizza regole stabilite per convertire un testo di partenza in una nuova lingua di arrivo. Queste regole sono implementate da linguisti e si riferiscono ad aspetti semantici, sintattici e lessicali.

La sfida o il limite più importante di questa opzione è che richiede un numero enorme di regole che, inoltre, richiedono l'elaborazione da parte di linguisti esperti.

In questo senso, le sfide maggiori si presentano quando le lingue da tradurre hanno un alfabeto diverso da quello latino o presentano sistemi sintattici o verbali complessi.

  • La seconda opzione per la traduzione automatica è la traduzione automatica statistica (SMT). Si tratta di un'opzione efficiente e ancora oggi molto promettente.

In questo caso, si basa su grandi quantità di dati dai quali il sistema è in grado di apprendere e generare traduzioni. A tal fine, è necessario un addestramento specializzato.

Nel lavoro SMT, i linguisti umani si limitano a supervisionare il lavoro delle macchine. Tuttavia, la sfida principale ha a che fare con l'accesso a dati di qualità: mentre ci sono lingue in cui il materiale tradotto è abbondante (inglese, spagnolo, francese, tedesco...), le lingue minoritarie sono più limitate, poiché non ci sono molte traduzioni o le traduzioni che esistono non sono di alta qualità.

Questa limitazione corrisponde a sua volta alla domanda effettiva di traduzioni. Le combinazioni più comuni sono inglese e spagnolo, spagnolo e tedesco, spagnolo e francese, italiano e spagnolo, per citarne alcune. Tuttavia, andare al di fuori delle lingue maggioritarie implica uno sforzo maggiore, non solo in termini di raccolta dati, ma anche di tempo necessario per effettuare queste traduzioni.

 

Lingue minoritarie

Affinché la traduzione automatica statistica sia applicabile, la lingua deve disporre di dati sufficienti per alimentare gli algoritmi. Lingue come l'inglese e lo spagnolo non pongono alcun tipo di sfida, dato che esistono modelli linguistici con 50 milioni di segmenti o più.

Tuttavia, come già detto, le lingue minoritarie (ad esempio il birmano o il gujarati) hanno in genere una minore disponibilità di dati bilingui. Questa limitazione limita la capacità del motore di traduzione automatica e si traduce in una minore qualità della traduzione prodotta.

 

Contenuto correlato: Come addestrare il motore di traduzione

 

Come addestrare una macchina a tradurre le lingue minoritarie

La scarsità di dati bilingui (la materia prima di qualsiasi processo di traduzione) richiede l'applicazione di tecniche speciali nel caso delle lingue minoritarie. Queste includono l'applicazione di tecniche di traduzione automatica neurale.

 

Traduzione automatica neurale

La traduzione neurale utilizza come algoritmo di traduzione reti neurali addestrate attraverso l'apprendimento automatico. Si tratta quindi dell'applicazione di raffinate tecniche statistiche che consentono di definire un modello di traduzione con milioni di parametri che, in ultima analisi, converte il testo originale in testo tradotto.

Questa forma di intelligenza artificiale imita il modo in cui il pensiero funziona nel cervello umano. L'obiettivo è far sì che le macchine imparino il significato delle parole, oltre a memorizzare parole o frasi. Questo tipo di traduzione automatica apre le porte alla gestione di dati e modelli linguistici più complessi.

Oggi questi sistemi vengono addestrati su milioni di pagine di testo. L'obiettivo futuro sarà quello di ridurre la quantità di dati necessari per l'addestramento.

Così, oggi, nelle lingue minoritarie, o meglio, con scarse risorse disponibili, la traduzione neurale funziona allo stesso modo delle altre lingue, anche se il modello utilizzato deve essere addestrato (creato) con tecniche speciali.

Queste tecniche comprendono:

  • Generazione di dati bilingui sintetici, cioè dati bilingui creati appositamente per migliorare il processo di traduzione automatica. Questo approccio si è dimostrato efficace nelle traduzioni dal coreano all'inglese, secondo uno studio di Guanghao Xu, Youngjoong Ko e Jungyun Seo dell'Università di Seoul.
  • Aumentare la quantità di dati forniti al motore di traduzione automatica, generando dati attraverso linguisti nativi per ogni lingua.
  • Utilizzo di dati monolingui

Nonostante non dispongano di grandi quantità di testi tradotti o, come è noto, di dati paralleli, i motori di traduzione automatica sono in grado di apprendere le relazioni tra le lingue e di generare traduzioni di qualità.

Tuttavia, i sistemi di traduzione automatica neurale devono affrontare una serie di sfide nei prossimi anni, tra cui il raggiungimento di una maggiore precisione o un apprendimento più rapido.

Pertanto, sebbene i sistemi di traduzione automatica neurale siano oggi indispensabili nel settore della traduzione automatica, essi richiedono ancora l' intervento umano, una mediazione che in molti casi è fondamentale.

Come funziona la piattaforma ECO di Pangeanic

ECO è la piattaforma di servizi linguistici di Pangeanic che fornisce un servizio di traduzione automatica o ibrida.

Oltre a un software accurato e alle ultime tecnologie disponibili, Pangeanic dispone di un team di linguisti professionisti madrelingua che si occupano sia dell'addestramento delle macchine sia della revisione dei risultati automatici prima di consegnarli al cliente.

Combinando il lavoro e le conoscenze del nostro team con la tecnologia all'avanguardia dell'intelligenza artificiale, siamo in grado di adattarci alle richieste dei nostri clienti, indipendentemente dal fatto che una lingua sia utilizzata da una minoranza o sia più difficile da tradurre.

ECO funziona nel cloud ed è accessibile a qualsiasi utente con un browser e un accesso a Internet. Grazie al suo funzionamento intuitivo, l'utente può elaborare direttamente il testo o utilizzare file formattati.

Le nostre risorse elastiche ci permettono di tradurre automaticamente centinaia di milioni di parole in tempi record (migliaia di pagine all'ora), di anonimizzare i contenuti, di sintetizzare, di estrarre conoscenze e dati chiave e di convertire dati non strutturati in contenuti strutturati.

È un servizio adatto anche al commercio elettronico, alle comunicazioni legali internazionali e ad altre soluzioni di traduzione specifiche.