4 min read

16/05/2023

O que é a tradução automática estatística?

ESPECIALISTA TRAÇÃO AUTOMÁTICA

A tradução automática estatística, conhecida como SMT ou StatMT, é uma abordagem tradução automática que produz a saída mais provável (tradução) de cada elemento que compõe uma frase. Baseia-se na utilização de modelos estatísticos que analisam e procuram relações entre dois textos com o mesmo conteúdo: um na língua de origem e outro na língua de destino.

É um tipo de modelo de TA que apresenta suas vantagens, mas também certos desafios e desvantagens que é importante conhecer. Também é importante detalhar as diferenças que existem entre a tradução automática estatística e a tradução automática neural (NMT).

As origens da tradução automática estatística

Foi em 1949, quando Warren Weaver introduziu as primeiras noções da tradução automática estatística. Mas, na realidade, a tradução automática estatística surgiu em 1992, quando pesquisadores do Centro de Pesquisa Thomas J. Watson reintroduziram essa abordagem e, após o uso de técnicas estocásticas no desenvolvimento de um sistema de reconhecimento de fala, decidiram experimentar no campo da tradução.

A pesquisa foi realizada utilizando traduções humanas existentes (corpus bilíngues), especificamente com os atos do Parlamento do Canadá em inglês e francês.

Foi uma experiência bem-sucedida que consistiu em alinhar frases, conjuntos de palavras e palavras individuais para realizar o cálculo probabilístico da correspondência entre as palavras na língua de origem e as da língua-alvo. Foi o sistema de tradução automática mais estudado, antes da introdução da NMT.

Fundação e regras

SMT usa a teoria da informação como sua base principal; um estudo do armazenamento, processamento, extração e uso de informações usando estatística, ciência da computação, engenharia da informação, engenharia elétrica e mecânica estatística.

Um texto é traduzido com base na probabilidade de que uma seqüência de palavras na língua de destino seja a tradução da seqüência de palavras na língua de origem. Ou seja, com base na probabilidade p(e|f), onde:

e: é a string da língua de origem.
f: é a string da língua de destino.

Este modelo de distribuição probabilística foi abordado de diferentes perspectivas. O mais amplamente implementado é o Teorema de Bayes:

p(e|f) ∝ p(e|f)p(e)

Este teorema divide o modelo em dois subproblemas. A melhor tradução é obtida escolhendo o resultado com a maior probabilidade.

Tipos de tradução automática estatística

Os diferentes tipos de SMT são os seguintes:

Tradução baseada em palavras

Neste caso, a unidade básica de tradução é uma palavra na língua de origem. Em outras palavras, é um modelo que traduz palavra por palavra. No entanto, devido a expressões idiomáticas, morfologia e palavras compostas, o número de palavras no texto traduzido pode ser diferente do texto original.

A fertilidade é a proporção de palavras da língua-alvo que uma palavra da língua-fonte pode dar origem. Por exemplo, a palavra "nail" em inglês pode significar tanto "prego" o "tacha" quanto "unha" em português. Com uma alta fertilidade, é possível atribuir uma palavra na língua de origem a várias palavras na língua de destino, mas não é possível agrupar duas palavras da língua de destino que signifiquem apenas uma na língua de origem.

Tradução baseada em frases

Este tipo de tecnologia de tradução automática traduz sequências de palavras completas e procura diminuir as restrições da SMT baseada em palavras. Essas sequências são chamadas de frases ou blocos. No entanto, estas frases não se baseiam em estruturas linguísticas, mas em métodos estatísticos, de modo a não reduzir a qualidade da tradução.

Tradução baseada em sintaxe

Nesse tipo de tecnologia de tradução automática, o modelo de SMT deixa de lado as palavras individuais e blocos para traduzir unidades sintáticas. Isso significa que ele traduz através da análise de frases ou expressões.

Tradução baseada em modelos linguísticos

Os modelos de linguagem ajudam a tornar a tradução mais fluida e mais natural. Esta é uma função que, com base em uma frase traduzida, seleciona o resultado que tem a maior probabilidade de ser usado por um falante nativo. Também facilita a escolha da palavra mais apropriada, dada a possibilidade de múltiplas traduções.

Fases operacionais da tradução automática estatística

Esta tradução automática funciona em três fases principais:

Elaboração do texto paralelo

A criação de texto paralelo segue estas etapas:

Escolha: São escolhidos dois textos ou documentos com o mesmo conteúdo, um na língua de origem e o outro na língua de destino. Quanto maior o volume do texto, maior a qualidade da tradução final.
Extração: As secções do conteúdo são extraídas do texto na língua de origem e da secção correspondente na língua de destino.
Separação: Cada secção é dividida em frases.
Preparação: As entradas são preparadas para o sistema.
Alinhamento: Cada frase numa língua é mapeada para a frase correspondente na outra língua.

Modelagem

Esta fase inclui:

Modelagem de tradução: Determina o conjunto de possíveis traduções para cada uma das frases.
Modelagem de linguagem: Determina o fluxo de cada frase. Este modelo é aquele que atribui a maior probabilidade à frase que usa a linguagem mais natural.
Pesquisa: este é o processo no qual o sistema navega através de todas as frases alinhadas, a fim de encontrar a tradução mais provável para uma determinada frase.

Estimativa e Refinação

A fase de estimativa e de refinação minimiza eventuais erros para um resultado de maior qualidade. Conectores gramaticais e algoritmos heurísticos são usados para este fim.

Diferenças entre SMT e NMT

Existem várias diferenças fundamentais entre a tradução de máquina estatística e neural:

A tradução automática neural requer mais treinamento e um corpus maior do que a tradução automática estatística.
NMT é melhor do que SMT em lidar com morfologia, sintaxe, ordem de palavras e concordância.
O SMT é um modelo que gera a tradução com base na divisão de frases em frases e palavras, enquanto o NMT usa frases completas.

Basicamente, a SMT funciona através da recolha de estatísticas, ou seja, baseia o seu método na contagem de repetições de frases e palavras.

A NMT funciona usando tecnologia de tradução automática que agrega ocorrências de eventos, mas também usa parâmetros com números reais e os atualiza quando observa algo novo, incluindo frases completas.

Vantagens da tradução automática estatística em comparação com outros métodos

Em comparação com a tradução tradicional e em certos contextos, a SMT apresenta as seguintes vantagens:

Embora seja parcial e possa conter erros, o SMT traduz o texto rapidamente, o que permite:
Acesso urgente aos dados.
Trabalho mais fácil para os tradutores humanos, visto que só têm de fazer correções.

Além disso, a SMT oferece traduções mais rentáveis e uma melhor utilização dos recursos, embora a sua qualidade não esteja ao nível dos tradutores profissionais.

Os desafios da SMT hoje

A tradução automática estatística enfrenta dois desafios principais: a ordem das palavras em línguas diferentes e palavras desconhecidas.

A ordem das palavras dentro de uma frase não é a mesma em diferentes línguas. Por exemplo, a ordem típica das palavras em inglês é "sujeito, verbo e objeto", mas isso pode ser diferente em outras línguas. Além disso, existem outros modificadores de ordem, como substantivos.

Como a SMT deve ter em conta a ordem das palavras, os seguintes modelos de reordenação são utilizados para proporcionar um melhor alinhamento entre os dois textos.

Além disso, a SMT realiza um armazenamento separado de palavras, sem estabelecer qualquer relação. Assim, frases ou palavras desconhecidas (fora do vocabulário) que não estavam nos recursos de formação não podem ser traduzidas.

Para resolver este segundo problema, são usados, entre outros métodos, inserções de palavras e recursos lexicais semânticos.

SMT foi a técnica dominante até vários anos atrás. O campo da tradução automática de idiomas deu um salto qualitativo em direção a modelos neurais baseados em Inteligência Artificial (IA), que permitem traduções confiáveis e facilitam a comunicação global.

Na Pangeanic, combinamos o conhecimento de nossos tradutores profissionais com o melhor da IA para oferecer tradução de máquina neural com qualidade humana.

Contacte-nos! Vamos conceber e entregar a solução de que precisa.