Como treinar seu mecanismo de tradução automática

Escrito por Mercedes García | 09/01/23

Um mecanismo de tradução automática oferece muitas vantagens, sendo que os principais benefícios são a redução do tempo de tradução e a minimização do uso de recursos humanos.

Estima-se que o valor de mercado dos mecanismos de tradução cresça a uma taxa anual de 7,1%, de US$ 153,8 milhões em 2020 para US$ 230,67 milhões em 2026, de acordo com a Mordor Intelligence.

À medida que as tecnologias de aprendizagem automática e aprendizagem profunda ficam mais inteligentes, os resultados produzidos pelos mecanismos de tradução automática se tornam cada vez mais precisos. Essas tecnologias provam que há um forte argumento a favor do treinamento adequado dos mecanismos de tradução automática se quisermos obter traduções bem-sucedidas.

Aqui estão algumas diretrizes importantes para treinar mecanismos de tradução e obter resultados de tradução de qualidade.

O que é um mecanismo de tradução automática?

Um mecanismo de tradução automática é um software capaz de traduzir textos de um idioma de origem para um idioma de destino.

A aplicação da inteligência artificial a essas tecnologias aumentou sua precisão. Hoje, elas são capazes de analisar grandes quantidades de dados e transformá-los em informações para produzir traduções precisas, inclusive no nível semântico e de intenção do locutor.

Os mecanismos de tradução automática habilitados para IA usam dados para identificar correlações e estruturas, obtendo informações de grandes quantidades de dados para ajudá-los a resolver problemas que exigiriam milhares ou milhões de horas para serem processados por um ser humano.

Os recursos de um mecanismo de tradução automática são multiplicados pela adição de tecnologias como aprendizagem automática e aprendizagem profunda. Por meio dessas técnicas, os mecanismos de tradução são capazes de aplicar a aprendizagem automática, melhorando continuamente os resultados que fornecem. Mas o aprimoramento da qualidade da tradução depende de um bom treinamento.

Como treinar seu mecanismo de tradução automática

Os resultados ideais da tradução automática começam com soluções adequadas de tecnologia de tradução. Os recursos de aprendizagem automática e aprendizagem profunda devem ser desenvolvidos por uma equipe de profissionais humanos competentes, encarregados de supervisioná-los rotineiramente.

O objetivo do resultado do treinamento será que o mecanismo forneça as traduções mais precisas possíveis e possa adaptar o texto de saída às preferências do usuário (incluindo terminologia específica, tom e preferências estilísticas, por exemplo).

O treinamento de um mecanismo de tradução automática pode ser resumido nestas quatro etapas:

1. Incorporação dos dados básicos

O ingrediente básico e combustível para o treinamento de um mecanismo consiste na introdução de dados na forma de exemplos de frases traduzidas do idioma de origem para o idioma de destino.

Nesse ponto, é fundamental que os dados alimentados no sistema de IA sejam de alta qualidade, e há um mercado de dados disponíveis para treinamento com essa finalidade.

Software de código aberto, como o da PangeanicECO da Pangeanic, juntamente com especialistas em PNL (Processamento de Linguagem Natural), permitiram que as organizações criassem seus próprios processos de inteligência artificial e tradução automática.

O uso de dados além do texto também é uma possibilidade para o treinamento, mas os dados de imagem e vídeo devem ser rotulados corretamente quando incorporados ao processo de treinamento. É fundamental que seja criado um processo compatível de anotação e segmentação de dados.

Os dados de voz são outro tipo de dados que podem ser usados no treinamento de um mecanismo de tradução automática. Esse é um processo específico, pois os sistemas de reconhecimento automático de fala exigem grandes quantidades de dados de áudio de alta qualidade gravados em vários contextos e ambientes. A tecnologia de tradução automática da Pangeanic tem os recursos necessários para fornecer conjuntos de dados de áudio personalizados que atendam a requisitos específicos, como idade, sotaque, idioma, perfil do locutor, assunto, inclusive ruído de fundo.

2. Limpeza e normalização de dados

Após a coleta de dados brutos, deve ser feita a limpeza dos dados sujos e a normalização dos dados. Esse processo inclui, por exemplo, sempre usar as aspas corretas em ambos os idiomas. A partir desse ponto, o mecanismo de tradução pode ser alimentado com os dados apropriados.

O ECO limpa os dados automaticamente ao enviar arquivos para treinamento e exige apenas que os dados estejam no formato de tradução padrão baseado em XML chamado TMX (Translation Memory Exchange), uma memória de tradução. Você pode garantir a compatibilidade e a fácil integração com plataformas de tradução automática como a ECO usando o padrão TMX.

3. Possibilidade de análise de sentimentos

Tecnologias cada vez mais avançadas estão permitindo que os mecanismos de tradução analisem o sentimento dos textos, ou seja, entendam e levem em conta o verdadeiro significado de um texto ou a intenção do locutor ao traduzir. Para essa finalidade, a aprendizagem automática e a PNL são combinadas. As ferramentas de tradução agora podem avaliar o tom das mensagens e considerar suas intenções genuínas.

Ao analisar documentos e textos (extraídos, por exemplo, de redes sociais) para determinar o sentimento ou as opiniões dos usuários, esses textos são classificados (positivos, negativos ou neutros) e rotulados para melhorar a qualidade dos resultados da tradução.

4. Manutenção

O treinamento básico pode durar dias, e medidas como o "critério de parada" permitem que o mecanismo verifique automaticamente quando deixou de aprender algo novo. Isso permite que o treinamento seja interrompido para que não haja perda de tempo. Além disso, no caso de especialização de modelos para um domínio específico, o treinamento será realizado com os dados disponíveis e, dependendo do grau de especialização do modelo, será aplicado um treinamento mais agressivo ou mais conservador.

Além do treinamento inicial, para obter os melhores resultados é necessário um processo de treinamento contínuo.

Plataformas como a ECO, em sua nova versão 2, têm a vantagem de permitir que os usuários treinem o mecanismo de forma privada, simples e intuitiva, melhorando continuamente os resultados.

Pode ser de interesse: NLP Techniques (Técnicas de PNL): Os métodos mais poderosos de processamento de linguagem natural

Dicas para melhorar a qualidade de sua tradução automática

1. Quantidade de dados

É aconselhável trabalhar com grandes quantidades de dados para garantir a qualidade da tradução. Esse é, em parte, um dos desafios da tradução de "idiomas minoritários". A Pangeanic oferece grandes quantidades de dados escalonáveis graças ao seu enorme repositório de 10 bilhões de dados alinhados, o que permite o treinamento escalonável de mecanismos de tradução automática, garantindo maior qualidade de tradução. Também personalizamos nossos serviços para cada conjunto de dados usado para treinar a IA do mecanismo de tradução automática de cada cliente.

2. Qualidade dos dados

Quantidade não é tudo. O treinamento bem-sucedido da tecnologia de tradução requer dados da mais alta qualidade possível e que estejam no domínio desejado, ou seja, usando a terminologia correta.

É por isso que, na Pangeanic, fornecemos segmentos paralelos limpos de nosso grande banco de dados para prestar nossos serviços de tradução sob demanda. Além disso, todos os dados traduzidos passam por rigorosos controles e verificações de qualidade para garantir que sejam limpos e válidos para o treinamento correto dos mecanismos de tradução automática.

3. A importância da equipe

A equipe de especialistas da Pangeanic oferece consultoria ajustada às necessidades de cada cliente. Para isso, combinamos nossa equipe de especialistas em ciência de dados, linguistas, desenvolvedores e recursos humanos para obter dados de qualidade que possam ser gerenciados com sucesso.

Com mais de 20 anos de experiência no setor de serviços linguísticos e como desenvolvedores de PNL desde 2009, nossos clientes confiam em nós para avaliar cada projeto com precisão e cuidado. Nossos linguistas profissionais gerenciam a coleta de dados seguindo um fluxo de trabalho específico adaptado às necessidades de cada cliente. Todos os dados da Pangeanic são escalonáveis, precisos e gerados por humanos - um recurso essencial para qualquer projeto bem-sucedido de aprendizado profundo/máquina, já que os dados gerados por humanos contêm menos "ruído" em comparação com o alinhamento de traduções da Web (scraping) ou crowdsourcing.

Como desenvolvedores de sistemas de tradução automática, entendemos os efeitos adversos que dados de baixa qualidade podem ter sobre os algoritmos. Temos total confiança em nossos dados e em nossa ampla experiência em serviços de controle de qualidade de tradução. Deseja saber mais sobre o mecanismo de tradução automática certo para sua empresa? Entre em contato para discutir como o nosso sistema ECO pode atender melhor às suas necessidades.

Visualizar publicação completa