Qué es el modelado del lenguaje y su relación con la PLN

Escrito por Nikita Teslenko Grygoryev | 08/11/22

El procesamiento del lenguaje natural (PLN) ha presentado cambios enormes impulsados por el modelado del lenguaje (LM, por sus siglas en inglés), ayudándole a comprender lo abstracto del lenguaje natural y permitiendo la predicción de palabras.

En la actualidad, los LM resultan el eje central del PLN para la creación de diversas aplicaciones que se utilizan a diario, como la corrección ortográfica, el análisis de sentimiento, la búsqueda de información o la conversión de audio a texto. Es importante profundizar en qué consiste el LM y en la evolución que ha tenido durante las últimas décadas.

¿En qué consiste el modelado del lenguaje?

El modelado del lenguaje consiste en la utilización de diversas técnicas estadísticas para analizar el patrón del lenguaje natural y predecir las palabras que pueden aparecer en una determinada oración.

Es decir, partiendo de un contexto, en el LM se emplean herramientas estadísticas para determinar la probabilidad de que ciertas palabras o una secuencia de palabras sean válidas para completar una oración.

Pero la predicción que se lleva a cabo en el modelado del lenguaje no trata de completar oraciones con palabras válidas gramaticalmente, sino que intenta igualar la manera en la que escriben o hablan las personas. Dicho más propiamente, busca igualar la intuición lingüística.

El LM se observa a diario en las funciones de redacción inteligente con las que cuenta el correo electrónico Gmail o en el teclado virtual de los dispositivos electrónicos.

La evolución de los modelos de lenguaje

Los modelos de lenguaje se desarrollaron para que produjeran cada vez resultados más eficientes. Para esto, en sus entrenamientos se incluían más palabras de contexto. De esta forma, el modelo creaba una estructura que le confería la capacidad de aprender la importancia de cada palabra. Por lo tanto, para lograr una mayor eficiencia se le debían proporcionar muchos ejemplos.

Este proceso tuvo una mejora debido a que se emplearon redes neuronales recurrentes (RNN, por sus siglas en inglés), unos tipos de redes con memoria larga que toman en cuenta todas las palabras anteriores para seleccionar la palabra que sigue. La tecnología avanzó incluso a un sistema bidireccional en el que toma en cuenta tanto el contexto anterior como el posterior a la palabra.

Artículo relacionado: ¿Qué son las redes neuronales de traducción automática?

Sin embargo, las RNN requieren entrenamientos extensos. Una solución son los modelos basados en la arquitectura Transformers, que tienen la capacidad de aprender en qué casos deben ofrecer mayor o menor atención a una entrada (las palabras anteriores o posteriores a la palabra que debe predecir).

Tipos de modelado del lenguaje

Básicamente existen dos tipos de LM: el modelado estadístico del lenguaje y el modelado neuronal.

Modelado estadístico del lenguaje. Incluye modelos que realizan la predicción de la siguiente palabra de acuerdo con los cálculos probabilísticos basados en las palabras que la preceden. De este tipo de modelo existen diversos enfoques:
- N-grama. Es un modelo que analiza el texto hacia atrás. Para hacerlo, crea una distribución de probabilidad de secuencia “n”.
- Bidireccional. Es un tipo de modelado estadístico del lenguaje que analiza el texto de manera bidireccional, hacia atrás y hacia adelante.
- Exponencial. En este caso la evaluación del texto se realiza mediante una ecuación que combina n-gramas y otros parámetros. Resulta más preciso que el modelo n-grama.
- Espacio continuo. Se basa en la asignación de peso a cada palabra (incrustación de palabras). Es muy útil en los casos de textos o conjuntos de datos muy grandes.

Modelo de lenguaje neuronal. Son modelos más avanzados que utilizan redes neuronales y se emplean para las tareas complejas de PLN como, por ejemplo, la traducción automática o el reconocimiento de voz.

Uso y aplicaciones en PLN

Entre los principales usos y aplicaciones del modelado del lenguaje en el PLN se encuentran las siguientes tareas:

Análisis de sentimiento. Consiste en determinar el sentimiento o la intención que existe detrás de una determinada frase. Es útil para comprender la actitud que se desea transmitir en textos como, por ejemplo, los comentarios de clientes en las redes sociales.
Reconocimiento óptico de caracteres. En este caso una máquina procesa una imagen con texto (foto o documento escaneado) para descifrar el texto, codificarlo y presentarlo listo para su edición. Es muy usual su uso en la digitalización de registros antiguos.
El reconocimiento de la voz. Se basa en el procesamiento de la voz por parte de una máquina.
Recuperación de información. Consiste en la búsqueda de documentos o de información dentro de un documento. Por ejemplo, los motores de búsqueda presentes en los navegadores web.
La traducción automática. Se basa en el proceso que realiza una máquina al comprender un texto en un determinado idioma para reproducir un texto equivalente en otro idioma.

Ejemplos de modelado del lenguaje en tareas de PLN

Aunque normalmente pasan desapercibidos, en la actualidad los modelos de lenguaje se emplean a diario. Estos son algunos casos de los modelos de lenguaje, por ejemplo:

Traducción automática

La traducción automática se utiliza a diario a través de los modelos PLN. Algunos ejemplos son Microsoft Translator o Google Translator.

Reconocimiento de voz

Un ejemplo de modelos de lenguaje en el reconocimiento de voz son los populares asistentes Alexa o Siri.

Sugerencia de texto

Los servicios o aplicaciones de Google emplean modelos de lenguaje para ofrecer sugerencias al usuario mientras escribe un texto. Por ejemplo, en la redacción de un correo electrónico a través de Gmail o en la creación de un documento mediante Google Docs.

Desafíos del modelado del lenguaje en PLN

Los desafíos del modelado del lenguaje en PLN radican principalmente en la diferencia entre la naturaleza del lenguaje natural y el lenguaje que entiende una máquina.

El lenguaje formal que entienden las máquinas se caracteriza por la precisión. Es un lenguaje específico, predefinido y basado en números, mientras que el lenguaje natural no corresponde a un diseño, sino que es un lenguaje que evoluciona a la par del aprendizaje de los individuos y que puede utilizarse de diversas maneras.

De esta forma, el lenguaje natural, aunque entendido por los seres humanos, se caracteriza por la introducción de ambigüedades. Para que las máquinas puedan entenderlo por medio de modelos de lenguaje, es preciso que cada palabra esté codificada, es decir, convertida en una secuencia de números.

Amplíe información: Zero-Shot Learning en el PLN

El lenguaje natural es complejo y, a medida que evoluciona, su complejidad se incrementa. En consecuencia, cuanto más profundos sean los modelos de lenguaje y cuantos más datos y de mejor calidad se usen para entrenarlos, como los de tipo neuronal, serán más adecuados para realizar tareas complejas de PLN como la traducción automática o el reconocimiento de voz.

En Pangeanic desarrollamos nuestra propia tecnología PLN basada en la inteligencia artificial para la traducción automática neuronal, la clasificación de datos y el análisis de sentimiento y de relevancia. Póngase en contacto con nosotros; personalizamos nuestras soluciones a sus necesidades.

Ver post completo