¿Qué es un LLM (Gran Modelo de Lenguaje)?

Escrito por Manuel Herranz | 03/11/23

Los LLMs o Grandes Modelos de Lenguaje (LLM) son algoritmos avanzados de aprendizaje profundo capaces de realizar una amplia gama de tareas relacionadas con el procesamiento del lenguaje natural (NLP). En Pangeanic sabemos algo de ello porque nos dedicamos a construir modelos de lenguaje (más modestos) para traducción automática, anonimización o clasificación de datos desde 2010. La diferencia que todos hemos notado desde finales de 2022 o principios de 2023 estriba en el tamaño y cantidad de datos de entrenamiento. Los nuevos modelos, cimentados en la arquitectura Transformers —actualmente la más popular—, se entrenan con vastos conjuntos de datos, lo que les confiere una impresionante habilidad para reconocer, resumir, traducir, predecir y generar texto. Si además añadimos una funcionalidad de chatbot para interactuar, como lo hizo OpenAI con ChatGPT, Meta con Llama2 o Google con Bart, entonces tenemos una experiencia nueva, una experiencia cognitiva que los humanos no habíamos tenido con ninguna máquina. Esa es la razón por la que nos divertimos y “enganchamos” tanto a los modelos como ChatGPT: para nuestro cerebro, estamos teniendo una experiencia cognitiva, una conversación, como la podríamos tener con un bibliotecario de amplísimos conocimientos o cualquier otra persona.

Esto ha provocado una explosión viral en el interés sobre los grandes modelos del lenguaje, y algunas personas no expertas han exclamado que contienen capacidades de razonamiento, confundiendo la capacidad de generación de lenguaje y la tecnología de un Chatbot con la inteligencia real. Un gran modelo de lenguaje no razona, no piensa. Sin embargo, puede extraer información de forma admirable ya que se ha entrenado con el equivalente de 20.000 años de lectura.

Es esencial diferenciar entre los LLM y las redes neuronales en general. Mientras que los LLM son un tipo específico de red neuronal, hay muchas otras formas de redes neuronales, como las redes neuronales convolucionales y recurrentes, diseñadas para diferentes tipos de tareas y datos.

Tabla de contenido
1. ¿Los LLMs son seguros? ¿Qué son los guardrails? 
2. Listas verdes, listas rojas 
3. Arquitectura de Transformers y su significado 
4. Componentes clave de los LLM 
5. Tipos de LLMs 
6. Cómo se entrena un LLM 
7. ¿Qué se puede hacer con un LLM una vez entrenado? 
8. Chinchilla y el punto óptimo para el entrenamiento de LLMs 
9. Clarifiquemos conceptos: ¿Los LLMs alucinan? 
10. La famosa ventana de atención 
11. Los LLMs y la AI Generativa no son lo mismo 
12. Ejemplos de modelos de lenguaje grandes populares 
13. Una mirada integral al uso de los LLMs, beneficios y desafíos 
14. Casos de uso de Grandes Modelos de Lenguaje (LLM) ahora y en el futuro 
15. Implicaciones sociales de los modelos de lenguaje grandes 
16. Algunos desafíos pendientes 

 

¿Los LLMs son seguros? ¿Qué son los guardrails?

Los guardrails en los LLM son un conjunto de controles y barreras de seguridad que supervisan la interacción de un usuario con un gran modelo de lenguaje (LLM) con vistas a dictar que este no se desvíe y así garantizar su calidad y coherencia.

En esencia, los guardrails en los LLM establecen un conjunto de sistemas programables basados en reglas que se sitúan entre los usuarios y los modelos fundacionales. Estos sistemas actúan como normas que se aseguran de que el modelo de IA funciona siguiendo los principios definidos por la organización, estableciendo límites claros y definidos para su comportamiento, y evitando la generación de respuestas inapropiadas o dañinas que podrían provenir de los datos de entrenamiento. Por ejemplo, los primeros modelos de GPT fueron criticados por la cantidad de contenido tóxico que podían producir.

Puede considerarse a los guardrails como una forma de "corregir" al modelo cuando éste genera contenido que se desvía demasiado de las normas. Las reglas y restricciones que el modelo debe cumplir se establecen previamente, como por ejemplo, evitar palabras soeces, sexistas o discriminatorias, o bien, asegurarse de que las respuestas del modelo estén escritas en un tono adecuado y respetuoso.

Imagen 1, cortesía de Bing Image Creator 

Cuando el modelo genera una respuesta, se evalúa contra los guardrails establecidos, y si no cumple con ellos, se le pide al LLM que genere una nueva respuesta que sí cumpla con los requisitos establecidos.

La importancia de los guardrails en LLMs radica en que permiten a los desarrolladores y usuarios de estos modelos controlar y direccionar su comportamiento, asegurándose de que los modelos se utilicen de manera responsable y ética. Además, los guardrails también ayudan a prevenir errores y problemas potenciales que podrían surgir de la falta de control sobre el modelo, como por ejemplo, la generación de contenido inapropiado o perjudicial.

Los guardrails pueden utilizarse para:

  • Evitar que los LLM generen contenido dañino u ofensivo;

  • Garantizar que los LLM se utilizan de forma alineada con los valores y la misión de la organización;

  • Proteger la privacidad y seguridad de los datos de los usuarios;

  • Mejorar la fiabilidad y precisión de los LLM.

Algunos ejemplos de barreras de seguridad en los LLM son:

  • Listas negras y listas blancas: Los guardrails se pueden utilizar para crear listas negras de palabras y frases que los LLM no pueden generar, y listas blancas de palabras y frases que sí pueden generar;

  • Filtros de contenido: Los guardrails pueden utilizarse para filtrar el contenido generado por un LLM en busca de contenido dañino u ofensivo;

  • Detección de sesgos: Los guardrails pueden utilizarse para detectar sesgos en los resultados de LLM y filtrarlos o marcarlos para su revisión humana;

  • Comprobación de hechos (fact-checking en inglés): Los guardrails pueden utilizarse para comprobar los resultados de LLM y garantizar su exactitud.

Los Guardrails son una parte importante del desarrollo y despliegue responsable de un LLM. Al implementar estos controles, las organizaciones pueden ayudar a garantizar que los LLM se utilicen de forma segura y ética.

Pangeanic ha colaborado en la creación de guardrails para LLMs con el Barcelona SuperComputing Center. Vea el caso de estudio sobre LLMs.

 

Listas verdes, listas rojas

En el contexto de los grandes modelos lingüísticos (LLM), las "listas verdes" están relacionadas con un método utilizado para incrustar marcas de agua en el texto generado por estos modelos. La idea que subyace a este método es mitigar los daños potenciales que podrían derivarse del texto generado por los LLM. En el contexto de los grandes modelos lingüísticos (LLM), las listas verdes se refieren a un conjunto de palabras, frases u oraciones que se consideran aceptables o deseables para ser generadas por el modelo. Estas listas suelen ser creadas por humanos y sirven para guiar la salida del modelo hacia un texto coherente y con sentido.

Las listas verdes pueden utilizarse de varias formas durante el proceso de entrenamiento de un LLM. He aquí algunos ejemplos:

  1. Siembra: Al principio del entrenamiento, el modelo puede inicializarse con un pequeño conjunto de palabras o frases predefinidas de la lista verde. Esto ayuda al modelo a empezar a generar texto coherente y reduce el riesgo de producir resultados aleatorios o sin sentido.

  2. Ingeniería de instrucciones: Los investigadores suelen diseñar cuidadosamente las preguntas para obtener respuestas específicas del modelo. Las listas verdes pueden utilizarse para garantizar que las instrucciones contengan el lenguaje y los conceptos adecuados, facilitando así que el modelo genere respuestas pertinentes y coherentes.

  3. Métricas de evaluación: Las listas verdes pueden emplearse como parte de las métricas de evaluación para valorar la calidad y relevancia de los resultados del modelo. Por ejemplo, los investigadores pueden comparar el texto generado por el modelo con una lista verde de palabras clave o frases relevantes para determinar hasta qué punto el modelo entiende el tema en cuestión.

  4. Dirigir el modelo: Las listas verdes pueden utilizarse activamente durante la inferencia (generación) para dirigir el modelo hacia los temas, estilos o formatos deseados. Esto puede hacerse condicionando la entrada del modelo o proporcionando señales adicionales que animen al modelo a centrarse en aspectos específicos de la tarea.

  5. Seguridad y ética: Las listas verdes pueden ayudar a mitigar los riesgos potenciales asociados a los LLM, como los resultados sesgados o perjudiciales. Al definir un conjunto de palabras, frases o conceptos aprobados, es menos probable que el modelo genere contenidos que podrían considerarse inapropiados u ofensivos.

Es importante señalar que, aunque las listas verdes pueden ser útiles para guiar el comportamiento de los LLM, no siempre son eficaces para evitar resultados no deseados. Los modelos pueden producir respuestas inesperadas o no deseadas, especialmente si están expuestos a entradas conflictivas o ambiguas. Por lo tanto, es esencial seguir supervisando y evaluando el rendimiento de los LLMs incluso cuando se utilizan listas verdes.

  1. El concepto consiste en crear una distribución de probabilidades para la siguiente palabra que se genere y ajustar este proceso para incrustar una marca de agua. Un código hash generado a partir de un token anterior clasifica el vocabulario en palabras de la "lista verde" y de la "lista roja".

  2. Un método propuesto por Kirchenbauer et al. (2023) dividía el vocabulario en listas rojas y verdes y el sistema aprendió a preferir generar tokens a partir de la lista verde. Esta división mejora la robustez de los algoritmos que proporcionan una marca de agua para LLMs.

  3. Un número aleatorio específico (seed en inglés, en el campo de la IA) puede dividir aleatoriamente todo el vocabulario en dos listas de igual tamaño, una "lista verde" y una "lista roja". El siguiente token se genera posteriormente a partir de la lista verde, como parte de un método para detectar textos generados por grandes modelos de lenguaje (LLM).

  4. En otro método, la división en "lista verde" y "lista roja" se basa en el token de prefijo, lo que aumenta sutilmente la probabilidad de elegir de la lista verde. Si en una oración con marca de agua se edita cada segundo token cambiándolo por su sinónimo, se vuelve difícil determinar las listas verde/roja para cada token. Este método para detectar texto generado por LLMs se basa en explotar el hecho de que los LLMs tienen una mayor probabilidad de generar tokens similares a los que ya han generado. Esto se debe a que los LLMs se entrenan con grandes conjuntos de datos textuales y aprenden a predecir el siguiente token en una secuencia, basándose en los tokens previamente ya generados.

En este método, se crea una marca de agua dividiendo de manera aleatoria el vocabulario en una "lista verde" y una "lista roja". La lista verde contiene los tokens con más probabilidades de ser generados por los LLMs, y la lista roja los tokens con menos, de modo que al generar el LLM un texto, se ve obligado a elegir tokens de la lista verde. Esto crea una sutil marca de agua en el texto, que algunos usuarios frecuentes de LLMs detectan por el “estilo neutro y educado” caracterizado por respuestas poco profundas y no conflictivas que no toman partido y el uso de ciertas expresiones y conjunciones. Dentro del sistema, se puede detectar al verificar la proporción de tokens que están en la lista verde.

Si el texto se edita cambiando cada segundo token por su sinónimo, se vuelve más difícil detectar la marca de agua. Esto se debe a que es probable que los sinónimos también estén en la lista verde.

Algunos estudios actuales se concentran en la utilización de métodos sofisticados, como el análisis estadístico, para detectar texto generado por Inteligencia Artificial.

Arquitectura de Transformers y su significado

Un LLM es un modelo lingüístico de gran tamaño. Es un tipo de modelo de aprendizaje automático que puede realizar diversas tareas de procesamiento del lenguaje natural (PLN), como generar y clasificar texto, responder a preguntas conversacionales y traducir texto de un idioma a otro.

Imagen 2, Los Transformers cambiaron la forma de procesar el lenguaje. Cortesía de Bing Image Creator 

El término "grande" se refiere al número de valores (parámetros) que el modelo puede cambiar por sí solo durante el proceso de aprendizaje. Algunos de Los LLMs más exitosos tienen cientos de miles de millones de parámetros.

El corazón de un LLM suele ser un modelo Transformers. Estos se componen de un codificador y un decodificador y son conocidos por su capacidad de manejar dependencias a larga distancia mediante lo que se conoce como mecanismos de autoatención. Como su nombre indica, la autoatención, en particular la atención multi-cabeza, permite al modelo considerar múltiples partes del texto simultáneamente, ofreciendo una comprensión más holística y rica del contenido.

Componentes clave de los LLM

Dentro de estos modelos, encontramos diversas capas de redes neuronales que trabajan en conjunto:

  • Capa de Incrustación: Transforma el texto de entrada en vectores, capturando su significado semántico y sintáctico.

  • Capa Feedforward: Está formada por redes completamente conectadas que procesan las incrustaciones y ayudan a comprender la intención detrás de una entrada.

  • Capa Recurrente: Tradicionalmente, interpretan palabras en secuencia, estableciendo relaciones entre ellas.

  • Mecanismo de Atención: Focaliza en partes específicas del texto relevante para la tarea que se está llevando a cabo, mejorando la precisión de las predicciones.

Tipos de LLMs

Existen diversos tipos de LLM, entre los que destacan:

  • Modelos de lenguaje genéricos: Se centran en predecir la siguiente palabra basándose en el contexto de entrenamiento.

  • Modelos entrenados mediante instrucciones: Son entrenados específicamente para tareas como análisis de sentimiento o generación de código.

  • Modelos de diálogo: Actualmente los más populares, los que todo el mundo usa. Están diseñados para simular conversaciones, como chatbots o asistentes basados en la IA.

Dada la naturalidad de su expresión, las soluciones basadas en LLMs han recibido mucha financiación y muchas empresas de todos los tamaños invierten en la customización de LLMs, con promesas de resolución de problemas a gran escala en múltiples industrias, desde la atención médica —donde pueden ayudar en diagnósticos— hasta el marketing, donde el análisis de sentimiento puede ser crucial.

Cómo se entrena un LLM

Los LLMs se entrenan con grandes cantidades de datos. La cantidad de datos utilizados para entrenar GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4, Llama y Llama 2 no ha dejado de crecer, como tampoco la necesidad de adquirir más datos limpios y de calidad, originales y fiables. Por ejemplo:

  • GPT-1 fue entrenado con 40 GB de datos de texto (600 mil millones de palabras);

  • GPT-2 con 40 GB de datos de texto;

  • GPT-3 multiplicó por más de 16 la cantidad de datos de texto[3][4] para alcanzar los 570 GB;

  • GPT-3.5: No se ha encontrado información específica sobre la cantidad de datos utilizados para entrenar este modelo.

  • GPT-4: Entrenado con una mayor cantidad de datos que GPT-3, pero no se ha encontrado información específica sobre la cantidad de datos utilizados para entrenar este modelo.

  • Llama: No se ha encontrado información específica sobre la cantidad de datos utilizados para entrenar este modelo.

  • Llama 2: Entrenado con un 40% más de datos que su predecesor Llama, lo que le permite aprender de una gama más amplia de fuentes públicas[1] [2].

Recordemos que la cantidad de datos utilizados para entrenar un modelo lingüístico no es el único factor que determina su rendimiento, como tampoco lo son los miles de millones de parámetros. Otros factores, como la arquitectura del modelo, la calidad y limpieza de los datos y el proceso de entrenamiento, también desempeñan un papel importante.

Tomemos como ejemplo dos de los LLMs más conocidos del mundo: Llama2 (de código abierto) y ChatGPT (de código cerrado y uso comercial).

Llama2

El objetivo era construir un único modelo que pudiera funcionar bien en múltiples tareas de texto a texto, como la clasificación de textos, el análisis de sentimientos, el reconocimiento de entidades con nombre, la respuesta a preguntas y, en mucha menor media, la traducción automática [5] [6]. El equipo de Meta quería explorar los límites de escalabilidad de los modelos basados en transformadores e investigar el impacto del tamaño y la complejidad en el rendimiento. Su objetivo era crear un modelo que sirviera de base sólida para futuras investigaciones sobre la transformación de texto a texto.

Imagen 3, META released Llama2 in summer 2023. Cortesía de Bing Image Creator

Arquitectura y componentes:

LLAMA2 utiliza una arquitectura Transformers con una novedosa combinación de redes de autoatención multicabezal y redes feedforward. Consta de varios modelos de componentes, cada uno diseñado para una tarea específica: BERT para incrustaciones contextualizadas, RoBERTa para comprensión semántica a nivel de frase, DistilBERT para respuesta a preguntas, y un módulo codificador-decodificador diseñado a medida para tareas de secuencia a secuencia. El modelo se ha entrenado combinando el modelado del lenguaje enmascarado, la predicción de la siguiente frase y objetivos específicos de la tarea.

Proceso de entrenamiento:

Los autores utilizaron un marco informático distribuido para entrenar LLAMA2 con un conjunto de datos compuesto de texto procedente de diversas fuentes, como libros, artículos y sitios web.

Imagen 4, Datos utilizados para Llama2 . Fuente: Artículo descriptivo de Meta Llama2.

Se empleó una estrategia de aprendizaje curricular, empezando con un pequeño subconjunto de los datos y aumentando gradualmente el tamaño del lote y el número de pasos durante el entrenamiento, utilizándose una mezcla de números de coma flotante de 16 y 32 bits para almacenar los pesos del modelo y realizando un control de gradiente para reducir el uso de memoria.

Resultados experimentales:

LLAMA2 obtuvo los mejores resultados en varios conjuntos de datos de referencia, como GLUE, SuperGLUE y WMT.

En la prueba GLUE, LLAMA2 superó al modelo anterior, BERT, en un 4,8% de media.

En la prueba SuperGLUE, LLAMA2 mejoró el rendimiento de BERT en un 7,7% de media.

En la tarea de traducción WMT, LLAMA2 obtuvo resultados competitivos en comparación con los modelos más avanzados.

Componente esencial: Aprendizaje por refuerzo de feedback humano

Llama 2 se pre-entrenó utilizando datos públicos en Internet (principalmente CommonCrawl, y en menor medida de libros y contenido de Wikipedia pero no de los usuarios de los sistemas de Meta). A continuación, se creó una versión inicial de Llama-2-chat mediante el uso de un ajuste fino supervisado. A continuación, Llama-2-chat se refinó de forma iterativa utilizando el Aprendizaje por refuerzo de feedback humano (RLHF), que incluye el muestreo de rechazo y la optimización de políticas proximales (PPO). Los autores utilizaron un algoritmo de optimización multiobjetivo para buscar los parámetros óptimos del modelo que equilibrasen objetivos contrapuestos, como la perplejidad, la calidad de la respuesta y la seguridad. Incorporaron RLHF para ajustar el modelo y alinearlo con las preferencias humanas y el seguimiento de instrucciones.

Imagen 5, Llama2 RLHF . Meta

El proceso RLHF consistió en recopilar información humana en forma de valoraciones y comparaciones entre respuestas alternativas generadas por el modelo. Los autores utilizaron esta información para actualizar las ponderaciones del modelo y mejorar su rendimiento. También añadieron datos adicionales al conjunto de entrenamiento, incluidas conversaciones de Internet y texto generado por humanos, para aumentar la diversidad de los datos de entrenamiento.

Uno de los principales retos a la hora de entrenar el LLaMA2 fue resolver el problema del sesgo de exposición, por el que el modelo genera respuestas demasiado similares a las observadas durante el entrenamiento. Para solucionar este problema, los autores introdujeron una técnica novedosa llamada Entrenamiento Adversarial Latente (LAT), que añade ruido a las instrucciones de entrada para animar al modelo a generar respuestas más diversas.

Otro reto era garantizar que el modelo fuese seguro y respetuoso, y la documentación de Meta trata este tema en gran profundidad. Los autores desarrollaron un filtro de seguridad que rechazaba las respuestas inapropiadas o que incumplían determinados criterios. También incorporaron un mecanismo de "amortiguación" que detenía temporalmente el entrenamiento cuando se detectaban respuestas inseguras.

En términos de iteraciones, los autores realizaron múltiples rondas de ajuste y evaluación, refinando gradualmente los parámetros del modelo y mejorando su rendimiento. También experimentaron con distintos hiperparámetros y técnicas, como añadir capas adicionales o modificar la función de recompensa, para optimizar el rendimiento del modelo.

En general, el éxito de LLaMA2 se basa en una combinación de factores, como el uso de RLHF, la optimización de iteraciones a gran escala, la elección cuidadosa de hiperparámetros y técnicas innovadoras para abordar retos específicos.

ChatGPT

ChatGPT es un servicio lanzado el 30 de noviembre de 2022 por OpenAI y actualmente se ofrece como GPT-3.5 o GPT-4, miembros de la serie de modelos de transformadores generativos preentrenados (GPT) propiedad de OpenAI. ChatGPT no es un modelo entrenado desde cero, sino que a su vez es una versión mejorada de GPT-3 con capacidades de conversación (chatbot) y amplia memoria para recordar conversaciones. El modelo GPT-3 original se entrenó con un inmenso conjunto de datos de Internet (570 gigabytes de texto y 175.000 millones de parámetros), que incluía texto extraído de Wikipedia, Twitter y Reddit.

Imagen 6, Cantidad de datos utilizados por OpenAI en el entrenamiento de ChatGPT. 

Para perfeccionar ChatGPT, el equipo utilizó una metodología similar a la empleada para InstructGPT. En términos de datos, para el desarrollo de ChatGPT se utilizó información pública disponible en Internet, información cedida bajo licencia por terceros e información proporcionada por usuarios o formadores humanos. A continuación describiremos el proceso.

El proceso de desarrollo y entrenamiento fue un proceso multifacético: aprendizaje supervisado, modelo de recompensa y preentrenamiento generativo, y modelo de aprendizaje por refuerzo con retroalimentación humana. Al igual que haría el equipo de Meta posteriormente, OpenAI utilizó el aprendizaje por refuerzo a partir de los comentarios humanos para ajustar ChatGPT a las preferencias humanas.

1. Preentrenamiento generativo

Inicialmente, ChatGPT se preentrenó con un gran corpus de datos de texto, proveniente en su mayoría de CommonCrawl y en menor medida, contenido de Wikipedia y libros. La idea central era aprender un modelo estadístico del lenguaje que pudiese generar textos gramaticalmente correctos y semánticamente significativos. Se usó el aprendizaje no supervisado cómo técnica, de modo que el modelo aprendió a predecir la siguiente palabra de una frase procesando grandes cantidades de datos de texto. La arquitectura Transformer, especialmente conocida por su capacidad para manejar secuencias de datos, desempeña un papel fundamental en esta fase puesto que permite al modelo comprender las relaciones entre las distintas palabras de una frase, aprendiendo así la sintaxis y la semántica del lenguaje.

2. Ajuste supervisado

Tras el preentrenamiento, el modelo se sometió a una fase de ajuste supervisado en la que se entrenó con un conjunto de datos más específico para la tarea en cuestión, que en este caso es participar en un diálogo conversacional. Este conjunto de datos suele generarse con la ayuda de instructores humanos de IA que entablan conversaciones y proporcionan al modelo las respuestas correctas. Esta fase perfecciona la capacidad del modelo para generar respuestas contextualmente relevantes y coherentes en un entorno conversacional.

3. Aprendizaje por refuerzo a partir de respuestas humanas (RLHF)

La fase final consiste en el aprendizaje por refuerzo, en el que el modelo se perfecciona aún más mediante un método conocido como Aprendizaje por Refuerzo con feedback humano (RLHF, por sus siglas en inglés). En esta fase, los formadores de IA interactúan con el modelo y las respuestas generadas por ChatGPT se clasifican en función de su calidad. Esta clasificación forma un modelo de recompensa que guía el proceso de aprendizaje por refuerzo. Al utilizar el bucle de retroalimentación, el método RLHF ayuda a minimizar cualquier generación de texto considerado perjudicial, sesgado o falso por parte del modelo como podía suceder con GPTs anteriores. Durante esta fase, se realizan múltiples iteraciones de retroalimentación y entrenamiento para mejorar continuamente el rendimiento del modelo.

El conjunto de datos empleado para entrenar ChatGPT sorprendió a toda la comunidad científica por su amplitud. Gracias al RLHF, incluyó un rico conjunto de datos conversacionales específicamente seleccionados para ayudar a aprender los matices del diálogo humano. Los datos de entrenamiento se sometieron a un preprocesamiento mediante técnicas de tokenización y normalización para garantizar que estuviesen en un formato adecuado para el entrenamiento. La tokenización descompone el texto en unidades más pequeñas (tokens), y la normalización garantiza la coherencia en la representación del texto, lo que es crucial para entrenar un modelo sólido.

Además, los creadores de ChatGPT emplearon un modelo de recompensa para reforzar el aprendizaje, que es integral en la fase de aprendizaje por refuerzo. Este modelo se construye a partir de las evaluaciones de los instructores de IA que interactúan con ChatGPT, califican las respuestas y proporcionan valiosos comentarios. Este mecanismo iterativo de retroalimentación es fundamental para perfeccionar el modelo y generar con el tiempo respuestas de mayor calidad, más precisas y más seguras.

El proceso de formación de ChatGPT fue meticulosamente diseñado para dotar al modelo de una amplia comprensión del lenguaje, perfeccionar sus capacidades de interacción y, por último, afinar sus respuestas en función de los comentarios humanos para garantizar que sus resultados fuesen útiles, seguros y de alta calidad.

¿Qué se puede hacer con un LLM una vez entrenado?

Una vez que se ha entrenado un LLM, se puede afinar para una amplia gama de tareas de PLN, entre las que se incluyen:

  • Creación de chatbots como ChatGPT.

  • Generación de textos para descripciones de productos, entradas de blog y artículos.

  • Responder a las preguntas más frecuentes (FAQ) y dirigir las consultas de los clientes a la persona más adecuada.

  • Analizar los comentarios de los clientes en correos electrónicos, redes sociales y reseñas de productos.

  • Traducir contenidos empresariales o conversacionales a diferentes idiomas (aunque los idiomas menos representados tienen una calidad muy inferior a los idiomas con grandes recursos y la traducción resulta mucho más lenta y cara que con redes neuronales).

  • Clasificar y categorizar grandes volúmenes de datos de texto para procesarlos y analizarlos con mayor eficacia.

Chinchilla y el punto óptimo para el entrenamiento de LLMs

El documento "Chinchilla" [1], una contribución significativa al campi de la IA y del desarrollo de LLMs y ofrece interesantes perspectivas sobre el entrenamiento de LLMs. Los experimentos parecen indicar que existe un "punto óptimo" para el entrenamiento de LLMs y que más allá de este punto, invertir más recursos en el entrenamiento en forma de más parámetros no necesariamente conduce a un aumento proporcional en el rendimiento. El documento enfatiza que no es sólo el tamaño de un modelo lo que influye en su rendimiento, sino que, como sucede con los modelos de traducción basados en redes neuronales, lo importante es la calidad de los datos y de la cantidad de datos utilizados.

Los autores del artículo hallaron que, para un entrenamiento óptimo en términos de cómputo, el tamaño del modelo y el número de tokens de entrenamiento deben escalarse por igual: por cada duplicación del tamaño del modelo, el número de tokens de entrenamiento también debe duplicarse.

Para probar esta hipótesis, entrenaron a Chinchilla, un modelo de 70 mil millones de parámetros entrenado con 1,4 trillones americanos de tokens. A pesar de ser mucho más pequeño que Gopher, como podemos ver en la tabla siguiente, Chinchilla supera a Gopher en casi todas las evaluaciones, incluidas el modelado del lenguaje, la respuesta a preguntas, las tareas de sentido común, etc.

Imagen 7, Datos de entrenamiento de Chinchilla. 

Clarifiquemos conceptos: ¿Los LLMs alucinan?

En cierto sentido, los LLMs sí «alucinan» ya que se han entrenado con grandes cantidades de datos de texto, que pueden contener información incorrecta o sesgada. Cuando los LLMs generan texto, pueden incorporar esta información incorrecta o sesgada en sus respuestas. Esto puede dar la impresión de que los LLMs están alucinando, ya que están generando información que no es real o que no se basa en la realidad pero de una forma categórica que puede engañar al usuario y hacerle creer que se haya ante una respuesta correcta.

Los LLMs pueden alucinar porque se han entrenado con grandes cantidades de datos de texto y código que, pese a aplicar diversos filtros de limpieza, pueden contener información incorrecta o sesgada. De hecho, casi todos los esfuerzos durante la aplicación del aprendizaje por refuerzo con feedback humano, valoraciones y testeo, van dirigidas a evitar la producción de texto inseguro o poco útil, como se describe en el artículo de Meta sobre Llama2 u OpenAI sobre ChatGPT.

Todos los LLMs usan CommonCrawl y diversas fuentes de Internet como material base de entrenamiento y aprendizaje. Pese a los procesos de limpieza y eliminación del sesgo, es imposible verificar toda la información cuando tratamos con terabytes de texto. Por ello, un LLM tiene una “fecha de corte” o “fecha de último conocimiento”, aunque se están realizando esfuerzos para mejorar las respuestas con información más actualizada incluyendo resultados de la web.

Imagen 8, Los LLMs pueden alucinar. Cortesía de Bing Image Creator 

Por ejemplo, un LLM podría ser entrenado con un conjunto de datos de texto que contuviese información incorrecta o desfasada sobre el clima. El conjunto de datos podría decir que la temperatura promedio en un país es de 20ºC. Cuando al LLM se le preguntase sobre el clima de ese país, podría responder que la temperatura promedio es de 20ºC. Esto sería una alucinación porque la temperatura promedio real en ese país (pongamos a España como ejemplo) es de 17 grados.

Los LLMs también pueden alucinar porque, no lo olvidemos, están entrenados para ser creativos y “generativos”. Todo el resto de capacidades (cómo redactar código o traducir) son capacidades que han aparecido de modo no intencionado como consecuencia del reconocimiento de patrones lingüísticos sobre enormes cantidades de texto.

Cuando a un LLM se le presenta una nueva pregunta, puede generar una respuesta que sea nueva e interesante pero que sin embargo, podría no ser precisa o consistente con el mundo real. De hecho, las primeras críticas a ChatGPT a principios de año se centraban en ser un “loro estocástico”.

Por ejemplo, un LLM podría ser entrenado en un conjunto de datos de texto que contiene información sobre la historia de España. El conjunto de datos podría decir que España fue fundada por un grupo de personas que vinieron de África. Cuando el LLM se le pregunta sobre la historia de España, podría responder que España fue fundada por un grupo de personas que vinieron de África. Esto sería una alucinación porque la historia real de España es mucho más compleja.

Además, los LLMs pueden ser propensos a generar respuestas que son creativas o imaginativas. Esto se debe a que los LLMs están entrenados para generar texto que sea similar al texto que se les ha presentado en el conjunto de datos de entrenamiento. Si el conjunto de datos de entrenamiento contiene texto creativo o imaginativo, los LLMs pueden ser propensos a generar texto similar. Esto podría dar la impresión de que los LLMs están alucinando, ya que están generando información que no es real. Sin embargo, es importante tener en cuenta que los LLMs no son seres conscientes. No tienen la capacidad de experimentar la realidad de la misma manera que los humanos. La información que generan los LLMs es simplemente una función de los datos en los que han sido entrenados.

La famosa ventana de atención

La ventana de atención es un concepto fundamental en los grandes modelos de lenguaje (LLMs) que define el alcance de los tokens a los que un LLM puede referirse al generar el siguiente token. Esta ventana determina la cantidad de contexto que un LLM puede considerar al generar texto, lo que facilita la comprensión de las dependencias de largo alcance en el texto.

En sus inicios, los LLMs tenían ventanas de atención de solo unos pocos tokens. Por ejemplo, en los tiempos de la traducción automática estadística, la ventana de atención se reducía a unos pocos n-gramas (palabras). Con la traducción automática neuronal, la ventana de atención se amplió a toda una frase, ganando mucho en fluidez. ChatGPT y los LLMs en general han aumentado la ventana de atención a unos 64.000 tokens (más de 50.000 palabras), lo cual es el tamaño de una tesis doctoral.

Imagen 9, Las ventanas de atención desde la traducción automática estadística a la neuronal a los LLMs. Presentación de Pangeanic en la Universidad de Surrey (Convergence Lectures), Octubre 2023. 

El aumento de la ventana de atención en los LLMs modernos ha tenido un impacto significativo en la generación de texto, mejorando el rendimiento en diversas tareas como el modelado del lenguaje, la respuesta a preguntas y la traducción.

El crecimiento de la ventana de atención también ha afectado el nivel de coherencia en el texto generado. Los LLMs iniciales tendían a producir texto con coherencia local (como sucedía con la traducción estadística y neuronal), pero los LLMs modernos son capaces de generar texto coherente a nivel de todo el documento, de modo muy global. Esto se debe a que los LLMs modernos pueden considerar una cantidad de contexto mucho mayor, lo que les permite comprender mejor el tema del texto que están generando.

El tamaño de la ventana de atención puede afectar significativamente la generación de texto:

  • Una ventana de atención pequeña puede conducir a texto repetitivo o sin sentido contextual. Esto se debe a que el LLM no puede considerar suficiente contexto para generar texto coherente

  • Una ventana de atención grande puede generar texto más contextualmente relevante, informativo, creativo y original. Esto se debe a que el LLM puede considerar una cantidad de contexto mucho mayor, lo que le permite generar texto más preciso y completo. Sin embargo, una ventana de atención excesivamente grande podría abrumar al LLM, lo que podría ralentizar la generación de texto o producir texto incoherente. El tamaño óptimo de la ventana de atención depende de la tarea específica. Por ejemplo, las tareas de modelado del lenguaje pueden beneficiarse de una ventana más pequeña, mientras que las tareas de respuesta a preguntas o traducción pueden requerir una ventana más grande.

Los LLMs y la AI Generativa no son lo mismo

Es fundamental distinguir entre los LLMs y la AI generativa. Mientras que los LLMs se centran en el texto, la AI generativa abarca un espectro más amplio, multimodal, incluyendo la creación de imágenes, música y más. Todos los LLMs pueden considerarse parte de la AI generativa, pero no toda AI generativa es un LLM.

A modo de ejemplo, Claude2 de Anthropic, PaLM de Google, y los famosos ChatGPT o Llama2 son LLMs, mientras que Stable Diffusion o Bing Image Creator de Microsoft, basado en Dall-e 3, son AI Generativa pero producen imágenes, no son grandes modelos de lenguaje.

Ejemplos de modelos de lenguaje grandes populares

Como hemos venido diciendo, los LLMs se han convertido en una herramienta esencial para una amplia gama de aplicaciones, desde la atención al cliente hasta la investigación científica. Algunos ejemplos de modelos de lenguaje grandes populares incluyen:

  • ChatGPT: un chatbot de inteligencia artificial generativa desarrollado por OpenAI.

  • PaLM: Pathways Language Model (PaLM) de Google, un modelo de lenguaje de transformadores capaz de realizar razonamientos aritméticos y de sentido común, explicar bromas, generar código y traducir.

  • BERT: el modelo de lenguaje representación de codificador bidireccional de transformadores (BERT) también se desarrolló en Google. Es un modelo basado en transformadores que puede comprender el lenguaje natural y responder preguntas.

  • XLNet: un modelo de lenguaje de permutación, XLNet generó predicciones de salida en un orden aleatorio, lo que lo distingue de BERT. Evalúa el patrón de tokens codificados y luego predice los tokens en orden aleatorio, en lugar de en un orden secuencial.

  • GPT: los transformadores generativos preentrenados son quizá los modelos de lenguaje grandes más conocidos. Desarrollados por OpenAI, GPT es un modelo fundacional popular cuyas iteraciones numeradas son mejoras de sus predecesores (GPT-3, GPT-4, etc.).

Una mirada integral al uso de los LLMs, beneficios y desafíos

Después de unos meses de auténtico shock y pavor por parte de las grandes tecnológicas a finales de 2002 y principios de 2023, los grandes modelos de lenguaje (LLMs) se han convertido en un pilar clave de prácticamente todas las industrias. Estos modelos, que forman parte de la vanguardia tecnológica, están redefiniendo cómo las máquinas interactúan con los humanos y cómo procesan el lenguaje... e incluso cómo los humanos interactuamos entre nosotros con la medición de máquinas.

Aplicaciones versátiles de los LLM

  • Recuperación de información: Plataformas como Google y Bing dependen enormemente de los LLMs. Estos modelos no solo recuperan datos en respuesta a una consulta, sino que también pueden resumir y presentar la información de forma comprensible y amena.

  • Análisis de sentimiento: Las empresas, especialmente las de marketing y relaciones públicas, emplean los LLMs para evaluar el sentimiento de las opiniones de los usuarios, proporcionando insights valiosos sobre productos o servicios.

  • Generación de texto y código: Los LLMs, como ChatGPT, pueden crear contenido desde cero. Desde componer poesías hasta escribir fragmentos de código, la versatilidad de estos modelos es asombrosa.

  • Chatbots e IA conversacional: Los LLMs han revolucionado la atención al cliente, permitiendo que los bots comprendan y respondan a las consultas de los usuarios de forma más natural y efectiva.

LLMs en diversos sectores

Los grandes modelos de lenguaje tienen el potencial de cambiar el modo en el que muchos sectores funcionan, eficientando cómo los profesionales llevan a cabo su labor. Por ahora, ya han provocado cambios radicales en el mundo como lo conocíamos.

  • Tecnología: Más allá de los motores de búsqueda, los desarrolladores utilizan LLM para asistir en la codificación y resolver problemas complejos.

  • Salud y ciencia: Los LLMs contribuyen al progreso médico al interpretar información genética y ayudar en la investigación de enfermedades. También pueden actuar como asistentes médicos virtuales.

  • Sector jurídico-legal, financiero y banca: Abogados y expertos financieros están empezando a aprovechar el poder de los LLMs para buscar información y detectar patrones, lo que resulta útil para la detección de fraudes o la interpretación de leyes.

Ventajas de los LLM

Las ventajas que nos ofrecen los LLMs a la sociedad, pese a nos ser “seres pensantes” y carecer de capacidades de razonamiento, son numerosísimos.

Amplísimo espectro de aplicaciones: Su versatilidad abarca desde la traducción de idiomas hasta la solución de problemas matemáticos complejos.

Mejora y aprendizaje continuo: A medida que se introducen más datos, su precisión y rendimiento mejoran. Los LLMs aprenden constantemente, adaptándose a nuevos contextos.

Aprendizaje rápido: Con el "aprendizaje en contexto", Los LLMs pueden adaptarse rápidamente a nuevas tareas sin requerir un entrenamiento extenso.

Desafíos y limitaciones

  • Alucinaciones: Como hemos tratado más arriba, en ocasiones, los LLMs pueden generar respuestas inapropiadas o incorrectas que no reflejan la realidad o la intención del usuario.

  • Seguridad y sesgo: Los LLMs pueden ser manipulados para difundir información falsa o sesgada. Además, la integridad y privacidad de los datos es una preocupación constante.

  • Consentimiento y derechos de autor: Existen preocupaciones sobre cómo se obtienen y utilizan los datos de entrenamiento, pues de muchas empresas se han utilizado sus datos web sin su permiso. Esto incluye problemas potenciales con el plagio y la infracción de derechos de autor. Algunas empresas han empezado a poner “cláusulas anti-crawl" en el fichero robots.txt para ChatGPT /OpenAI para que no aprovechen la publicación de información en sus webs.

  • Escalado y despliegue: Los LLMs son complejos y requieren una infraestructura considerable, así como conocimientos técnicos avanzados para su implementación y mantenimiento.

Los grandes modelos de lenguaje están redefiniendo la intersección entre tecnología y lenguaje. Con un potencial inmenso para mejorar y facilitar la interacción humano-máquina, los LLMs continúan avanzando y seguirán avanzando a pasos agigantados, posiblemente siendo una pieza del puzzle hacia una inteligencia general artificial (AGI), el verdadero objetivo de Sam Altman, CEO de OpenAI. Por ello, es esencial abordar sus desafíos para garantizar que esta tecnología beneficie a la sociedad de manera ética y responsable.

Casos de uso de Grandes Modelos de Lenguaje (LLM) ahora y en el futuro

Según Gartner, existe una amplia variedad de casos de uso en numerosas industrias para los Grandes Modelos de Lenguaje y su potencial campo de aplicación sigue en constante expansión. Estos son algunos casos de uso actuales y potenciales para los LLM:

Casos de Uso Actuales:

  1. Procesamiento del Lenguaje Natural (PLN): Los LLMs se pueden utilizar en tareas de PLN como clasificación de texto, análisis de sentimiento, reconocimiento de entidades nombradas, traducción automática y reconocimiento de voz.

  2. Chatbots y asistentes virtuales: Los LLMs impulsan chatbots y asistentes virtuales, permitiéndoles entender y responder a las consultas de los usuarios, mejorando así el servicio al cliente y reduciendo los costes de soporte.

  3. Traducción de idiomas: Los LLMs se emplean en plataformas de traducción automática, permitiendo traducciones más rápidas y precisas, rompiendo barreras lingüísticas y facilitando la comunicación entre culturas.

  4. Resumen de texto: Los LLMs pueden condensar textos extensos en resúmenes concisos y significativos, ahorrando tiempo a los usuarios y mejorando la comprensión.

  5. Análisis del sentimiento en texto: Los LLMs analizan los sentimientos en los datos de texto, ayudando a las empresas a evaluar las opiniones de los clientes, identificar tendencias y tomar decisiones informadas.

  6. Generación de contenido: Los LLMs generan contenido de alta calidad, como artículos, publicaciones en blogs y posts en redes sociales, disminuyendo la necesidad de escritores humanos y agilizando los procesos de creación de contenido. 

  7. Respuestas a preguntas: Los LLMs responden preguntas basadas en la información con la que fueron entrenados, proporcionando respuestas rápidas a consultas comunes y liberando recursos humanos para tareas más complejas.

  8. Generación de código: Los LLMs generan fragmentos de código, automatizando ciertas tareas de programación y acelerando los ciclos de desarrollo de software. 

  9. Revisión de Documentos Legales: Los LLMs revisan documentos legales, identifican cláusulas relevantes, destacan inconsistencias y simplifican el proceso de revisión de contratos.

  10. Diagnóstico Médico: Los LLMs asisten a los médicos en el diagnóstico de enfermedades mediante el análisis de registros médicos, identificación de patrones y sugerencia de posibles tratamientos.

Casos de Uso Futuros:

  1. IA conversacional mejorada: Los LLMs seguirán perfeccionando las capacidades de IA conversacional, permitiendo diálogos más sofisticados entre humanos y máquinas, y difuminando las líneas entre las interacciones humanas y de IA.

  2. Reconocimiento de emociones: Los LLMs se volverán expertos en reconocer emociones a partir de entradas de voz, texto y visuales, lo que permitirá respuestas empáticas y una mejor colaboración entre humanos y IA.

  3. IA explicable (XAI): Los LLMs proporcionarán explicaciones claras sobre sus procesos de toma de decisiones, fomentando la confianza y la responsabilidad en las elecciones impulsadas por la IA.

  4. Toma de decisiones éticas: Los LLMs integrarán consideraciones éticas en sus marcos de toma de decisiones, asegurando equidad, transparencia y cumplimiento con los principios morales.

  5. Escritura y redacción creativa: Los LLMs se aventurarán en la escritura creativa, generando historias, poemas y guiones originales, y potencialmente interrumpiendo las formas de arte tradicionales.

  6. Conversión voz a texto y texto a voz: Los LLMs mejorarán las capacidades de conversión de voz a texto y de texto a voz, mejorando la accesibilidad para personas con discapacidades y cerrando brechas lingüísticas.

  7. Comunicación multimodal: Los LLMs procesarán y generarán contenido multimodal, combinando texto, imágenes, videos y audio para crear experiencias más ricas y atractivas.

  8. IA en el Borde (Edge AI): Los LLMs se implementarán en dispositivos en el borde, permitiendo el procesamiento localizado, reduciendo la latencia y aumentando la seguridad para IoT y aplicaciones móviles.

  9. Aprendizaje de transferencia: Los LLMs se adaptarán a nuevos dominios y tareas a través del aprendizaje de transferencia, maximizando el valor de los modelos preentrenados y minimizando la necesidad de datos de entrenamiento específicos para tareas.

  10. Inteligencia híbrida: Los LLMs colaborarán con sistemas de Inteligencia Artificial Simbólica, integrando razonamiento basado en reglas y conocimientos de aprendizaje profundo, para alcanzar niveles de rendimiento y eficiencia sin precedentes.

En resumen, a medida que estos modelos se vuelven más grandes y complejos, se espera que sean capaces de realizar tareas incluso más complejas y además de los anteriores puntos, algunos de los posibles avances futuros podrían incluir también:

  • La capacidad de comprender y generar lenguaje natural de manera más natural y fluida.

  • La capacidad de aprender y adaptarse a nuevas tareas de forma más rápida y eficiente.

  • La capacidad de generar diferentes formatos de texto creativo, como poemas, código, guiones, piezas musicales, correo electrónico, cartas, etc.

Estos avances en los LLMs revolucionarán varios sectores, transformando la manera en que interactuamos, trabajamos y vivimos. Sin embargo, es crucial abordar las implicancias éticas, asegurando el desarrollo y la implementación responsables de la IA que beneficien a la sociedad en su conjunto.

Implicaciones sociales de los modelos de lenguaje grandes

Los LLMs tienen el potencial de transformar la sociedad humana de muchas maneras. Por ejemplo, podrían utilizarse para mejorar la atención al cliente, la educación, la investigación científica y la creatividad.

Sin embargo, los LLMs también plantean algunas preocupaciones sociales. Por ejemplo, existe el riesgo de que se utilicen para crear contenido falso o engañoso, o para manipular a las personas.

Conclusiones: Los modelos de lenguaje grandes son una tecnología emergente con un gran potencial. A medida que estos modelos continúen evolucionando, es probable que desempeñen un papel cada vez más importante en nuestras vidas.

Algunos desafíos pendientes

A pesar de su potencial, los LLMs también presentan algunos desafíos pendientes. Uno de los principales desafíos es el sesgo. Los LLMs se entrenan en grandes conjuntos de datos de texto, que pueden estar sesgados.

Esto puede conducir a que los LLMs generen texto que también esté sesgado. Otro desafío es la seguridad. Los LLMs pueden ser utilizados para crear contenido dañino, como discurso de odio o propaganda. Es importante desarrollar medidas de seguridad para proteger contra el uso indebido de los LLM.

En general, los LLMs son una tecnología prometedora con un gran potencial para mejorar nuestras vidas. Sin embargo, es importante ser conscientes de los desafíos pendientes para que podamos desarrollar esta tecnología de manera responsable.

No podemos terminar este artículo sin mencionar a Yann LeCun, el ingeniero jefe de META y responsable de muchos modelos de código abierto sobre los que la comunidad está trabajando, adoptando sus modelos como NLLB, SeamlessM4T o Llama2 sobre los que construir soluciones de IA:

"Una cosa que sabemos es que si los futuros sistemas de IA se construyen siguiendo el mismo modelo que los actuales LLM autorregresivos, pueden llegar a tener muchos conocimientos, pero seguirán siendo tontos.

Seguirán alucinando, seguirán siendo difíciles de controlar y seguirán limitándose a regurgitar cosas en las que han sido entrenadas.

Y LO QUE ES MÁS IMPORTANTE, seguirán siendo incapaces de razonar, de inventar cosas nuevas o de planificar acciones para cumplir objetivos.

Y a menos que puedan ser entrenados a partir de un vídeo, seguirán sin entender el mundo físico.

Los sistemas del futuro "tendrán" que utilizar una arquitectura diferente, capaz de comprender el mundo, de razonar y de planificar para cumplir una serie de objetivos y de guardarraíles.

Estas arquitecturas orientadas a objetivos serán seguras y permanecerán bajo nuestro control porque "nosotros" fijamos sus objetivos y guardarraíles y no pueden desviarse de ellos.

No querrán dominarnos porque no tendrán ningún objetivo que les impulse a dominar (a diferencia de muchas especies vivas, en particular las especies sociales como los humanos). De hecho, los objetivos barrera lo impedirán.

Serán más inteligentes que nosotros, pero seguirán bajo nuestro control.

Nos harán "más" inteligentes.

La idea de que los sistemas inteligentes de IA dominarán necesariamente a los humanos es errónea.

En lugar de multiplicar por 100 los sistemas actuales, lo que no llevará a ninguna parte, tenemos que hacer que estas arquitecturas de IA basadas en objetivos funcionen".

- Yann LeCun VP de AI Meta

 

Fuentes:

[1] How Does Llama-2 Compare to GPT-4/3.5 and Other AI Language Models https://www.promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/

[2] Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper

[3] The Battle for AI Brilliance! Llama 2 vs. ChatGPT | by Stephen - Medium https://weber-stephen.medium.com/unleashing-the-ultimate-ai-battle-llama-2-vs-chatgpt-gpt-3-5-a-creative-showdown-9919608200d7

[4] 6 main differences between Llama 2, GPT-3.5 & GPT-4 - Neoteric https://neoteric.eu/blog/6-main-differences-between-llama2-gpt35-and-gpt4/

[5] Fine-tune your own Llama 2 to replace GPT-3.5/4 | Hacker News https://news.ycombinator.com/item?id=37484135

[6] GPT-3.5 is still better than fine tuned Llama 2 70B (Experiment using prompttools) - Reddit https://www.reddit.com/r/OpenAI/comments/16i1lxp/gpt35_is_still_better_than_fine_tuned_llama_2_70b/