26 lettura minuti

14/11/2023

Che cos'è un LLM (Large Language Model)?

ESPERIENZA INTELLIGENZA ARTIFICIALE

Gli LLM o Large Language Models (LLM) sono algoritmi avanzati di deep learning in grado di svolgere un'ampia gamma di compiti legati all'elaborazione del linguaggio naturale (NLP). In Pangeanic ne sappiamo qualcosa perché dal 2010 costruiamo modelli linguistici (più modesti) per la traduzione automatica, l'anonimizzazione o la classificazione dei dati. La differenza che abbiamo notato dalla fine del 2022 o dall'inizio del 2023 è nelle dimensioni e nella quantità di dati di addestramento. I nuovi modelli, basati sull'architettura Transformers - attualmente la più popolare - sono addestrati su vasti set di dati, che conferiscono loro un'impressionante capacità di riconoscere, riassumere, tradurre, prevedere e generare testo. Se si aggiungono le funzionalità di chatbot per interagire, come ha fatto OpenAI con ChatGPT, Meta con Llama2 o Google con Bart, si ottiene una nuova esperienza, un'esperienza cognitiva che gli esseri umani non hanno mai avuto con nessuna macchina. Ecco perché ci divertiamo così tanto e ci appassioniamo a modelli come ChatGPT: per il nostro cervello, stiamo vivendo un'esperienza cognitiva, una conversazione, proprio come potremmo fare con un bibliotecario esperto o con chiunque altro.

Questo ha portato a un'esplosione virale dell'interesse per i modelli linguistici di grandi dimensioni e alcuni non esperti hanno affermato che essi contengono capacità di ragionamento, confondendo la capacità di generare linguaggio e la tecnologia di un chatbot con l'intelligenza vera e propria. Un grande modello linguistico non ragiona, non pensa. Tuttavia, è in grado di estrarre informazioni in modo eccellente perché è stato addestrato con l'equivalente di 20.000 anni di letture.

È essenziale distinguere tra LLM e reti neurali in generale. Mentre le LLM sono un tipo specifico di rete neurale, esistono molte altre forme di reti neurali, come le reti neurali convoluzionali e ricorrenti, progettate per diversi tipi di compiti e di dati.

Indice dei contenuti

1. Gli LLM sono sicuri? Cosa sono i guardrail?

2. Liste verdi, liste rosse

3. L'architettura dei Transformers e il suo significato

4. Componenti chiave dell'LLM

5. Tipi di LLM

6. Come si forma un LLM

7. Cosa si può fare con un LLM una volta formato?

8. "Chinchilla" e il punto ottimale per la formazione LLM

9. Chiariamo i concetti: i LLM hanno le allucinazioni?

10. La famosa finestra di attenzione

11. I LLM e i LLM generativi non sono la stessa cosa

12. Esempi di modelli linguistici popolari di grandi dimensioni

13. Uno sguardo completo all'uso dei LLM, ai benefici e alle sfide che ne derivano

14. Casi d'uso dei Large Language Models (LLM) oggi e in futuro

15. Implicazioni sociali dei modelli linguistici di grandi dimensioni

16. Alcune sfide rimanenti

Gli LLM sono sicuri e quali sono i guardrail?

I guardrail negli LLM sono un insieme di controlli e barriere di sicurezza che monitorano l'interazione dell'utente con un modello linguistico di grandi dimensioni (LLM) per imporre che l'LLM non si discosti e quindi garantirne la qualità e la coerenza.

In sostanza, i guardrail nei LLM stabiliscono un insieme di sistemi programmabili basati su regole che si interpongono tra gli utenti e i modelli fondamentali. Questi sistemi agiscono come regole che assicurano che il modello di intelligenza artificiale operi secondo i principi definiti dall'organizzazione, stabilendo confini chiari e definiti per il suo comportamento e impedendo la generazione di risposte inappropriate o dannose che potrebbero derivare dai dati di addestramento. Ad esempio, i primi modelli GPT sono stati criticati per la quantità di contenuti tossici che potevano produrre.

I guardrail possono essere visti come un modo per "correggere" il modello quando genera contenuti che si discostano troppo dalle norme. Le regole e le restrizioni che il modello deve rispettare sono stabilite in anticipo, come ad esempio evitare il turpiloquio, il linguaggio sessista o discriminatorio, o garantire che le risposte del modello siano scritte con un tono appropriato e rispettoso.

Imagen 1, cortesía de Bing Image Creator

Immagine 1, per gentile concessione di Bing Image Creator

Quando il modello genera una risposta, questa viene valutata in base ai criteri di sicurezza stabiliti e, se non li rispetta, viene chiesto all'LLM di generare una nuova risposta che sia conforme ai requisiti stabiliti.

L'importanza dei guardrail nei LLM risiede nel fatto che consentono agli sviluppatori e agli utenti di questi modelli di controllare e dirigere il loro comportamento, garantendo che i modelli siano utilizzati in modo responsabile ed etico. Inoltre, i guardrail aiutano a prevenire gli errori e i potenziali problemi che potrebbero derivare dalla mancanza di controllo sul modello, come la generazione di contenuti inappropriati o dannosi.

I parapetti possono essere utilizzati per:

Impedire a LLM di generare contenuti dannosi o offensivi;
Assicurarsi che le LLM siano utilizzate in modo allineato con i valori e la missione dell'organizzazione;
Proteggere la privacy e la sicurezza dei dati degli utenti;
Migliorare l'affidabilità e l'accuratezza degli LLM.

Esempi di barriere di sicurezza nelle LLM includono:

Blacklist e whitelist: Guardrail può essere utilizzato per creare blacklist di parole e frasi che i LLM non possono generare e whitelist di parole e frasi che possono generare;
Filtri dei contenuti:Guardrail può essere utilizzato per filtrare i contenuti generati da un LLM alla ricerca di contenuti dannosi o offensivi;
Rilevamento dei pregiudizi:I guardrail possono essere utilizzati per rilevare le distorsioni nei risultati LLM e filtrarli o segnalarli per la revisione umana;
Fact-checking: I guardrail possono essere utilizzati per verificare i risultati dell'LLM e garantirne l'accuratezza.

I guardrail sono una parte importante dello sviluppo e della distribuzione responsabile di LLM. Implementando questi controlli, le organizzazioni possono contribuire a garantire che gli LLM siano utilizzati in modo sicuro ed etico.

Pangeanic ha collaborato alla creazione di barriere di sicurezza o guardrail per gli LLM con il Barcelona SuperComputing Center. Vedere lo studio del caso LLMs.

Liste verdi, liste rosse

Nel contesto dei grandi modelli linguistici (LLM), le "liste verdi" si riferiscono a un metodo utilizzato per incorporare filigrane nel testo generato da questi modelli. L'idea alla base di questo metodo è quella di mitigare i potenziali danni che potrebbero derivare dal testo generato dai LLM. Nel contesto dei modelli linguistici di grandi dimensioni (LLM), le liste verdi si riferiscono a un insieme di parole, frasi o frasi considerate accettabili o desiderabili per essere generate dal modello. Questi elenchi sono solitamente creati dall'uomo e servono a guidare l'output del modello verso un testo coerente e significativo.

Le liste verdi possono essere utilizzate in vari modi durante il processo di formazione LLM. Ecco alcuni esempi:

Seeding: all'inizio dell'addestramento, il modello può essere inizializzato con un piccolo insieme di parole o frasi predefinite dall'elenco verde. Questo aiuta il modello a iniziare a generare testo coerente e riduce il rischio di produrre risultati casuali o privi di significato.
Ingegneria didattica: I ricercatori spesso progettano attentamente le domande per ottenere risposte specifiche dal modello. Le liste verdi possono essere utilizzate per garantire che le istruzioni contengano il linguaggio e i concetti giusti, rendendo più facile per il modello generare risposte pertinenti e coerenti.
Metriche di valutazione: Gli elenchi verdi possono essere utilizzati come parte delle metriche di valutazione per valutare la qualità e la rilevanza dei risultati del modello. Ad esempio, i ricercatori possono confrontare il testo generato dal modello con un elenco verde di parole chiave o frasi pertinenti per determinare la misura in cui il modello comprende l'argomento in questione.
Indirizzare il modello: le liste verdi possono essere utilizzate attivamente durante l'inferenza (generazione) per indirizzare il modello verso gli argomenti, gli stili o i formati desiderati. Ciò può avvenire condizionando l'input del modello o fornendo segnali aggiuntivi che incoraggiano il modello a concentrarsi su aspetti specifici del compito.
Sicurezza ed etica: le liste verdi possono contribuire a mitigare i potenziali rischi associati al LLM, come ad esempio risultati parziali o pregiudizievoli. Definendo un insieme di parole, frasi o concetti approvati, il modello ha meno probabilità di generare contenuti che potrebbero essere considerati inappropriati o offensivi.

È importante notare che, sebbene le liste verdi possano essere utili per guidare il comportamento del LLM, non sempre sono efficaci nell'evitare risultati indesiderati. I modelli possono produrre risposte inaspettate o indesiderate, soprattutto se sono esposti a input contrastanti o ambigui. È quindi essenziale continuare a monitorare e valutare le prestazioni dei LLM anche quando si utilizzano le liste verdi.

Il concetto è quello di creare una distribuzione di probabilità per la prossima parola generata e di adattare questo processo per incorporare un "watermark". Un codice hash generato da un token precedente classifica il vocabolario in parole della "lista verde" e della "lista rossa".
Un metodo proposto da Kirchenbauer et al. (2023) divide il vocabolario in liste rosse e verdi e il sistema impara a preferire la generazione di token dalla lista verde. Questa divisione migliora la robustezza degli algoritmi che forniscono un watermark per gli LLM.
Un numero casuale specifico (seme nel campo dell'intelligenza artificiale) può dividere casualmente l'intero vocabolario in due liste di uguali dimensioni, una "lista verde" e una "lista rossa". Il token successivo viene successivamente generato dalla lista verde, come parte di un metodo per il rilevamento di testi generati da modelli linguistici di grandi dimensioni (LLM).
In un altro metodo, la divisione in "lista verde" e "lista rossa" si basa sul token di prefisso, che aumenta sottilmente la probabilità di scegliere dalla lista verde. Se in una frase filigranata un token su due viene modificato cambiandolo con il suo sinonimo, diventa difficile determinare le liste verde/rossa per ogni token. Questo metodo per individuare il testo generato da LLM si basa sullo sfruttamento del fatto che gli LLM hanno una maggiore probabilità di generare token simili a quelli che hanno già generato. Questo perché gli LLM sono addestrati su grandi insiemi di dati testuali e imparano a prevedere il token successivo in una sequenza, basandosi sui token generati in precedenza.

In questo metodo, la filigrana viene creata dividendo casualmente il vocabolario in una "lista verde" e una "lista rossa". La lista verde contiene i token che hanno più probabilità di essere generati dai LLM, mentre la lista rossa contiene i token che hanno meno probabilità di essere generati dai LLM, in modo che quando il LLM genera un testo, è costretto a scegliere i token dalla lista verde. Questo crea una sottile filigrana nel testo, che alcuni utenti abituali di LLM individuano nello "stile neutro ed educato", caratterizzato da risposte superficiali e non conflittuali che non prendono posizione e dall'uso di determinate espressioni e congiunzioni. All'interno del sistema, può essere individuato controllando la percentuale di token che si trovano nella lista verde.

Se il testo viene modificato cambiando ogni secondo token con il suo sinonimo, diventa più difficile rilevare il watermark. Infatti, è probabile che anche i sinonimi siano presenti nell'elenco verde.

Alcuni studi attuali si concentrano sull'utilizzo di metodi sofisticati, come l'analisi statistica, per rilevare il testo generato dall'IA.

L'architettura dei Transformers e il suo significato

Un LLM è un modello linguistico di grandi dimensioni. È un tipo di modello di apprendimento automatico che può eseguire una serie di compiti di elaborazione del linguaggio naturale (NLP), come la generazione e la classificazione di testi, la risposta a domande di conversazione e la traduzione di testi da una lingua all'altra.

Imagen 2, Los Transformers cambiaron la forma de procesar el lenguaje. Cortesía de Bing Image Creator

Immagine 2, I Transformers hanno cambiato il modo in cui elaboriamo il linguaggio. Per gentile concessione di Bing Image Creatorr

Il termine "grande" si riferisce al numero di valori (parametri) che il modello può modificare da solo durante il processo di apprendimento. Alcuni degli LLM di maggior successo hanno centinaia di miliardi di parametri.

Il cuore di un LLM è solitamente un modello Transformers. Questi sono composti da un codificatore e da un decodificatore e sono noti per la loro capacità di gestire le dipendenze a distanza attraverso i cosiddetti meccanismi di autoattenzione. Come suggerisce il nome, l'autoattenzione, in particolare l'attenzione a più teste, consente al modello di considerare più parti del testo contemporaneamente, offrendo una comprensione più olistica e ricca del contenuto.

Componenti chiave dell'LLM

All'interno di questi modelli, troviamo diversi strati di reti neurali che lavorano insieme:

Embedding Layer: trasforma il testo in ingresso in vettori, catturandone il significato semantico e sintattico.
Strato feedforward: è costituito da reti completamente connesse che elaborano gli intarsi e aiutano a capire l'intenzione dietro un input.
Strato ricorrente: Tradizionalmente, interpretano le parole in sequenza, stabilendo relazioni tra di esse.
Meccanismo di attenzione: si concentra su parti specifiche del testo rilevanti per il compito da svolgere, migliorando l'accuratezza delle previsioni.

Tipi di LLM

Esistono vari tipi di LLM, tra cui i seguenti:

Modelli linguistici generici: si concentrano sulla previsione della parola successiva in base al contesto di addestramento.
Modelli addestrati per le istruzioni: Sono addestrati specificamente per compiti come l'analisi del sentimento o la generazione di codice.
Modelli di dialogo: attualmente sono i più diffusi, quelli che tutti utilizzano. Sono progettati per simulare le conversazioni, come i chatbot o gli assistenti basati sull'intelligenza artificiale.

Data la naturalezza della loro espressione, le soluzioni basate sugli LLM sono state fortemente finanziate e molte aziende di tutte le dimensioni stanno investendo nella personalizzazione degli LLM, con la promessa di risolvere problemi su larga scala in diversi settori, dalla sanità - dove possono aiutare nella diagnostica - al marketing, dove l'analisi del sentiment può essere fondamentale.

Come si forma un LLM

Gli LLM vengono addestrati con grandi quantità di dati. La quantità di dati utilizzati per addestrare GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4, Llama e Llama 2 non ha smesso di crescere, così come la necessità di acquisire più dati puliti, di qualità, originali e affidabili. Per esempio:

GPT-1 è stato addestrato su 40 GB di dati testuali (600 miliardi di parole);
GPT-2 con 40 GB di dati di testo;
GPT-3 ha aumentato la quantità di dati di testo di oltre 16 volte ^[3][4] raggiungendo i 570 GB
GPT-3.5: Non sono state trovate informazioni specifiche sulla quantità di dati utilizzati per addestrare questo modello.
GPT-4: addestrato con una quantità di dati maggiore rispetto al GPT-3, ma non sono state trovate informazioni specifiche sulla quantità di dati utilizzati per addestrare questo modello.
LlaMa: non sono state trovate informazioni specifiche sulla quantità di dati utilizzati per addestrare questo modello.
LlaMa2: addestrato con il 40% di dati in più rispetto al suo predecessore Llama, consentendogli di apprendere da una gamma più ampia di fonti pubbliche^{[1] [2]}.

Ricordiamo che la quantità di dati utilizzati per addestrare un modello linguistico non è l'unico fattore che ne determina le prestazioni, né lo sono miliardi di parametri. Anche altri fattori, come l'architettura del modello, la qualità e la pulizia dei dati e il processo di addestramento, giocano un ruolo importante.

Prendiamo ad esempio due dei LLM più noti al mondo: LlaMa2 (open source) e ChatGPT (closed source e commerciale).

LlaMa2

L'obiettivo era quello di costruire un unico modello in grado di fornire buone prestazioni in diversi compiti testuali, come la classificazione di testi, l'analisi del sentiment, il riconoscimento di entità denominate, la risposta a domande e, in misura molto minore, la traduzione automatica ^{[5] [6]}. Il team di Meta voleva esplorare i limiti di scalabilità dei modelli basati su trasformatori e studiare l'impatto delle dimensioni e della complessità sulle prestazioni. Il loro obiettivo era quello di creare un modello che servisse da solida base per le future ricerche sulla trasformazione da testo a testo.

Imagen 3, META released Llama2 in summer 2023. Cortesía de Bing Image Creator

Immagine 3, META ha rilasciato Llama2 nell'estate del 2023. Per gentile concessione di Bing Image Creator

Architettura e componenti:

LlaMa2 utilizza un'architettura Transformers con un'inedita combinazione di reti di autoattenzione multitesta e reti feedforward. È costituito da diversi modelli componenti, ciascuno progettato per un compito specifico: BERT per le incorporazioni contestualizzate, RoBERTa per la comprensione semantica a livello di frase, DistilBERT per la risposta alle domande e un modulo encoder-decoder progettato su misura per i compiti di sequenza-sequenza. Il modello è stato addestrato combinando la modellazione linguistica mascherata, la previsione della frase successiva e gli obiettivi specifici del compito.

Processo di formazione:

Gli autori hanno utilizzato un framework di calcolo distribuito per addestrare LlaMa2 con un set di dati composto da testi provenienti da diverse fonti, tra cui libri, articoli e siti web.

Imagen 4, Datos utilizados para Llama2 . Cortesía de Bing Image Creator

Immagine 4, dati utilizzati per Llama2. Fonte: articolo descrittivo di Meta Llama2.

È stata impiegata una strategia di apprendimento curricolare, iniziando con un piccolo sottoinsieme di dati e aumentando gradualmente la dimensione del batch e il numero di passi durante l'addestramento, utilizzando una miscela di numeri in virgola mobile a 16 e 32 bit per memorizzare i pesi del modello ed eseguendo il controllo del gradiente per ridurre l'utilizzo della memoria.

Risultati sperimentali:

LlAMa2 ha ottenuto le migliori prestazioni su diversi set di dati di riferimento, come GLUE, SuperGLUE e WMT.

Nel test GLUE, LlAMa2 ha superato il modello precedente, BERT, in media del 4,8%

Nel test SuperGLUE, LlaMa2 ha migliorato le prestazioni del BERT di una media del 7,7%.

Nel compito di traduzione WMT, LlAMa2 ha ottenuto risultati competitivi rispetto ai modelli di ultima generazione.

Componente essenziale: Apprendimento rinforzato con feedback umano

LlaMa2 è stato pre-addestrato utilizzando dati pubblici su Internet (principalmente CommonCrawl, e in misura minore da libri e contenuti di Wikipedia, ma non da utenti di sistemi Meta). Una versione iniziale di Llama-2-chat è stata poi creata utilizzando una messa a punto supervisionata. LlaMa-2-chat è stato poi perfezionato iterativamente utilizzando l'apprendimento rinforzato con feedback umano (RLHF), che include il campionamento di rifiuto e l'ottimizzazione della politica prossimale (PPO). Gli autori hanno utilizzato un algoritmo di ottimizzazione multi-obiettivo per cercare i parametri ottimali del modello che bilanciano obiettivi concorrenti, come la perplessità, la qualità della risposta e la sicurezza. Hanno incorporato l'RLHF per mettere a punto il modello in modo che si allinei alle preferenze umane e alle istruzioni seguite.

Imagen 5, Llama2 RLHF . Cortesía de Bing Image Creator

Immagine 5, LlaMa2 RLHF. Meta

Il processo di RLHF prevedeva la raccolta di feedback umani sotto forma di valutazioni e confronti tra le risposte alternative generate dal modello. Gli autori hanno utilizzato queste informazioni per aggiornare i pesi del modello e migliorarne le prestazioni. Inoltre, hanno aggiunto altri dati al set di addestramento, tra cui conversazioni su Internet e testi generati dall'uomo, per aumentare la diversità dei dati di addestramento.

Una delle sfide principali nell'addestramento di LlaMa2 è stata quella di risolvere il problema dell'exposure bias, in base al quale il modello genera risposte troppo simili a quelle osservate durante l'addestramento. Per risolvere questo problema, gli autori hanno introdotto una tecnica innovativa chiamata Latent Adversarial Training (LAT), che aggiunge rumore alle istruzioni in ingresso per incoraggiare il modello a generare risposte più diverse.

Un'altra sfida è stata quella di garantire che il modello fosse sicuro e rispettoso, e la documentazione di Meta affronta questo tema in modo molto approfondito. Gli autori hanno sviluppato un filtro di sicurezza che rifiuta le risposte inappropriate o che non soddisfano determinati criteri. Hanno anche incorporato un meccanismo di "smorzamento" che interrompe temporaneamente l'addestramento quando vengono rilevate risposte non sicure.

In termini di iterazioni, gli autori hanno eseguito diversi cicli di messa a punto e valutazione, affinando gradualmente i parametri del modello e migliorandone le prestazioni. Hanno anche sperimentato diversi iperparametri e tecniche, come l'aggiunta di strati aggiuntivi o la modifica della funzione di ricompensa, per ottimizzare le prestazioni del modello.

Nel complesso, il successo di LlaMa2 si basa su una combinazione di fattori, come l'uso di RLHF, l'ottimizzazione delle iterazioni su larga scala, la scelta accurata degli iperparametri e le tecniche innovative per affrontare sfide specifiche.

ChatGPT

ChatGPT è un servizio lanciato il 30 novembre 2022 da OpenAI ed è attualmente offerto come GPT-3.5 o GPT-4, membri della serie di modelli generativi pre-addestrati (GPT) proprietari di OpenAI. ChatGPT non è un modello addestrato da zero, ma è una versione migliorata di GPT-3 con funzionalità di chatbot e un'ampia memoria per ricordare le conversazioni. Il modello GPT-3 originale è stato addestrato su un enorme set di dati Internet (570 gigabyte di testo e 175 miliardi di parametri), comprendente testi estratti da Wikipedia, Twitter e Reddit.

Imagen 6, Cantidad de datos utilizados por OpenAI en el entrenamiento de ChatGPT. Cortesía de Bing Image Creator

Immagine 6, Quantità di dati utilizzati da OpenAI nell'addestramento ChatGPT

Per perfezionare ChatGPT, il team ha utilizzato una metodologia simile a quella impiegata per InstructGPT. In termini di dati, ChatGPT è stato sviluppato utilizzando informazioni disponibili pubblicamente su Internet, informazioni concesse in licenza da terzi e informazioni fornite da utenti o formatori umani. Il processo è descritto di seguito.

Il processo di sviluppo e di addestramento è stato multiforme: apprendimento supervisionato, preaddestramento generativo e modello di ricompensa, e modello di apprendimento di rinforzo con feedback umano. Come farà in seguito il team di Meta, OpenAI ha utilizzato l'apprendimento per rinforzo del feedback umano per adattare ChatGPT alle preferenze degli utenti.

1. Pre-training generativo

Inizialmente, ChatGPT è stato pre-addestrato con un ampio corpus di dati testuali, per lo più provenienti da CommonCrawl e, in misura minore, da Wikipedia e libri. L'idea centrale era quella di apprendere un modello linguistico statistico in grado di generare testi grammaticalmente corretti e semanticamente significativi. Come tecnica è stato utilizzato l'apprendimento non supervisionato, in modo che il modello imparasse a prevedere la parola successiva in una frase elaborando grandi quantità di dati testuali. L'architettura Transformer, nota soprattutto per la sua capacità di gestire sequenze di dati, svolge un ruolo fondamentale in questa fase, in quanto consente al modello di comprendere le relazioni tra le diverse parole di una frase, imparando così la sintassi e la semantica della lingua.

2. Regolazione supervisionata

Dopo il pre-addestramento, il modello è stato sottoposto a una fase di messa a punto supervisionata, in cui è stato addestrato con un set di dati più specifico per il compito da svolgere, che in questo caso è quello di avviare un dialogo conversazionale. Questo set di dati viene solitamente generato con l'aiuto di formatori umani di IA che si impegnano in conversazioni e forniscono al modello le risposte corrette. Questa fase affina la capacità del modello di generare risposte contestualmente rilevanti e coerenti in un ambiente conversazionale.

3. Apprendimento per rinforzo dalle risposte umane (RLHF)

La fase finale è l'apprendimento per rinforzo, in cui il modello viene ulteriormente perfezionato utilizzando un metodo noto come Reinforcement Learning with Human Feedback (RLHF). In questa fase, gli istruttori AI interagiscono con il modello e le risposte generate da ChatGPT vengono classificate in base alla loro qualità. Questa classifica forma un modello di ricompensa che guida il processo di apprendimento per rinforzo. Utilizzando il ciclo di feedback, il metodo RLHF aiuta a ridurre al minimo la generazione di testi ritenuti dannosi, distorti o falsi dal modello, come potrebbe accadere con i GPT precedenti. Durante questa fase, vengono eseguite più iterazioni di feedback e addestramento per migliorare continuamente le prestazioni del modello.

Il dataset utilizzato per addestrare ChatGPT ha sorpreso l'intera comunità scientifica per la sua completezza. Grazie all'RLHF, comprendeva un ricco set di dati conversazionali specificamente selezionati per aiutare ad apprendere le sfumature del dialogo umano. I dati di addestramento sono stati preprocessati con tecniche di tokenizzazione e normalizzazione per garantire che fossero in un formato adatto all'addestramento. La tokenizzazione scompone il testo in unità più piccole (token), mentre la normalizzazione assicura la coerenza della rappresentazione del testo, fondamentale per la formazione di un modello robusto.

Inoltre, i creatori di ChatGPT hanno impiegato un modello di ricompensa per rafforzare l'apprendimento, che è parte integrante della fase di apprendimento per rinforzo. Questo modello si basa sulle valutazioni degli istruttori di intelligenza artificiale che interagiscono con ChatGPT, valutano le risposte e forniscono un prezioso feedback. Questo meccanismo di feedback iterativo è fondamentale per affinare il modello e generare risposte di qualità superiore, più accurate e più sicure nel tempo.

Il processo di addestramento di ChatGPT è stato meticolosamente progettato per dotare il modello di un'ampia comprensione della lingua, affinare le sue capacità di interazione e, infine, perfezionare le sue risposte sulla base del feedback umano per garantire che i suoi risultati fossero utili, sicuri e di alta qualità.

Cosa si può fare con un LLM una volta formati?

Una volta che un LLM è stato addestrato, può essere messo a punto per un'ampia gamma di compiti PLN, tra cui:

Creazione di chatbot come ChatGPT.
Generazione di testi per descrizioni di prodotti, post di blog e articoli.
Rispondere alle domande più frequenti (FAQ) e indirizzare le richieste dei clienti alla persona più appropriata.
Analizzare il feedback dei clienti dalle e-mail, dai social media e dalle recensioni dei prodotti.
Tradurre contenuti aziendali o di conversazione in diverse lingue (anche se le lingue sottorappresentate sono di qualità molto inferiore rispetto a quelle ben fornite e la traduzione è molto più lenta e costosa rispetto alle reti neurali).
Classificare e classificare grandi volumi di dati testuali per un'elaborazione e un'analisi più efficienti.

"Chinchilla" e il punto di forza della formazione LLM

Il documento "Chinchilla" ^[1]è un contributo significativo al campo dell'IA e dello sviluppo di LLM e offre spunti interessanti per l'addestramento di LLM. Gli esperimenti sembrano indicare che esiste un "punto ottimale" per l'addestramento degli LLM e che, al di là di questo punto, investire maggiori risorse nell'addestramento sotto forma di più parametri non porta necessariamente a un aumento proporzionale delle prestazioni. Il documento sottolinea che non è solo la dimensione di un modello a influenzarne le prestazioni, ma, come nel caso dei modelli di traduzione basati su reti neurali, è importante la qualità dei dati e la quantità di dati utilizzati.

Gli autori del lavoro hanno scoperto che, per un addestramento ottimale dal punto di vista computazionale, le dimensioni del modello e il numero di token di addestramento devono scalare in modo uguale: per ogni raddoppio delle dimensioni del modello, anche il numero di token di addestramento deve raddoppiare.

Per verificare questa ipotesi, hanno addestrato Chinchilla, un modello da 70 miliardi di parametri addestrato con 1,4 trilioni di token statunitensi. Nonostante sia molto più piccolo di Gopher, come si può vedere nella tabella seguente, Chinchilla supera Gopher in quasi tutte le valutazioni, tra cui la modellazione del linguaggio, la risposta alle domande, i compiti di senso comune, ecc.

Imagen 7, Datos de entrenamiento de Chinchilla. Cortesía de Bing Image Creator

Immagine 7, Dati di addestramento del "Chinchilla"

Chiariamo i concetti: i LLM hanno le allucinazioni?

In un certo senso, i LLM "allucinano" perché sono stati addestrati con grandi quantità di dati testuali, che possono contenere informazioni errate o distorte. Quando i LLM generano testo, possono incorporare queste informazioni errate o parziali nelle loro risposte. Questo può dare l'impressione che i LLM abbiano le allucinazioni, in quanto generano informazioni non reali o non basate sulla realtà, ma in modo categorico che possono indurre l'utente a credere di avere la risposta corretta.

I LLM possono spaventarsi perché sono stati addestrati con grandi quantità di dati di testo e codice che, nonostante l'applicazione di vari filtri di pulizia, possono contenere informazioni errate o distorte. In realtà, quasi tutti gli sforzi compiuti durante l'applicazione dell'apprendimento per rinforzo con feedback umano, valutazioni e test sono volti a evitare la produzione di testo non sicuro o non utile, come descritto n´ell articolo di Meta su LlaMa2o in quello di OpenAI su ChatGPT.

Tutti i LLM utilizzano CommonCrawl e varie fonti Internet come materiale di base per la formazione e l'apprendimento. Nonostante i processi di pulizia e di eliminazione dei pregiudizi, è impossibile verificare tutte le informazioni quando si ha a che fare con terabyte di testo. Pertanto, un LLM ha una "data limite" o "data di ultima conoscenza", anche se si sta cercando di migliorare le risposte con informazioni più aggiornate, compresi i risultati provenienti dal web.

Imagen 8, Los LLMs pueden alucinar. Cortesía de Bing Image Creator

Immagine 8, gli LLM possono avere allucinazioni. Per gentile concessione di Bing Image Creator

Ad esempio, un LLM potrebbe essere addestrato con un dataset di testo contenente informazioni errate o non aggiornate sul tempo. Il dataset potrebbe dire che la temperatura media di un paese è di 20ºC. Quando al LLM viene chiesto quale sia il clima di quel Paese, potrebbe rispondere che la temperatura media è di 20°C. Si tratterebbe di un'allucinazione perché il LLM sarebbe delirante. Si tratterebbe di un'allucinazione perché la temperatura media reale di quel Paese (prendiamo come esempio la Spagna) è di 17 gradi.

I LLM possono anche avere allucinazioni perché, non dimentichiamolo, sono addestrati a essere creativi e "generativi". Tutte le altre competenze (come scrivere codice o tradurre) sono abilità che sono nate involontariamente come risultato del riconoscimento di modelli linguistici su enormi quantità di testo.

Quando a un LLM viene presentata una nuova domanda, può generare una risposta nuova e interessante, ma che potrebbe non essere accurata o coerente con il mondo reale. In effetti, le prime critiche rivolte a ChatGPT all'inizio dell'anno si concentravano sul fatto che fosse un “pappagallo stocastico”.

Per esempio, un LLM potrebbe essere addestrato su un dataset di testo contenente informazioni sulla storia della Spagna. Il dataset potrebbe dire che la Spagna è stata fondata da un gruppo di persone provenienti dall'Africa. Quando il LLM viene interrogato sulla storia della Spagna, potrebbe rispondere che la Spagna è stata fondata da un gruppo di persone provenienti dall'Africa. Si tratterebbe di un'allucinazione, perché la vera storia della Spagna è molto più complessa.

Inoltre, i LLM possono essere inclini a generare risposte creative o fantasiose. Questo perché le LLM sono addestrate a generare testo simile a quello che è stato presentato loro nel dataset di addestramento. Se il dataset di addestramento contiene un testo creativo o fantasioso, i LLM possono essere inclini a generare un testo simile. Questo può dare l'impressione che i LLM abbiano delle allucinazioni, in quanto generano informazioni che non sono reali. Tuttavia, è importante tenere presente che i LLM non sono esseri coscienti. Non hanno la capacità di sperimentare la realtà come gli esseri umani. Le informazioni generate dai LLM sono semplicemente una funzione dei dati su cui sono stati addestrati.

La famosa finestra di attenzione

La finestra di attenzione è un concetto fondamentale nei modelli linguistici di grandi dimensioni (LLM) che definisce l'ambito dei token a cui un LLM può fare riferimento quando genera il token successivo. Questa finestra determina la quantità di contesto che un LLM può considerare quando genera il testo, facilitando la comprensione delle dipendenze a lungo raggio nel testo.

Agli albori, le LLM avevano finestre di attenzione di pochi token. Ad esempio, ai tempi della traduzione automatica statistica, la finestra di attenzione era ridotta a pochi n-grammi (parole). Con la traduzione automatica neurale, la finestra di attenzione è stata estesa a un'intera frase, guadagnando molta fluidità. Il ChatGPT e i LLM in generale hanno aumentato la finestra di attenzione a circa 64.000 tokens (oltre 50.000 parole), che è la dimensione di una tesi di dottorato.

Imagen 9, Las ventanas de atención desde la traducción automática estadística a la neuronal a los LLMs. Presentación de Pangeanic en la Universidad de Surrey (Convergence Lectures), OCtubre 2023.

Immagine 9, Finestre di attenzione dalla traduzione automatica statistica a quella neurale alle LLM. Presentazione di Pangeanic all'Università del Surrey (Convergence Lectures), ottobre 2023

L'aumento della finestra di attenzione nei moderni LLM ha avuto un impatto significativo sulla generazione di testi, migliorando le prestazioni in una serie di compiti come la modellazione linguistica, la risposta alle domande e la traduzione.

La crescita della finestra di attenzione ha influito anche sul livello di coerenza del testo generato. I primi LLM tendevano a produrre un testo con una coerenza locale (come nel caso della traduzione statistica e neurale), ma i LLM moderni sono in grado di generare un testo coerente a livello di documento, in modo molto globale. Ciò è dovuto al fatto che i moderni LLM possono considerare una quantità molto maggiore di contesto, che consente loro di comprendere meglio l'argomento del testo che stanno generando.

Le dimensioni della finestra di attenzione possono influenzare in modo significativo la generazione del testo:

Una finestra di attenzione ridotta può portare a un testo ripetitivo o privo di significato contestuale. Questo perché l'LLM non è in grado di considerare un contesto sufficiente per generare un testo coerente.
Un'ampia finestra di attenzione può generare un testo più pertinente, informativo, creativo e originale. Questo perché il LLM può prendere in considerazione una quantità molto maggiore di contesto, consentendogli di generare un testo più accurato e completo. Tuttavia, una finestra di attenzione troppo ampia può sovraccaricare il LLM, rallentando la generazione del testo o producendo un testo incoerente. La dimensione ottimale della finestra di attenzione dipende dal compito specifico. Ad esempio, i compiti di modellazione linguistica possono trarre vantaggio da una finestra più piccola, mentre i compiti di risposta alle domande o di traduzione possono richiedere una finestra più grande.

I LLM e i LLM generativi non sono la stessa cosa

È essenziale distinguere tra LLM e IA generativa. Mentre le LLM si concentrano sul testo, l'IA generativa comprende uno spettro più ampio e multimodale, che include la creazione di immagini, musica e altro. Tutte le LLM possono essere considerate parte dell'IA generativa, ma non tutta l'IA generativa è una LLM.

Ad esempio, Claude2 di Anthropic, PaLM di Google e i famosi ChatGPT o LlaMa2 sono LLM, mentre Stable Diffusion di Microsoft o Bing Image Creator, basato su Dall-e 3, sono AI generative ma producono immagini, non grandi modelli linguistici.

Esempi di modelli linguistici popolari di grandi dimensioni

Come abbiamo detto, i LLM sono diventati uno strumento essenziale per un'ampia gamma di applicazioni, dal servizio clienti alla ricerca scientifica. Esempi di modelli linguistici di grandi dimensioni molto diffusi sono:

ChatGPT: un chatbot di intelligenza artificiale generativa sviluppato da OpenAI.
PaLM: Pathways Language Model (PaLM) di Google, un modello linguistico trasformatore in grado di eseguire ragionamenti aritmetici e di buon senso, spiegare battute, generare codice e tradurre.
BERT: anche il Bidirectional Encoder Transformer Representation Language Model (BERT) è stato sviluppato da Google. Si tratta di un modello basato su trasformatori in grado di comprendere il linguaggio naturale e di rispondere alle domande.
XLNet: modello linguistico a permutazione, XLNet genera predizioni in uscita in ordine casuale, il che lo distingue da BERT. Valuta lo schema dei token codificati e poi predice i token in ordine casuale, anziché in ordine sequenziale.
GPT: i trasformatori generativi pre-addestrati sono forse i modelli linguistici di grandi dimensioni più noti. Sviluppato da OpenAI, GPT è un modello di base molto diffuso, le cui iterazioni numeriche sono miglioramenti dei suoi predecessori (GPT-3, GPT-4, ecc.).

Uno sguardo completo all'uso dei LLM, ai vantaggi e alle sfide che ne derivano

Dopo alcuni mesi di shock e stupore da parte dei giganti tecnologici tra la fine del 2002 e l'inizio del 2023, i modelli linguistici di grandi dimensioni (LLM) sono diventati un pilastro fondamentale di quasi tutti i settori. Questi modelli, che sono all'avanguardia della tecnologia, stanno ridefinendo il modo in cui le macchine interagiscono con gli esseri umani e il modo in cui elaborano il linguaggio... e persino il modo in cui noi esseri umani interagiamo tra di noi misurando le macchine.

Applicazioni versatili di LLM

Recupero delle informazioni: piattaforme come Google e Bing si basano molto sui LLM. Questi modelli non solo recuperano i dati in risposta a una query, ma possono anche riassumere e presentare le informazioni in modo comprensibile e facile da usare.
Sentiment analysis: le aziende, in particolare le società di marketing e di pubbliche relazioni, utilizzano gli LLM per valutare il sentiment delle opinioni degli utenti, fornendo preziose indicazioni sui prodotti o sui servizi.
Generazione di testo e codice: i LLM, come ChatGPT, possono creare contenuti da zero. Dalla composizione di poesie alla scrittura di snippet di codice, la versatilità di questi modelli è sorprendente.
Chatbot e AI conversazionale: le LLM hanno rivoluzionato il servizio clienti, consentendo ai bot di comprendere e rispondere alle domande degli utenti in modo più naturale ed efficace.

LLM in vari settori

I grandi modelli linguistici hanno il potenziale per cambiare il modo in cui operano molti settori, rendendo più efficiente il lavoro dei professionisti. Per ora, hanno già apportato cambiamenti radicali al mondo come lo conosciamo.

Tecnologia: oltre ai motori di ricerca, gli sviluppatori utilizzano LLM per assistere nella codifica e risolvere problemi complessi.
Salute e scienza: i LLM contribuiscono al progresso medico interpretando le informazioni genetiche e assistendo nella ricerca sulle malattie. Possono anche fungere da assistenti medici virtuali.
Settore legale, finanziario e bancario: gli avvocati e gli esperti finanziari stanno iniziando a sfruttare la potenza dei LLM per cercare informazioni e individuare modelli, utili per l'individuazione di frodi o l'interpretazione delle leggi.

Vantaggi dell'LLM

I vantaggi che i LLM offrono alla società, nonostante non siano "esseri pensanti" e non abbiano capacità di ragionamento, sono numerosi.

Ampio spettro di applicazioni: La sua versatilità spazia dalla traduzione linguistica alla soluzione di complessi problemi matematici.

Apprendimento e miglioramento continui: con l'introduzione di nuovi dati, la loro precisione e le loro prestazioni migliorano. I LLM imparano costantemente, adattandosi a nuovi contesti.

Apprendimento rapido: grazie all'"apprendimento nel contesto", i LLM possono adattarsi rapidamente a nuovi compiti senza richiedere una formazione approfondita.

Sfide e vincoli

Allucinazioni: Come discusso in precedenza, i LLM possono talvolta generare risposte inappropriate o errate che non riflettono la realtà o l'intenzione dell'utente.
Sicurezza e parzialità: gli LLM possono essere manipolati per diffondere informazioni false o tendenziose. Inoltre, l'integrità dei dati e la privacy sono una preoccupazione costante.
Consenso e copyright: ci sono preoccupazioni su come vengono ottenuti e utilizzati i dati sulla formazione, poiché molte aziende hanno utilizzato i loro dati web senza il loro permesso. Ciò comporta potenziali problemi di plagio e di violazione del copyright. Alcune aziende hanno iniziato a inserire "clausole anti-crawl" nel file robots.txt per ChatGPT / OpenAI, in modo da non sfruttare la pubblicazione di informazioni sui loro siti web.
Scalabilità e distribuzione: gli LLM sono complessi e richiedono una notevole infrastruttura e competenze tecniche avanzate per essere implementati e mantenuti.

I grandi modelli linguistici stanno ridefinendo l'intersezione tra tecnologia e linguaggio. Con un immenso potenziale per migliorare e facilitare l'interazione uomo-macchina, i LLM continuano a progredire e continueranno a progredire a passi da gigante, forse rappresentando un pezzo del puzzle verso l'intelligenza artificiale generale (AGI), il vero obiettivo di Sam Altman, CEO di OpenAI. Affrontare le sue sfide è quindi essenziale per garantire che questa tecnologia sia utile alla società in modo etico e responsabile.

Casi d'uso dei Large Language Models (LLM) oggi e in futuro

Secondo Gartner, esiste un'ampia varietà di casi d'uso in numerosi settori per i Large Language Models e il loro potenziale campo di applicazione è in continua espansione. Ecco alcuni casi d'uso attuali e potenziali dei LLM:

Casi d'uso attuali:

Natural Language Processing (NLP): gli LLM possono essere utilizzati in compiti NLP come la classificazione dei testi, l'analisi del sentiment, il riconoscimento di entità denominate, la traduzione automatica e il riconoscimento vocale.
Chatbot e assistenti virtuali: gli LLM alimentano chatbot e assistenti virtuali, consentendo loro di comprendere e rispondere alle domande degli utenti, migliorando così il servizio clienti e riducendo i costi di assistenza.
Traduzione linguistica: : le LLM vengono utilizzate nelle piattaforme di traduzione automatica, consentendo traduzioni più rapide e accurate, abbattendo le barriere linguistiche e facilitando la comunicazione tra le culture.
Riassunto di testi: I LLM possono condensare testi lunghi in riassunti concisi e significativi, facendo risparmiare tempo agli utenti e migliorando la comprensione.
Analisi del sentiment nel testo: I LLM analizzano il sentiment nei dati testuali, aiutando le aziende a valutare le opinioni dei clienti, a identificare le tendenze e a prendere decisioni informate.
Generazione di contenuti: gli LLM generano contenuti di alta qualità, come articoli, post di blog e post sui social media, riducendo la necessità di scrittori umani e snellendo i processi di creazione dei contenuti.
Risposte alle domande: I LLM rispondono alle domande sulla base delle informazioni con cui sono stati formati, fornendo risposte rapide alle domande più comuni e liberando risorse umane per compiti più complessi.
Generazione di codice: gli LLM generano frammenti di codice, automatizzando alcune attività di programmazione e accelerando i cicli di sviluppo del software.
Revisione dei documenti legali: i LLM esaminano i documenti legali, identificano le clausole pertinenti, evidenziano le incongruenze e semplificano il processo di revisione dei contratti.
Diagnosi medica: i LLM assistono i medici nella diagnosi delle malattie analizzando le cartelle cliniche, identificando modelli e suggerendo possibili trattamenti.

Casi d'uso futuri:

Miglioramento dell'IA conversazionale: le LLM continueranno a perfezionare le capacità dell'IA conversazionale, consentendo dialoghi più sofisticati tra esseri umani e macchine e sfumando i confini tra interazioni umane e IA.
Riconoscimento delle emozioni: I LLM diventeranno abili nel riconoscere le emozioni da input vocali, testuali e visivi, consentendo risposte empatiche e una migliore collaborazione tra esseri umani e IA.
Explainable AI (XAI): i LLM forniranno spiegazioni chiare dei loro processi decisionali, promuovendo la fiducia e la responsabilità nelle scelte guidate dall'AI.
Processo decisionale etico: I laureati in LLM integreranno considerazioni etiche nei loro quadri decisionali, garantendo equità, trasparenza e conformità ai principi morali.
Scrittura creativa e scrittura: i LLM si avventureranno nella scrittura creativa, generando storie, poesie e sceneggiature originali e potenzialmente sconvolgendo le forme d'arte tradizionali.
Speech-to-text e text-to-speech: le LLM miglioreranno le capacità di speech-to-text e text-to-speech, migliorando l'accessibilità per le persone con disabilità e colmando le lacune linguistiche.
Comunicazione multimodale: i LLM elaboreranno e genereranno contenuti multimodali, combinando testo, immagini, video e audio per creare esperienze più ricche e coinvolgenti.
Edge AI: gli LLM saranno implementati nei dispositivi ai margini, consentendo un'elaborazione localizzata, riducendo la latenza e aumentando la sicurezza per le applicazioni IoT e mobili.
Apprendimento per trasferimento: i LLM si adatteranno a nuovi domini e compiti attraverso l'apprendimento per trasferimento, massimizzando il valore dei modelli pre-addestrati e riducendo al minimo la necessità di dati di addestramento specifici per il compito.
Intelligenza ibrida: i LLM collaboreranno con sistemi di intelligenza artificiale simbolica, integrando ragionamenti basati su regole e intuizioni di deep learning, per raggiungere livelli di prestazioni ed efficienza senza precedenti.

In breve, man mano che questi modelli diventano più grandi e più complessi, ci si aspetta che siano in grado di svolgere compiti ancora più complessi e, oltre ai punti sopra citati, alcuni dei possibili sviluppi futuri potrebbero includere anche:

La capacità di comprendere e generare linguaggio naturale in modo più naturale e fluente.
La capacità di apprendere e adattarsi a nuovi compiti in modo più rapido ed efficiente.
La capacità di generare diversi formati di testo creativo, come poesie, codici, sceneggiature, brani musicali, e-mail, lettere, ecc.

Questi progressi nelle IA rivoluzioneranno diversi settori, trasformando il nostro modo di interagire, lavorare e vivere. Tuttavia, è fondamentale affrontare le implicazioni etiche, assicurando uno sviluppo e un'implementazione responsabili dell'IA a beneficio della società nel suo complesso.

Implicazioni sociali dei modelli linguistici di grandi dimensioni

I LLM hanno il potenziale per trasformare la società umana in molti modi. Ad esempio, potrebbero essere utilizzati per migliorare il servizio clienti, l'istruzione, la ricerca scientifica e la creatività.

Tuttavia, i LLM sollevano anche alcune preoccupazioni sociali. Ad esempio, c'è il rischio che vengano utilizzati per creare contenuti falsi o fuorvianti o per manipolare le persone.

Conclusioni: I modelli linguistici di grandi dimensioni sono una tecnologia emergente con un grande potenziale. Con la continua evoluzione di questi modelli, è probabile che svolgano un ruolo sempre più importante nella nostra vita.

Alcune sfide ancora aperte

Nonostante il loro potenziale, i LLM presentano anche alcune sfide importanti. Una delle sfide principali è la parzialità. Gli LLM sono addestrati su grandi insiemi di dati testuali, che possono essere distorti.

Questo può portare i LLM a generare testi che sono anche parziali. Un'altra sfida è la sicurezza. Gli LLM possono essere utilizzati per creare contenuti dannosi, come discorsi di odio o propaganda. È importante sviluppare misure di sicurezza per proteggere dall'uso improprio degli LLM.

Nel complesso, gli LLM sono una tecnologia promettente con un grande potenziale per migliorare la nostra vita. Tuttavia, è importante essere consapevoli delle sfide rimanenti, in modo da poter sviluppare questa tecnologia in modo responsabile.

Non possiamo concludere questo articolo senza menzionare Yann LeCun, ingegnere capo di META e responsabile di molti modelli open source su cui la comunità sta lavorando, adottando i suoi modelli come NLLB, SeamlessM4T o Llama2 su cui costruire soluzioni di IA.

Una cosa che sappiamo è che se i futuri sistemi di intelligenza artificiale saranno costruiti sullo stesso modello degli attuali LLM autoregressivi, potranno diventare molto competenti, ma saranno comunque stupidi.

Continueranno ad avere allucinazioni, a essere difficili da controllare e a rigurgitare ciò che sono stati addestrati a fare.

E soprattutto, rimarranno incapaci di ragionare, inventare cose nuove o pianificare azioni per raggiungere gli obiettivi.

E a meno che non possano essere addestrati tramite video, non capiranno comunque il mondo fisico.

I sistemi del futuro "dovranno" utilizzare un'architettura diversa, capace di comprendere il mondo, di ragionare e di pianificare per raggiungere una serie di obiettivi e di guardrail.

Queste architetture orientate agli obiettivi saranno sicure e rimarranno sotto il nostro controllo perché "noi" stabiliamo i loro obiettivi e i loro guardrail e loro non possono discostarsene.

Non vorranno dominarci perché non avranno alcun obiettivo che li spinga a dominare (a differenza di molte specie viventi, in particolare quelle sociali come gli esseri umani). Anzi, gli obiettivi della barriera impediranno loro di farlo.

Saranno più intelligenti di noi, ma resteranno sotto il nostro controllo.

Ci renderanno più "intelligenti".

L'idea che i sistemi intelligenti di intelligenza artificiale debbano necessariamente dominare gli esseri umani è sbagliata.

Invece di moltiplicare i sistemi odierni per 100 volte, cosa che non ci porterà da nessuna parte, dobbiamo far funzionare queste architetture di IA basate sugli obiettivi.

Fonti:

[1] Come si colloca LlaMa-2 rispetto a GPT-4/3.5 e ad altri modelli linguistici https://www.promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/

[2] LlaMa 2 è preciso quanto GPT-4 per i riassunti ed è 30 volte più https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper

[3] La battaglia per l'intelligenza artificiale! LlaMa2 vs ChatGPT | di Stephen - Medium https://weber-stephen.medium.com/unleashing-the-ultimate-ai-battle-llama-2-vs-chatgpt-gpt-3-5-a-creative-showdown-9919608200d7

[4] 6 differenze principali tra LlaMa 2, GPT-3.5 e GPT-4 - Neoteric https://neoteric.eu/blog/6-main-differences-between-llama2-gpt35-and-gpt4/

[5] Mettere a punto il proprio LlaMa 2 per sostituire GPT-3.5/4 | Hacker News https://news.ycombinator.com/item?id=37484135

[6] GPT-3.5 è ancora migliore di LlaMa 2 70B (Esperimento con prompttools) - Reddit https://www.reddit.com/r/OpenAI/comments/16i1lxp/gpt35_is_still_better_than_fine_tuned_llama_2_70b/