24 minute gelesen

03/11/2023

Was ist ein LLM (großes Sprachmodell)?

EXPERTISE KÜNSTLICHE INTELLIGENZ

LLMs oder große Sprachmodelle sind fortschrittliche Deep-Learning-Algorithmen, die eine breite Palette von Aufgaben im Zusammenhang mit der Verarbeitung natürlicher Sprache (NLP) durchführen können. Bei Pangeanic wissen wir etwas darüber, weil wir seit 2010 (bescheidenere) Sprachmodelle für die maschinelle Übersetzung, Anonymisierung oder Datenklassifizierung erstellen. Der Unterschied, den wir alle seit Ende 2022 oder Anfang 2023 bemerkt haben, liegt in der Größe und Menge der Trainingsdaten. Die neuen Modelle, die auf der Transformer-Architektur - derzeit am beliebtesten - basieren, werden auf riesigen Datensätzen trainiert, was ihnen eine beeindruckende Fähigkeit verleiht, Text zu erkennen, zusammenzufassen, zu übersetzen, vorherzusagen und zu generieren. Wenn man dann noch Chatbot-Funktionen zur Interaktion hinzufügt, wie es OpenAI mit ChatGPT, Meta mit LlaMa2 oder Google mit Bart getan haben, können wir eine neue Erfahrung erleben, eine kognitive Erfahrung, die Menschen noch nie mit einer Maschine gemacht haben. Das ist der Grund, warum wir so viel Spaß an Modellen wie ChatGPT haben und so „verrückt“ danach werden: Für unser Gehirn ist es eine kognitive Erfahrung, ein Gespräch, so wie wir es auch mit einem hochqualifizierten Bibliothekar oder jedem anderen Menschen führen würden.

Dies hat zu einer viralen Explosion des Interesses an großen Sprachmodellen geführt und einige Menschen, die nicht vom Fach sind, haben verkündet, die Modelle verfügten über Denkfähigkeiten, wobei sie die sprachgenerierende Kapazität und Technologie eines Chatbots mit tatsächlicher Intelligenz verwechselten. Ein großes Sprachmodell denkt nicht, es schlussfolgert nicht. Es kann jedoch hervorragend Informationen extrahieren, weil es mit dem Äquivalent von 20.000 Jahren Lesezeit trainiert wurde.

Es ist wichtig, zwischen LLMs und neuronalen Netzen im Allgemeinen zu unterscheiden. Während LLMs eine spezielle Art von neuronalen Netzen sind, gibt es viele andere Formen von neuronalen Netzen, wie z. B. konvolutionale und rekurrente neuronale Netze, die für verschiedene Arten von Aufgaben und Daten entwickelt wurden.

Inhaltsübersicht

1. Sind LLMs sicher und was sind Guardrails?

2. Grüne Listen, rote Listen

3. Transfromer-Architektur und ihre Bedeutung

4. Schlüsselkomponenten des LLMs

5. Arten von LLMs

6. Wie ein LLM trainiert wird

7. Was kann man mit einem trainierten LLM machen?

8. Das Chinchilla-Modell und der Sweetspot für das LLM-Training

9. Lassen Sie uns Begriffe klären: Halluzinieren LLMs?

10. Das berühmte Aufmerksamkeitsfenster

11. LLMs und generative KI sind nicht dasselbe

12. Beispiele für beliebte große Sprachmodelle

13. Ein umfassender Blick auf den Einsatz von LLMs, Vorteile und Herausforderungen

14. Anwendungsfälle für große Sprachmodelle (LLMs) heute und in Zukunft

15. Soziale Auswirkungen von großen Sprachmodellen

16. Einige noch ausstehende Herausforderungen

Sind LLMs sicher und was sind Guardrails?

Guardrails in LLMs sind eine Reihe von Kontrollen und Sicherheitsbarrieren, die die Interaktion eines Benutzers mit einem großen Sprachmodell (LLM) überwachen, um sicherzustellen, dass das LLM nicht abweicht und somit seine Qualität und Konsistenz zu gewährleisten.

Im Wesentlichen stellen die Guardrails in LLMs eine Reihe programmierbarer regelbasierter Systeme dar, die zwischen den Nutzern und den Basismodellen stehen. Diese Systeme fungieren als Regeln, die sicherstellen, dass das KI-Modell gemäß den von der Organisation definierten Grundsätzen arbeitet, klare und definierte Grenzen für sein Verhalten setzt und die Erzeugung unangemessener oder schädlicher Reaktionen verhindert, die aus den Trainingsdaten stammen könnten. So wurden beispielsweise frühe GPT-Modelle für die Menge an toxischen Inhalten kritisiert, die sie produzieren konnten.

Guardrails können als eine Möglichkeit gesehen werden, das Modell zu „korrigieren“, wenn es Inhalte erstellt, die zu weit von den Normen abweichen. Die Regeln und Einschränkungen, die das Modell einhalten muss, werden im Voraus festgelegt, z. B. die Vermeidung von Schimpfwörtern, sexistischer oder diskriminierender Sprache oder die Gewährleistung, dass die Antworten des Modells in einem angemessenen und respektvollen Ton verfasst sind.

Imagen 1, cortesía de Bing Image Creator

Abbildung 1: Von Bing Image Creator zur Verfügung gestellt.

Wenn das Modell eine Antwort generiert, wird sie anhand der festgelegten Guardrails bewertet und wenn sie diese nicht erfüllt, wird das LLM aufgefordert, eine neue Antwort zu generieren, die den festgelegten Anforderungen entspricht.

Die Bedeutung von Guardrails in LLMs liegt darin, dass sie es den Entwicklern und Nutzern dieser Modelle ermöglichen, ihr Verhalten zu kontrollieren und zu lenken, wodurch sichergestellt wird, dass die Modelle in einer verantwortungsvollen und ethischen Weise genutzt werden. Darüber hinaus helfen Guardrails auch dabei, Fehler und potenzielle Probleme zu vermeiden, die aus einem Mangel an Kontrolle über das Modell entstehen könnten, wie z. B. die Generierung unangemessener oder schädlicher Inhalte.

Leitplanken können verwendet werden für:

Verhindern, dass LLMs schädliche oder anstößige Inhalte erzeugen;
Sicherstellen, dass LLMs in einer Weise eingesetzt werden, die mit den Werten und dem Auftrag der Organisation übereinstimmen;
Schutz der Privatsphäre und Sicherheit der Nutzerdaten;
Verbesserung der Zuverlässigkeit und Genauigkeit von LLMs.

Beispiele für Sicherheitsbarrieren in LLMs sind:

Schwarze und weiße Listen: Guardrails können verwendet werden, um schwarze Listen von Wörtern und Ausdrücken zu erstellen, die LLMs nicht erzeugen sollen und weiße Listen von Wörtern und Ausdrücken, die sie erzeugen können;
Inhaltsfilter: Guardrails können verwendet werden, um Inhalte, die von einem LLM generiert wurden, auf schädliche oder anstößige Inhalte zu filtern;
Erkennung von Voreingenommenheiten: Guardrails können verwendet werden, um Voreingenommenheiten in LLM-Ergebnissen zu erkennen und sie für eine menschliche Überprüfung zu filtern oder zu kennzeichnen;
Faktencheck: Guardrails können verwendet werden, um LLM-Ergebnisse zu überprüfen und ihre Genauigkeit sicherzustellen.

Guardrails sind ein wichtiger Bestandteil für verantwortungsvolle LLM-Entwicklung und -Einsatz. Durch die Einführung dieser Kontrollen können Organisationen dazu beitragen, dass LLMs in einer sicheren und ethischen Weise verwendet werden.

Pangeanic hat bei der Schaffung von Sicherheitsbarrieren oder Guardrails für LLMs mit dem Barcelona SuperComputing Center zusammengearbeitet. Siehe diese Fallstudie über LLMs.

Grüne Listen, rote Listen

Im Zusammenhang mit großen linguistischen Modellen (LLMs) beziehen sich die „grünen Listen“ auf eine Methode, mit der Wasserzeichen in den von diesen Modellen erzeugten Text eingebettet werden. Die Idee hinter dieser Methode ist es, den potenziellen Schaden, der durch den von LLMs erzeugten Text entstehen könnte, zu mindern. Im Zusammenhang mit großen Sprachmodellen (LLMs) beziehen sich grüne Listen auf eine Reihe von Wörtern, Phrasen oder Sätzen, die als akzeptabel oder wünschenswert für die Generierung durch das Modell angesehen werden. Diese Listen werden in der Regel von Menschen erstellt und dienen dazu, die Ausgabe des Modells in Richtung eines kohärenten und sinnvollen Textes zu lenken.

Die grünen Listen können während des LLM-Trainingsprozesses auf verschiedene Weise verwendet werden. Hier sind einige Beispiele:

„Seeding“: Zu Beginn des Trainings kann das Modell mit einem kleinen Satz von vordefinierten Wörtern oder Sätzen aus der grünen Liste initialisiert werden. Dies hilft dem Modell, konsistenten Text zu generieren, und verringert das Risiko, dass es zufällige oder bedeutungslose Ergebnisse produziert.
Instruktionstechnik: Forscher entwerfen oft sorgfältig Fragen, um dem Modell spezifische Antworten zu entlocken. Grüne Listen können verwendet werden, um sicherzustellen, dass die Anweisungen die richtige Sprache und die richtigen Konzepte enthalten, so dass es für das Modell einfacher ist, relevante und konsistente Antworten zu geben.
Bewertungsmaßstäbe: Grüne Listen können als Teil von Bewertungsmaßstäben verwendet werden, um die Qualität und Relevanz der Modellergebnisse zu beurteilen. So können Forscher beispielsweise den vom Modell generierten Text mit relevanten Schlüsselwörter oder Phrasen einer grünen Liste vergleichen, um festzustellen, inwieweit das Modell das betreffende Thema versteht.
Lenkung des Modells: Grüne Listen können während der Inferenz (Generierung) aktiv genutzt werden, um das Modell auf gewünschte Themen, Stile oder Formate zu lenken. Dies kann durch die Konditionierung der Modelleingabe oder durch die Bereitstellung zusätzlicher Signale geschehen, die das Modell dazu anregen, sich auf bestimmte Aspekte der Aufgabe zu konzentrieren.
Sicherheit und Ethik: Grüne Listen können dazu beitragen, potenzielle Risiken wie etwa voreingenommene oder vorurteilsbehaftete Ergebnisse im Zusammenhang mit LLMs zu mindern. Durch die Definition einer Reihe von zugelassenen Wörtern, Sätzen oder Konzepten ist es weniger wahrscheinlich, dass das Modell Inhalte erzeugt, die als unangemessen oder beleidigend angesehen werden könnten.

Es ist wichtig anzumerken, dass grüne Listen zwar nützlich sein können, um das Verhalten von LLM zu leiten, dass sie aber nicht immer effektiv darin sind, unerwünschte Ergebnisse zu vermeiden. Modelle können unerwartete oder unerwünschte Reaktionen hervorrufen, insbesondere wenn sie widersprüchlichen oder mehrdeutigen Eingaben ausgesetzt sind. Daher ist es wichtig, die Leistung von LLMs weiterhin zu überwachen und zu bewerten, auch wenn grüne Listen verwendet werden.

Das Konzept besteht darin, eine Wahrscheinlichkeitsverteilung für das nächste erzeugte Wort zu erstellen und diesen Prozess anzupassen, um ein Wasserzeichen einzubetten. Ein aus einem vorherigen Token generierter Hash-Code klassifiziert den Wortschatz in Wörter der „grünen Liste“ und der „roten Liste“.
Eine von Kirchenbauer et al. (2023) vorgeschlagene Methode teilte das Vokabular in rote und grüne Listen auf, und das System lernte, bevorzugt Tokens aus der grünen Liste zu erzeugen. Diese Aufteilung verbessert die Stabilität von Algorithmen, die ein Wasserzeichen für LLMs bereitstellen.
Eine bestimmte Zufallszahl (Seed im KI-Feld) kann den gesamten Wortschatz nach dem Zufallsprinzip in zwei gleich große Listen aufteilen, eine „grüne Liste“ und eine „rote Liste“. Das nächste Token wird anschließend aus der grünen Liste generiert, als Teil einer Methode zur Erkennung von Text, der von großen Sprachmodellen (LLMs) erzeugt wurde.
Bei einer anderen Methode erfolgt die Einteilung in die „grüne Liste“ und die „rote Liste“ auf der Grundlage des Prefix-Tokens, was die Wahrscheinlichkeit der Auswahl aus der grünen Liste subtil erhöht. Wenn in einem mit Wasserzeichen versehenen Satz jedes zweite Token bearbeitet wird, indem es in sein Synonym geändert wird, wird es schwierig, die grünen/roten Listen für jedes Token zu bestimmen. Diese Methode zur Erkennung von durch LLMs erzeugtem Text basiert auf der Ausnutzung der Tatsache, dass LLMs eine höhere Wahrscheinlichkeit haben, Tokens zu erzeugen, die denen ähnlich sind, die sie bereits erzeugt haben. Dies liegt daran, dass LLMs auf großen Textdatensätzen trainiert werden und lernen, das nächste Token in einer Sequenz auf der Grundlage von zuvor generierten Tokens vorherzusagen.

Bei dieser Methode wird ein Wasserzeichen erstellt, indem das Vokabular nach dem Zufallsprinzip in eine „grüne Liste“ und eine „rote Liste“ aufgeteilt wird. Die grüne Liste enthält die Tokens, die am wahrscheinlichsten von LLMs generiert werden und die rote Liste enthält die Tokens, die am unwahrscheinlichsten von LLMs generiert werden, so dass das LLM, wenn es einen Text generiert, gezwungen ist, Tokens aus der grünen Liste zu wählen. Dies schafft ein subtiles Wasserzeichen im Text, das einige häufige Benutzer von LLMs durch den „neutralen und höflichen Stil“ erkennen, der durch seichte und nicht konfrontative Antworten, die keine Partei ergreifen, und durch die Verwendung bestimmter Ausdrücke und Konjunktionen gekennzeichnet ist. Innerhalb des Systems kann dies durch die Überprüfung des Anteils der Tokens, die auf der grünen Liste stehen, erkannt werden.

Wenn der Text bearbeitet wird, indem jedes zweite Token durch sein Synonym ersetzt wird, wird es schwieriger, das Wasserzeichen zu erkennen. Dies liegt daran, dass die Synonyme wahrscheinlich auch in der grünen Liste stehen.

Einige aktuelle Studien konzentrieren sich auf die Anwendung fortschrittlicher Methoden, wie z. B. der statistische Analyse, um von einer KI generierten Text zu erkennen.

Transformer-Architektur und ihre Bedeutung

Ein LLM ist ein großes linguistisches Modell. Es ist eine Art von maschinellem Lernmodell, das eine Vielzahl von Aufgaben der Verarbeitung natürlicher Sprache (NLP) ausführen kann. Dazu gehören zum Beispiel das Generieren und Klassifizieren von Text, das Beantworten von Gesprächsfragen und das Übersetzen von Text von einer in eine andere Sprache.

Imagen 2, Los Transformers cambiaron la forma de procesar el lenguaje. Cortesía de Bing Image Creator

Abbildung 2: Die Transformer haben die Art und Weise verändert, wie wir Sprache verarbeiten. Von Bing Image Creator zur Verfügung gestellt.

Der Begriff „groß“ bezieht sich auf die Anzahl der Werte (Parameter), die das Modell während des Lernprozesses selbständig ändern kann. Einige der erfolgreichsten LLMs haben Hunderte von Milliarden von Parametern.

Das Herzstück eines LLM ist in der Regel ein Transformer-Modell. Diese bestehen aus einem Kodierer und einem Dekodierer und sind dafür bekannt, dass sie durch so genannte Self-Attention-Mechanismen mit weitreichenden Abhängigkeiten umgehen können. Wie der Name schon sagt, ermöglicht die Selbstaufmerksamkeit, insbesondere die mehrköpfige Aufmerksamkeit, dem Modell, mehrere Teile des Textes gleichzeitig zu berücksichtigen, was ein ganzheitlicheres und umfassenderes Verständnis des Inhalts ermöglicht.

Schlüsselkomponenten des LLM

In diesen Modellen arbeiten mehrere Schichten von neuronalen Netzen zusammen:

Einbettungsschicht: Wandelt den Eingabetext in Vektoren um, die seine semantische und syntaktische Bedeutung erfassen.
Feedforward-Schicht: Sie besteht aus vollständig verbundenen Netzen, die die Einbettungen verarbeiten und dabei helfen, die Absicht hinter einer Eingabe zu verstehen..
Rekurrente Schicht: Traditionell interpretieren sie Wörter nacheinander und stellen Beziehungen zwischen ihnen her.
Aufmerksamkeitsmechanismus: Konzentriert sich auf bestimmte Teile des Textes, die für die jeweilige Aufgabe relevant sind und verbessert so die Genauigkeit der Vorhersagen.

Arten von LLMs

Es gibt verschiedene Arten von LLMs, von denen die folgenden hervorstechen:

Allgemeine Sprachmodelle: Konzentrieren sich auf die Vorhersage des nächsten Wortes auf der Grundlage des Trainingskontextes.
MDurch Instruktionen trainierte Modelle: Sie werden speziell für Aufgaben wie die Stimmungsanalyse oder die Codegenerierung trainiert.
Dialogmodelle: Derzeit die beliebtesten, die von allen verwendet werden. Sie wurden entwickelt, um Gespräche zu simulieren, z. B. mit Chatbots oder KI-basierten Assistenten.

Angesichts der Natürlichkeit ihres Ausdrucks wurden LLM-basierte Lösungen stark gefördert und viele Unternehmen aller Größenordnungen investieren in die Anpassung von LLMs, wobei sie sich groß angelegte Problemlösungen in verschiedenen Branchen versprechen, vom Gesundheitswesen - wo sie bei der Diagnose helfen können - bis hin zum Marketing, wo die Stimmungsanalyse entscheidend sein kann.

Wie ein LLM trainiert wird

LLMs werden mit großen Datenmengen trainiert. Die Menge der Daten, die für das Training von GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4, LlaMa und LlaMa 2 verwendet wurden, ist stetig gewachsen, ebenso wie die Notwendigkeit, sauberere, hochwertigere, originalere und zuverlässigere Daten zu erhalten. Zum Beispiel:

GPT-1 wurde mit 40 GB Textdaten (600 Milliarden Wörter) trainiert;
GPT-2 mit 40 GB an Textdaten;
Bei GPT-3 wurde die Menge der Textdaten um mehr als das 16-fache^[3][4] auf 570 GB erhöht;
GPT-3.5: Es wurden keine spezifischen Informationen über die für das Training dieses Modells verwendete Datenmenge gefunden.
GPT-4: Wurde mit einer größeren Datenmenge als GPT-3 trainiert, aber es wurden keine spezifischen Informationen über die Datenmenge gefunden, die zum Trainieren dieses Modells verwendet wurde.
LlaMa: Es wurden keine spezifischen Informationen über die Menge der Daten gefunden, die zum Trainieren dieses Modells verwendet wurden.
LlaMa 2: Wurde mit 40 % mehr Daten als sein Vorgänger LlaMa trainiert, so dass es aus einer breiteren Palette öffentlicher Quellen lernen konnte.^{[1] [2]}.

Es sei daran erinnert, dass die Menge der Daten, die zum Trainieren eines Sprachmodells verwendet werden, nicht der einzige Faktor ist, der seine Leistung bestimmt, ebenso wenig wie Milliarden von Parametern. Andere Faktoren, wie die Architektur des Modells, die Qualität und Sauberkeit der Daten und der Trainingsprozess, spielen ebenfalls eine wichtige Rolle.

Nehmen Sie zwei der weltweit bekanntesten LLMs: LlaMa2 (Open Source) und ChatGPT (Closed Source und kommerziell).

LlaMa2

Ziel war es, ein einziges Modell zu entwickeln, das bei mehreren Text-zu-Text-Aufgaben wie Textklassifizierung, Stimmungsanalyse, Erkennung benannter Entitäten, Beantwortung von Fragen und in geringerem Maße auch bei der maschinellen Übersetzung gute Ergebnisse erzielt ^{[5] [6]}. Das Meta-Team wollte die Grenzen der Skalierbarkeit von transformerbasierten Modellen ausloten und die Auswirkungen von Größe und Komplexität auf die Leistung untersuchen. Ihr Ziel war es, ein Modell zu erstellen, das als solide Grundlage für zukünftige Forschungen zur Text-zu-Text-Transformation dienen sollte.

Imagen 3, META released Llama2 in summer 2023. Cortesía de Bing Image Creator

Abbildung 3: META veröffentlicht LlaMa im Sommer 2023. Von Bing Image Creator zur Verfügung gestellt.

Architektur und Komponenten:

LlaMa2 verwendet eine Transformer-Architektur mit einer neuartigen Kombination aus mehrköpfigen Self-Attention-Netzen und Feedforward-Netzen. Es besteht aus mehreren Komponentenmodellen, die jeweils für eine bestimmte Aufgabe entwickelt wurden: BERT für kontextualisierte Einbettungen, RoBERTa für semantisches Verständnis auf Satzebene, DistilBERT für die Beantwortung von Fragen und ein speziell entwickeltes Encoder-Decoder-Modul für Sequenz-zu-Sequenz-Aufgaben. Das Modell wurde durch die Kombination von maskierter Sprachmodellierung, Vorhersage des nächsten Satzes und aufgabenspezifischen Zielen trainiert.

Trainingsprozess:

Die Autoren nutzten ein verteiltes Computersystem, um LlaMa2 mit einem Datensatz zu trainieren, der aus einer Vielzahl von Textquellen besteht, darunter Bücher, Artikel und Websites.

Imagen 4, Datos utilizados para Llama2 . Cortesía de Bing Image Creator

Abbildung 4: Für LlaMa verwendete Daten. Quelle: Beschreibender Artikel von Meta LlaMa2

Es wurde eine curriculare Lernstrategie angewandt, bei der mit einer kleinen Teilmenge der Daten begonnen wurde, um dann die Menge und die Anzahl der Schritte während des Trainings schrittweise zu erhöhen. Dabei wurde eine Mischung aus 16-Bit- und 32-Bit-Gleitkommazahlen verwendet, um die Modellgewichte zu speichern und eine Gradientensteuerung durchgeführt, um den Speicherbedarf zu reduzieren.

Experimentelle Ergebnisse:

LlaMa2 schnitt bei mehreren Benchmark-Datensätzen, wie GLUE, SuperGLUE und WMT, am besten ab.

Im GLUE-Test übertraf LlaMa2 das Vorgängermodell BERT im Durchschnitt um 4,8 %.

Im SuperGLUE-Test verbesserte LlaMa2 die Leistung von BERT um durchschnittlich 7,7 %.

In der WMT-Übersetzungsaufgabe schnitt LlaMa2 im Vergleich zu den modernsten Modellen konkurrenzfähig ab.

Wesentliche Komponente: bestärkendes Lernen durch menschliche Rückopplung

LlaMa2 wurde mit öffentlichen Daten aus dem Internet trainiert (hauptsächlich Common Crawl und in geringerem Umfang aus Büchern und Wikipedia-Inhalten, aber nicht von Nutzern der Metasysteme). Eine erste Version des LlaMa-2-Chats wurde dann mit Hilfe von überwachtem Fine-Tuning erstellt. LlaMa-2-Chat wurde dann iterativ mit „Human Feedback Reinforcement Learning“ (RLHF) verfeinert, das die Verwerfungsmethode und „Proximal Policy Optimisation“ (PPO) umfasst. Die Autoren verwendeten einen Algorithmus zur Optimierung mehrerer Ziele, um optimale Modellparameter zu finden, die konkurrierende Ziele wie Komplexität, Antwortqualität und Sicherheit ausgleichen. Sie integrierten RLHF, um das Modell auf menschliche Präferenzen und das Befolgen von Anweisungen abzustimmen.

Imagen 5, Llama2 RLHF . Cortesía de Bing Image Creator

Abbildung 5: RLHF bei LlaMa2. Meta

Im Rahmen des RLHF-Prozesses wurde menschliches Feedback in Form von Bewertungen und Vergleichen zwischen den vom Modell generierten Antwortalternativen gesammelt. Die Autoren nutzten diese Informationen, um die Modellgewichte zu aktualisieren und seine Leistung zu verbessern. Außerdem fügten sie dem Trainingssatz zusätzliche Daten hinzu, darunter Internetkonversationen und von Menschen erstellte Texte, um die Vielfalt der Trainingsdaten zu erhöhen.

Eine der größten Herausforderungen beim Training von LlaMa2 war die Lösung des Problems der Voreingenommenheit durch Exposition, bei der das Modell Antworten erzeugt, die den beim Training beobachteten zu ähnlich sind. Um dieses Problem zu lösen, führten die Autoren eine neuartige Technik namens Latent Adversarial Training (LAT) ein, die den Eingabeanweisungen Rauschen hinzufügt, um das Modell dazu zu veranlassen, vielfältigere Antworten zu erzeugen.

Eine weitere Herausforderung bestand darin, sicherzustellen, dass das Modell sicher und respektvoll ist. Die Dokumentation von Meta geht sehr ausführlich auf dieses Thema ein. Die Autoren entwickelten einen Sicherheitsfilter, der Antworten zurückwies, die unangemessen waren oder bestimmte Kriterien nicht erfüllten. Außerdem haben sie einen „Dämpfungs“-Mechanismus eingebaut, der das Training vorübergehend unterbricht, wenn unsichere Antworten erkannt werden.

In mehreren Iterationen führten die Autoren mehrere Abstimmungs- und Bewertungsrunden durch, um die Parameter des Modells schrittweise zu verfeinern und seine Leistung zu verbessern. Sie experimentierten auch mit verschiedenen Hyperparametern und Techniken, wie dem Hinzufügen zusätzlicher Schichten oder der Änderung der Belohnungsfunktion, um die Leistung des Modells zu optimieren.

Insgesamt beruht der Erfolg von LlaMa2 auf einer Kombination von Faktoren, wie dem Einsatz von RLHF, der Optimierung großer Iterationen, der sorgfältigen Auswahl von Hyperparametern und innovativen Techniken zur Bewältigung spezifischer Herausforderungen.

ChatGPT

ChatGPT ist ein Dienst, der am 30. November 2022 von OpenAI eingeführt wurde und derzeit als GPT-3.5 oder GPT-4 angeboten wird, Mitglieder der proprietären generativen vortrainierten Transformer (GPT)-Modellreihe von OpenAI. ChatGPT ist kein von Grund auf neu trainiertes Modell, sondern eine erweiterte Version von GPT-3 mit konversationsfähigkeiten (Chatbot) und umfangreichem Speicher für die Erinnerung an Unterhaltungen. Das ursprüngliche GPT-3-Modell wurde auf einem riesigen Internet-Datensatz (570 Gigabyte Text und 175 Milliarden Parameter) trainiert, einschließlich Text aus Wikipedia, Twitter und Reddit.

Imagen 6, Cantidad de datos utilizados por OpenAI en el entrenamiento de ChatGPT. Cortesía de Bing Image Creator

Abbildung 6: Datenmenge, die von OpenAI für das Training von ChatGPT verwendet wurde.

Um ChatGPT zu verfeinern, verwendete das Team eine ähnliche Methodik wie bei InstructGPT. Was die Daten anbelangt, so wurde ChatGPT anhand von öffentlich zugänglichen Informationen aus dem Internet, lizenzierten Informationen von Dritten und von Nutzern oder menschlichen Trainern bereitgestellten Informationen entwickelt. Der Prozess wird im Folgenden beschrieben.

Der Entwicklungs- und Trainingsprozess war ein vielschichtiger Prozess: überwachtes Lernen, generatives Pre-Training und ein Belohnungsmodell sowie ein Modell zum bestärkenden Lernen durch menschliche Rückkopplung. Wie das Meta-Team später auch, nutzte OpenAI das bestärkende Lernen durch menschliche Rückopplung, um ChatGPT an die menschlichen Vorlieben anzupassen.

1. generatives Pre-Training

Zunächst wurde ChatGPT mit einem großen Korpus von Textdaten trainiert, die größtenteils aus Common Crawl und zu einem geringeren Teil aus Wikipedia und Büchern stammten. Die zentrale Idee war, ein statistisches Sprachmodell zu trainieren, das grammatikalisch korrekte und semantisch sinnvolle Texte generieren kann. Als Technik wurde unüberwachtes Lernen eingesetzt, so dass das Modell lernte, das nächste Wort in einem Satz vorherzusagen, indem es große Mengen von Textdaten verarbeitete. Die Transformer-Architektur, die insbesondere für ihre Fähigkeit bekannt ist, Datenfolgen zu verarbeiten, spielt in dieser Phase eine Schlüsselrolle, da sie es dem Modell ermöglicht, die Beziehungen zwischen den verschiedenen Wörtern in einem Satz zu verstehen und so die Syntax und Semantik der Sprache zu erlernen.

2. Beaufsichtigte Anpassung

Nach dem Pre-Training wurde das Modell einer überwachten Tuning-Phase unterzogen, in der es mit einem Datensatz trainiert wurde, der spezifischer auf die vorliegende Aufgabe zugeschnitten war, in diesem Fall die Führung eines Gesprächsdialogs. Dieser Datensatz wird in der Regel mit Hilfe von menschlichen KI-Trainern erstellt, die Gespräche führen und dem Modell die richtigen Antworten geben. In dieser Phase wird die Fähigkeit des Modells verfeinert, kontextuell relevante und konsistente Antworten in einer Gesprächsumgebung zu generieren.

3. Bestärkendes Lernen durch menschliche Rückkopplung (RLHF)

Die letzte Phase ist das bestärkende Lernen, bei dem das Modell mit einer Methode, die als bestärkendes Lernen durch menschliche Rückopplung (RLHF) bekannt ist, weiter verfeinert wird. In dieser Phase interagieren die KI-Trainer mit dem Modell und die von ChatGPT generierten Antworten werden nach ihrer Qualität eingestuft. Dieses Ranking bildet ein Belohnungsmodell, das den Bestärkungslernprozess steuert. Durch die Rückkopplungsschleife trägt die RLHF-Methode dazu bei, die Generierung von Text zu minimieren, der vom Modell als schädlich, voreingenommen oder falsch angesehen wird, wie es bei früheren GPTs der Fall sein konnte. Während dieser Phase werden mehrere Iterationen von Feedback und Training durchgeführt, um die Leistung des Modells kontinuierlich zu verbessern. iples iteraciones de retroalimentación y entrenamiento para mejorar continuamente el rendimiento del modelo.

Der für das Training von ChatGPT verwendete Datensatz überraschte die gesamte wissenschaftliche Gemeinschaft mit seinem Umfang. Dank des RLHF enthielt er einen umfangreichen Konversationsdatensatz, der speziell ausgewählt wurde, um die Nuancen des menschlichen Dialogs zu lernen. Die Trainingsdaten wurden durch Tokenisierung und Normalisierungstechniken vorverarbeitet, um sicherzustellen, dass sie in einem für das Training geeigneten Format vorlagen. Die Tokenisierung zerlegt den Text in kleinere Einheiten (Token) und die Normalisierung gewährleistet eine konsistente Darstellung des Textes, was für das Training eines robusten Modells entscheidend ist.

Darüber hinaus haben die Entwickler von ChatGPT ein Belohnungsmodell zu dem bestärkenden Lernen hinzugefügt, das ein wesentlicher Bestandteil der Bestärkungslernphase ist. Dieses Modell basiert auf Bewertungen von KI-Trainern, die mit ChatGPT interagieren, Antworten bewerten und wertvolles Feedback geben. Dieser iterative Feedback-Mechanismus ist entscheidend für die Verfeinerung des Modells und die Erzeugung von qualitativ hochwertigeren, genaueren und sichereren Antworten im Laufe der Zeit.

Der Trainingsprozess von ChatGPT wurde sorgfältig konzipiert, um dem Modell ein umfassendes Verständnis der Sprache zu vermitteln, seine Interaktionsfähigkeiten zu verfeinern und schließlich seine Antworten auf der Grundlage menschlichen Feedbacks zu verfeinern, um sicherzustellen, dass seine Ergebnisse nützlich, sicher und von hoher Qualität sind.

Was kann man mit einem trainierten LLM machen?

Sobald ein LLM trainiert wurde, kann es für eine Vielzahl von NLP-Aufgaben feinabgestimmt werden, darunter:

Erstellung von Chatbots wie ChatGPT.
Erstellung von Texten für Produktbeschreibungen, Blogbeiträge und Artikel.
Beantwortung häufig gestellter Fragen (FAQ) und Weiterleitung von Kundenanfragen an die am besten geeignete Person.
Analysieren Sie Kundenfeedback aus E-Mails, sozialen Medien und Produktbewertungen.
Übersetzen von Geschäfts- oder Konversationsinhalten in verschiedene Sprachen (obwohl unterrepräsentierte Sprachen von viel geringerer Qualität sind als gut ausgestattete Sprachen und die Übersetzung viel langsamer und teurer ist als mit neuronalen Netzen).
Klassifizieren und kategorisieren Sie große Mengen von Textdaten für eine effizientere Verarbeitung und Analyse.

Das Chinchilla-Modell und der Sweetspot für das LLM-Training

Das „Chinchilla“-Dokument ^[1], ist ein bedeutender Beitrag auf dem Gebiet der KI und der LLM-Entwicklung und bietet interessante Einblicke in das LLM-Training. Experimente scheinen darauf hinzuweisen, dass es einen „optimalen Punkt“ für das Training von LLMs gibt und dass jenseits dieses Punktes die Investition von mehr Ressourcen in das Training in Form von mehr Parametern nicht unbedingt zu einer proportionalen Leistungssteigerung führt. In der Arbeit wird betont, dass nicht nur die Größe eines Modells seine Leistung beeinflusst, sondern, wie bei Übersetzungsmodellen auf der Grundlage neuronaler Netze, auch die Qualität der Daten und die Menge der verwendeten Daten von Bedeutung sind.

Die Autoren des Papiers fanden heraus, dass für ein rechnerisch optimales Training die Größe des Modells und die Anzahl der Trainingstoken gleichmäßig skalieren müssen: Bei jeder Verdopplung der Modellgröße muss sich auch die Anzahl der Trainingstoken verdoppeln.

Um diese Hypothese zu testen, trainierten sie Chinchilla, ein Modell mit 70 Milliarden Parametern, das mit 1,4 Billionen amerikanischen Tokens trainiert wurde. Obwohl es viel kleiner als Gopher ist, wie die folgende Tabelle zeigt, übertrifft Chinchilla Gopher in fast allen Auswertungen, einschließlich Sprachmodellierung, Beantwortung von Fragen, allgemeine Aufgaben usw.

Imagen 7, Datos de entrenamiento de Chinchilla. Cortesía de Bing Image Creator

Abbildung 7: Trainingsdaten von Chinchilla

Lassen Sie uns Begriffe klären: Halluzinieren LLMs?

In gewisser Weise „halluzinieren“ LLMs, weil sie mit großen Mengen von Textdaten trainiert wurden, die falsche oder verzerrte Informationen enthalten können. Wenn LLMs Text generieren, können sie diese falschen oder verzerrten Informationen in ihre Antworten einfließen lassen. Dies kann den Eindruck erwecken, dass LLMs halluzinieren, da sie Informationen generieren, die nicht real sind oder nicht auf der Realität basieren, sondern auf eine kategorische Art und Weise, die den Benutzer dazu verleiten kann, zu glauben, dass sie die richtige Antwort haben.

LLMs können Probleme verursachen, weil sie mit großen Mengen an Text- und Codedaten trainiert wurden, die trotz der Anwendung verschiedener Bereinigungsfilter falsche oder voreingenommene Informationen enthalten können. Tatsächlich zielen fast alle Bemühungen bei der Anwendung von bestärkendem Lernen durch menschliche Rückkopplung, Bewertungen und Tests darauf ab, die Produktion von unsicheren oder wenig hilfreichen Texten zu vermeiden, wie im Artikel von Meta über LlaMa2 oder im Artikel von OpenAI über ChatGPT beschrieben.

Alle LLMs verwenden Common Crawl und diverse Internetquellen als Grundlage für Trainings- und Lernmaterial. Trotz der Bereinigungsprozesse und der Beseitigung von Voreingenommenheiten ist es unmöglich, alle Informationen zu überprüfen, wenn man es mit Terabytes von Text zu tun hat. Daher hat ein LLM einen „Stichtag“ oder ein „Datum des letzten Wissens“, obwohl Anstrengungen unternommen werden, die Antworten mit aktuelleren Informationen, einschließlich Ergebnissen aus dem Web, zu verbessern.

Imagen 8, Los LLMs pueden alucinar. Cortesía de Bing Image Creator

Abbildung 8: LLMs können durchdrehen. Von Bing Image Creator zur Verfügung gestellt.

Ein LLM könnte zum Beispiel mit einem Textdatensatz trainiert werden, der falsche oder veraltete Informationen über das Wetter enthält. Der Datensatz könnte besagen, dass die Durchschnittstemperatur in einem Land 20ºC beträgt. Wenn das LLM nach dem Klima in diesem Land gefragt wird, könnte es antworten, dass die Durchschnittstemperatur 20°C beträgt. Dies wäre eine Halluzination, weil die tatsächliche Durchschnittstemperatur in diesem Land (nehmen wir Spanien als Beispiel) 17 Grad beträgt.

LLMs können halluzinieren, denn, vergessen wir nicht, sie sind darauf trainiert worden, kreativ und „generativ“ zu sein. Alle anderen Fähigkeiten (das Schreiben von Codes oder das Übersetzen) sind Fähigkeiten, die sich unbeabsichtigt als Ergebnis der linguistischen Mustererkennung bei großen Textmengen ergeben haben.

Wenn ein LLM mit einer neuen Frage konfrontiert wird, kann es eine Antwort generieren, die neu und interessant ist, aber möglicherweise nicht genau ist oder nicht mit der realen Welt übereinstimmt. Tatsächlich konzentrierte sich die frühe Kritik an ChatGPT zu Beginn des Jahres darauf, dass es ein „stochastischer Papagei“ sei.

Zum Beispiel könnte ein LLM auf einem Textdatensatz trainiert werden, der Informationen über die Geschichte Spaniens enthält. Der Datensatz könnte besagen, dass Spanien von einer Gruppe von Menschen gegründet wurde, die aus Afrika kamen. Wenn der LLM nach der Geschichte Spaniens gefragt wird, könnte er/sie antworten, dass Spanien von einer Gruppe von Menschen gegründet wurde, die aus Afrika kamen. Dies wäre eine Halluzination, denn die wahre Geschichte Spaniens ist viel komplexer.

Darüber hinaus neigen LLMs dazu, kreative oder fantasievolle Antworten zu geben. Dies liegt daran, dass LLMs darauf trainiert sind, Text zu erzeugen, der dem Text ähnelt, der ihnen im Trainingsdatensatz präsentiert wurde. Wenn der Trainingsdatensatz kreativen oder phantasievollen Text enthält, können LLMs dazu neigen, ähnlichen Text zu erzeugen. Dies kann den Eindruck erwecken, dass LLMs halluzinieren, da sie Informationen erzeugen, die nicht real sind. Es ist jedoch wichtig, sich vor Augen zu halten, dass LLMs keine bewussten Wesen sind. Sie haben nicht die Fähigkeit, die Realität auf dieselbe Weise zu erleben wie Menschen. Die Informationen, die LLMs erzeugen, sind einfach eine Funktion der Daten, auf die sie trainiert wurden.

Das berühmte Aufmerksamkeitsfenster

Das Aufmerksamkeitsfenster ist ein grundlegendes Konzept in großen Sprachmodellen (LLMs), das den Umfang der Tokens definiert, auf die sich ein LLM beziehen kann, wenn es das nächste Token generiert. Dieses Fenster bestimmt den Umfang des Kontexts, den ein LLM bei der Generierung von Text berücksichtigen kann, was das Verständnis von weitreichenden Abhängigkeiten im Text erleichtert.

In ihrer Anfangszeit hatten LLMs Aufmerksamkeitsfenster von nur wenigen Token. In den Tagen der statistischen maschinellen Übersetzung beispielsweise wurde das Aufmerksamkeitsfenster auf einige n-Gramme (Wörter) reduziert. Mit der neuronalen maschinellen Übersetzung wurde das Aufmerksamkeitsfenster auf einen ganzen Satz ausgedehnt, was zu einem hohen Grad an Geläufigkeit führte. ChatGPT und LLMs im Allgemeinen haben das Aufmerksamkeitsfenster auf etwa 64.000 Token (über 50.000 Wörter) erweitert, was dem Umfang einer Doktorarbeit entspricht.

Imagen 9, Las ventanas de atención desde la traducción automática estadística a la neuronal a los LLMs. Presentación de Pangeanic en la Universidad de Surrey (Convergence Lectures), OCtubre 2023.

Abbildung 9: Aufmerksamkeitsfenster von der statistischen zur neuronalen maschinellen Übersetzung zu LLMs. Präsentation von Pangeanic in der University of Surrey (Convergence Lectures), Oktober 2023.

Das vergrößerte Aufmerksamkeitsfenster in modernen LLMs hat sich erheblich auf die Texterstellung ausgewirkt und die Leistung bei einer Vielzahl von Aufgaben wie Sprachmodellierung, Beantwortung von Fragen und Übersetzung verbessert.

Die Vergrößerung des Aufmerksamkeitsfensters hat sich auch auf den Grad der Kohärenz des erzeugten Textes ausgewirkt. Frühe LLMs neigten dazu, Text mit lokaler Kohärenz zu produzieren (wie bei der statistischen und neuronalen Übersetzung), aber moderne LLMs sind in der Lage, dokumentenweit kohärenten Text zu generieren, und zwar auf eine sehr globalisierte Weise. Dies liegt daran, dass moderne LLMs eine viel größere Menge an Kontext berücksichtigen können, was ihnen ein besseres Verständnis des Themas des von ihnen erzeugten Textes ermöglicht.

Die Größe des Aufmerksamkeitsfensters kann die Texterstellung erheblich beeinflussen:

Ein kleines Aufmerksamkeitsfenster kann zu sich wiederholendem oder kontextlosem Text führen. Dies liegt daran, dass das LLM nicht genügend Kontext berücksichtigen kann, um kohärenten Text zu erzeugen.
Ein großes Aufmerksamkeitsfenster kann mehr kontextrelevante, informative, kreative und originelle Texte hervorbringen. Dies liegt daran, dass das LLM eine viel größere Menge an Kontext berücksichtigen kann, wodurch es einen genaueren und vollständigeren Text erzeugen kann. Ein zu großes Aufmerksamkeitsfenster kann jedoch das LLM überfordern, was die Texterzeugung verlangsamen oder inkohärente Texte produzieren kann. Die optimale Größe des Aufmerksamkeitsfensters hängt von der jeweiligen Aufgabe ab. So kann für Sprachmodellierungsaufgaben ein kleineres Fenster von Vorteil sein, während für die Beantwortung von Fragen oder für Übersetzungsaufgaben ein größeres Fenster erforderlich sein kann.

LLMs und generative KI sind nicht dasselbe.

Es ist wichtig, zwischen LLMs und generativer KI zu unterscheiden. Während LLMs sich auf Text konzentrieren, umfasst generative KI ein breiteres, multimodales Spektrum, einschließlich der Erstellung von Bildern, Musik und mehr. Alle LLMs können als Teil der generativen KI betrachtet werden, aber nicht jede generative KI ist ein LLM.

So sind beispielsweise Claude2 von Anthropic, PaLM von Google und das berühmte ChatGPT oder LlaMa2 LLMs, während Microsofts Stable Diffusion oder Bing Image Creator, die auf Dall-e 3 basieren, generative KIs sind, die aber Bilder und keine großen Sprachmodelle erzeugen.

Beispiele für beliebte große Sprachmodelle

Wie wir bereits gesagt haben, sind LLMs zu einem unverzichtbaren Werkzeug für eine Vielzahl von Anwendungen geworden, vom Kundendienst bis zur wissenschaftlichen Forschung. Beispiele für beliebte große Sprachmodelle sind:

ChatGPT: ein generativer Chatbot mit künstlicher Intelligenz, entwickelt von OpenAI.
PaLM: Googles Pathways Language Model (PaLM), ein Transformer-Sprachmodell, das in der Lage ist, arithmetische Berechnungen und Schlussfolgerungen mit überzeugender Logik durchzuführen, Witze zu erklären, Codes zu generieren und zu übersetzen.
BERT: Das bidirektionale Encoder-Transformer-Repräsentations-Sprachmodell (BERT) wurde ebenfalls bei Google entwickelt. Es handelt sich um ein transformerbasiertes Modell, das natürliche Sprache verstehen und Fragen beantworten kann.
XLNet: XLNet ist ein Permutations-Sprachmodell, das Vorhersagen in zufälliger Reihenfolge generiert, was es von BERT unterscheidet. Es wertet das Muster der kodierten Token aus und sagt dann die Token in zufälliger anstatt in einer sequentiellen Reihenfolge voraus.
GPT: Vorgebildete generative Transformer sind vielleicht die bekanntesten großen Sprachmodelle. Das von OpenAI entwickelte GPT ist ein beliebtes Basismodell, dessen nummerierte Iterationen Verbesserungen seiner Vorgänger sind (GPT-3, GPT-4 usw.).

Ein umfassender Blick auf den Einsatz von LLMs, Vorteile und Herausforderungen

Nach einigen Monaten des Schocks und des Staunens seitens der Tech-Giganten Ende 2002 und Anfang 2023 sind große Sprachmodelle (LLMs) zu einer tragenden Säule in praktisch jeder Branche geworden. Diese Modelle, die auf dem neuesten Stand der Technik sind, definieren neu, wie Maschinen mit Menschen interagieren und wie sie Sprache verarbeiten ... und sogar, wie wir Menschen miteinander interagieren mit maschinellen Messungen.

Vielseitige Anwendungen von LLM

Informationsabfrage: Plattformen wie Google und Bing stützen sich in hohem Maße auf LLMs. Diese Modelle rufen nicht nur Daten als Antwort auf eine Anfrage ab, sondern können die Informationen auch zusammenfassen und in einer verständlichen und benutzerfreundlichen Weise präsentieren.
Stimmungsanalyse: Unternehmen, insbesondere Marketing- und PR-Firmen, setzen LLMs ein, um die Stimmung der Nutzermeinungen zu bewerten und wertvolle Erkenntnisse über Produkte oder Dienstleistungen zu gewinnen.
Text- und Codegenerierung: LLMs wie ChatGPT können Inhalte von Grund auf erstellen. Vom Verfassen von Gedichten bis zum Schreiben von Codeschnipseln - die Vielseitigkeit dieser Modelle ist erstaunlich.
Chatbots und konversationelle KI: LLMs haben den Kundenservice revolutioniert und ermöglichen es Bots, Nutzeranfragen natürlicher und effektiver zu verstehen und zu beantworten.

LLMs in verschiedenen Sektoren

Große Sprachmodelle haben das Potenzial, die Arbeitsweise vieler Branchen zu verändern und die Arbeit der Fachleute effizienter zu machen. Im Moment haben sie bereits die Welt, wie wir sie kennen, radikal verändert.

Technologie: Neben Suchmaschinen nutzen Entwickler LLMs zur Unterstützung bei der Programmierung und zur Lösung komplexer Probleme.
Gesundheit und Wissenschaft: LLMs tragen zum medizinischen Fortschritt bei, indem sie genetische Informationen interpretieren und bei der Erforschung von Krankheiten helfen. Sie können auch als virtuelle medizinische Assistenten fungieren.
Rechts-, Finanz- und Bankwesen: Juristen und Finanzexperten beginnen, die Möglichkeiten von LLMs für die Suche nach Informationen und die Erkennung von Mustern zu nutzen, was für die Aufdeckung von Betrug oder die Auslegung von Gesetzen nützlich ist.

Vorteile des LLM

Die Vorteile, die LLMs der Gesellschaft bieten, sind zahlreich, obwohl sie keine „denkenden Wesen“ sind und ihnen das Denkvermögen fehlt.

Sehr breites Spektrum von Anwendungen: Seine Vielseitigkeit reicht von der Sprachübersetzung bis zur Lösung komplexer mathematischer Probleme.

Kontinuierliches Lernen und Verbesserung: Je mehr Daten eingegeben werden, desto genauer und leistungsfähiger sind sie. LLMs lernen ständig und passen sich an neue Zusammenhänge an.

Schnelles Lernen: Durch das „kontextuelle Lernen“ können sich LLMs schnell an neue Aufgaben anpassen, ohne dass ein umfangreiches Training erforderlich ist.

Herausforderungen und Einschränkungen

Halluzinationen: Wie bereits erwähnt, können LLMs manchmal unangemessene oder falsche Antworten erzeugen, die nicht der Realität oder der Absicht des Nutzers entsprechen.
Sicherheit und Voreingenommenheit: LLMs können manipuliert werden, um falsche oder voreingenommene Informationen zu verbreiten. Darüber hinaus sind Datenintegrität und Datenschutz ein ständiges Anliegen.
Zustimmung und Urheberrecht: Es gibt Bedenken hinsichtlich der Beschaffung und Verwendung von Trainingsdaten, da viele Unternehmen ihre Webdaten ohne ihre Zustimmung verwendet haben. Dies beinhaltet potenzielle Probleme mit Plagiaten und Urheberrechtsverletzungen. Einige Unternehmen haben damit begonnen, „Anti-Crawl-Klauseln“ in die robots.txt-Datei für ChatGPT/OpenAI aufzunehmen, damit sie die Veröffentlichung von Informationen auf ihren Websites nicht ausnutzen können.
Skalierung und Einsatz: LLMs sind komplex und erfordern eine beträchtliche Infrastruktur und fortgeschrittenes technisches Fachwissen für die Implementierung und Wartung.

LGroße Sprachmodelle definieren den Schnittpunkt zwischen Technologie und Sprache neu. Mit ihrem immensen Potenzial zur Verbesserung und Erleichterung der Interaktion zwischen Mensch und Maschine entwickeln sich die LLMs weiter und werden sich auch in Zukunft sprunghaft weiterentwickeln und möglicherweise ein Teil des Puzzles auf dem Weg zur künstlichen allgemeinen Intelligenz (AGI für Artificial General Intelligence) sein, dem eigentlichen Ziel von Sam Altman, CEO von OpenAI. Die Bewältigung dieser Herausforderungen ist daher von entscheidender Bedeutung, um sicherzustellen, dass diese Technologie der Gesellschaft auf ethische und verantwortungsvolle Weise zugute kommt.

Anwendungsfälle für große Sprachmodelle (LLMs) heute und in Zukunft

Laut Gartner, gibt es eine Vielzahl von Anwendungsfällen in zahlreichen Branchen für große Sprachmodelle und ihr potenzieller Einsatzbereich wird ständig erweitert. Hier sind einige aktuelle und potenzielle Anwendungsfälle für LLMs:

Aktuelle Anwendungsfälle:

Verarbeitung natürlicher Sprache (NLP): LLMs können für NLP-Aufgaben wie Textklassifizierung, Stimmungsanalyse, Erkennung benannter Entitäten, maschinelle Übersetzung und Spracherkennung verwendet werden.
Chatbots und virtuelle Assistenten: LLMs treiben Chatbots und virtuelle Assistenten an und ermöglichen es ihnen, Nutzeranfragen zu verstehen und zu beantworten, wodurch der Kundenservice verbessert und die Supportkosten gesenkt werden.
Sprachübersetzung: LLMs werden in maschinellen Übersetzungsplattformen verwendet, die schnellere und genauere Übersetzungen ermöglichen, Sprachbarrieren abbauen und die Kommunikation zwischen Kulturen erleichtern.
Textzusammenfassung: LLMs können lange Texte zu prägnanten und aussagekräftigen Zusammenfassungen verdichten, wodurch die Nutzer Zeit sparen und das Verständnis verbessert wird.
Stimmungsanalyse in Texten: LLMs analysieren die Stimmung in Textdaten und helfen Unternehmen, Kundenmeinungen zu bewerten, Trends zu erkennen und fundierte Entscheidungen zu treffen.
Generierung von Inhalten: LLMs generieren hochwertige Inhalte wie Artikel, Blogbeiträge und Beiträge für soziale Medien, wodurch der Bedarf an menschlichen Autoren reduziert und die Prozesse zur Erstellung von Inhalten vereinfacht werden.
Antworten auf Fragen: LLMs beantworten Fragen auf der Grundlage der Informationen, mit denen sie trainiert wurden, und geben so schnelle Antworten auf häufige Fragen und setzen Personalressourcen für komplexere Aufgaben frei.
Codegenerierung: LLMs generieren Codeschnipsel, automatisieren bestimmte Programmieraufgaben und beschleunigen die Softwareentwicklungszyklen.
Überprüfung von Rechtsdokumenten: LLMs überprüfen Rechtsdokumente, identifizieren relevante Klauseln, weisen auf Unstimmigkeiten hin und vereinfachen den Prozess der Vertragsprüfung.
Medizinische Diagnose: LLMs unterstützen Ärzte bei der Diagnose von Krankheiten, indem sie Krankenakten analysieren, Muster erkennen und mögliche Behandlungen vorschlagen.

Zukünftige Anwendungsfälle:

Verbesserte konversationelle KI: LLMs werden die konversationellen KI-Fähigkeiten weiter verfeinern, um anspruchsvollere Dialoge zwischen Menschen und Maschinen zu ermöglichen und die Grenzen der Interaktionen zwischen Mensch und KI zu verwischen.
Erkennung von Emotionen: LLMs werden in der Lage sein, Emotionen anhand von Sprache, Text und visuellen Eingaben zu erkennen, was einfühlsame Reaktionen und eine bessere Zusammenarbeit zwischen Mensch und KI ermöglicht.
Erklärbare KI (Explainable AI, XAI): LLMs werden ihre Entscheidungsprozesse klar erläutern und so das Vertrauen in KI-gesteuerte Entscheidungen und deren Verantwortlichkeit fördern.
Ethische Entscheidungsfindung: LLMs werden ethische Erwägungen in ihren Entscheidungsfindungsprozess einbeziehen, um Fairness, Transparenz und die Einhaltung moralischer Grundsätze zu gewährleisten.
Kreatives Schreiben und Schriftstellerei: LLMs werden sich an das kreative Schreiben heranwagen, originelle Geschichten, Gedichte und Drehbücher verfassen und möglicherweise mit traditionellen Kunstformen brechen.
Sprache-zu-Text und Text-zu-Sprache: LLMs werden die Sprache-zu-Text- und Text-zu-Sprache-Fähigkeiten verbessern und so den Zugang für Menschen mit Behinderungen erleichtern und Sprachlücken schließen.
Multimodale Kommunikation: LLMs werden multimodale Inhalte verarbeiten und generieren, indem sie Text, Bilder, Video und Audio kombinieren, um vielfältigere und ansprechendere Erfahrungen zu schaffen.
Edge-KI: LLMs werden in Geräten am Rande des Netzwerks eingesetzt, um eine lokalisierte Verarbeitung zu ermöglichen, Latenzzeiten zu reduzieren und die Sicherheit für IoT- und mobile Anwendungen zu erhöhen.
Transfer-Lernen: LLMs werden sich durch Transfer-Lernen an neue Bereiche und Aufgaben anpassen, wodurch der Wert bereits trainierter Modelle maximiert und der Bedarf an aufgabenspezifischen Trainingsdaten minimiert wird.
Hybride Intelligenz: LLMs werden mit Systemen der symbolischen künstlichen Intelligenz zusammenarbeiten und dabei regelbasierte Schlussfolgerungen und Erkenntnisse des Deep Learning integrieren, um ein noch nie dagewesenes Maß an Leistung und Effizienz zu erreichen.

Kurz gesagt, da diese Modelle immer größer und komplexer werden, dürften sie in der Lage sein, noch komplexere Aufgaben zu erfüllen. Zusätzlich zu den oben genannten Punkten könnten einige der möglichen künftigen Entwicklungen auch Folgendes umfassen:

Die Fähigkeit, natürliche Sprache natürlicher und fließender zu verstehen und zu erzeugen.
Die Fähigkeit, schneller und effizienter zu lernen und sich an neue Aufgaben anzupassen.
Die Fähigkeit, verschiedene kreative Textformate zu erstellen, wie z. B. Gedichte, Codes, Skripte, Musikstücke, E-Mails, Briefe usw.

Diese Fortschritte werden verschiedene Bereiche revolutionieren und die Art und Weise, wie wir interagieren, arbeiten und leben, verändern. Es ist jedoch von entscheidender Bedeutung, sich mit den ethischen Implikationen auseinanderzusetzen und eine verantwortungsvolle Entwicklung und Umsetzung von KI zu gewährleisten, die der Gesellschaft als Ganzes zugutekommt.

Soziale Auswirkungen von großen Sprachmodellen

LLMs haben das Potenzial, die menschliche Gesellschaft in vielerlei Hinsicht zu verändern. So könnten sie beispielsweise zur Verbesserung der Kundenbetreuung, der Bildung, der wissenschaftlichen Forschung und der Kreativität eingesetzt werden.

Allerdings werfen LLMs auch einige gesellschaftliche Bedenken auf. So besteht beispielsweise die Gefahr, dass sie zur Erstellung falscher oder irreführender Inhalte oder zur Manipulation von Personen verwendet werden.

Schlussfolgerungen: Große Sprachmodelle sind eine neue Technologie mit großem Potenzial. Da sich diese Modelle weiter entwickeln, werden sie wahrscheinlich eine immer wichtigere Rolle in unserem Leben spielen.

Einige noch ausstehende Herausforderungen

Trotz ihres Potenzials stellen LLMs uns auch vor einige Herausforderungen. Eine der größten Herausforderungen ist die Voreingenommenheit. LLMs werden auf großen Textdatensätzen trainiert, die möglicherweise voreingenommen sind.

Dies kann dazu führen, dass LLMs Texte erzeugen, die ebenfalls voreingenommen sind. Eine weitere Herausforderung ist die Sicherheit. LLMs können zur Erstellung schädlicher Inhalte wie Hassreden oder Propaganda verwendet werden. Es ist wichtig, Sicherheitsmaßnahmen zum Schutz vor dem Missbrauch von LLMs zu entwickeln.

Insgesamt sind LLMs eine vielversprechende Technologie mit großem Potenzial, unser Leben zu verbessern. Es ist jedoch wichtig, sich der verbleibenden Herausforderungen bewusst zu sein, damit wir diese Technologie verantwortungsvoll entwickeln können.

Wir können diesen Artikel nicht beenden, ohne Yann LeCun zu erwähnen, den Chefingenieur von META, der für viele Open Source-Modelle verantwortlich ist, an denen die Gemeinschaft arbeitet und seine Modelle wie NLLB, SeamlessM4T oder LlaMa2 für den Aufbau von KI-Lösungen verwendet:

„Wir wissen, dass künftige KI-Systeme, wenn sie auf demselben Modell basieren wie die heutigen autoregressiven LLMs, zwar sehr klug werden, aber immer noch dumm sind.

Sie werden weiterhin halluzinieren, sie werden weiterhin schwer zu kontrollieren sein und sie werden weiterhin Dinge nachplappern, die ihnen antrainiert wurden.

Am wichtigsten ist, dass sie unfähig bleiben, zu denken, neue Dinge zu erfinden oder Aktionen zu planen, um Ziele zu erreichen.

Und wenn sie nicht mit Hilfe von Videos trainiert werden können, werden sie die physische Welt immer noch nicht verstehen.

Die Systeme der Zukunft werden eine andere Architektur verwenden „müssen“, die in der Lage ist, die Welt zu verstehen, zu argumentieren und zu planen, um eine Reihe von Zielen und Leitplanken zu erreichen.

Diese zielgerichteten Architekturen werden sicher sein und unter unserer Kontrolle bleiben, weil „wir“ ihre Ziele und Guardrails vorgeben und sie nicht davon abweichen können.

Sie werden uns nicht dominieren wollen, weil sie keine Ziele haben, die sie dazu antreiben, zu dominieren (im Gegensatz zu vielen lebenden Arten, insbesondere zu sozialen Arten wie dem Menschen). Tatsächlich werden sie durch Barriereziele daran gehindert, dies zu tun.

Sie werden klüger sein als wir, aber sie werden unter unserer Kontrolle bleiben.

Sie werden uns „klüger“ machen.

Die Vorstellung, dass intelligente KI-Systeme den Menschen zwangsläufig dominieren werden, ist falsch.

Anstatt die heutigen Systeme um das 100-fache zu vervielfältigen, was uns nicht weiterbringt, müssen wir dafür sorgen, dass diese zielgerichteten KI-Architekturen funktionieren.“

 - Yann LeCun VP de AI Meta

Quellen:

[1] How Does Llama-2 Compare to GPT-4/3.5 and Other AI Language Models https://www.promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/

[2] Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper

[3] The Battle for AI Brilliance! Llama 2 vs. ChatGPT | by Stephen - Medium https://weber-stephen.medium.com/unleashing-the-ultimate-ai-battle-llama-2-vs-chatgpt-gpt-3-5-a-creative-showdown-9919608200d7

[4] 6 main differences between Llama 2, GPT-3.5 & GPT-4 - Neoteric https://neoteric.eu/blog/6-main-differences-between-llama2-gpt35-and-gpt4/

[5] Fine-tune your own Llama 2 to replace GPT-3.5/4 | Hacker News https://news.ycombinator.com/item?id=37484135

[6] GPT-3.5 is still better than fine tuned Llama 2 70B (Experiment using prompttools) - Reddit https://www.reddit.com/r/OpenAI/comments/16i1lxp/gpt35_is_still_better_than_fine_tuned_llama_2_70b/