Word embeddings : Ein leicht verständlicher Leitfaden

Geschrieben von Manuel Herranz | 09/04/24

LinkedIn, Blog-Posts und soziale Medien sind voll von Inhalten, die beschreiben, wie Word Embeddings die Grundlage für GenAI sind - der Eckpfeiler aller KI-Anwendungen. Wenn Sie mit einem Machine Learning Engineer, einem Data Scientist oder Mathematiker sprechen, werden Sie wahrscheinlich das Konzept der "Word Embeddings" hinter einem Großteil der NLP-Wissenschaft und der generativen KI finden, die seit Ende 2022 überall um uns herum ist und die Wellen des Wandels, die sie durch die Welt, wie wir sie kannten, geschickt hat.

Wenn wir 2021 vorausgesagt haben, dass "KI Text lesen wird, um Informationen für Sie zu entdecken", basierte diese Behauptung auf dem Verständnis, wie Word Embeddings funktionieren und den ersten Experimenten.

Word Embeddings sind numerische Darstellungen von Wörtern in einem hochdimensionalen Vektorraum. Sie erfassen semantische Beziehungen zwischen Wörtern basierend auf ihren Verwendungsmustern in großen Textkorpora. Aber nicht jeder hat einen technischen oder mathematischen Hintergrund, um dies zu verstehen.

Als Übersetzer verstehen Sie, dass Wörter komplexe Bedeutungen und Beziehungen haben. Word Embeddings sind eine Möglichkeit, diese Komplexität mathematisch darzustellen, was Computern hilft, Sprache ähnlicher wie Menschen zu verarbeiten und zu verstehen.

Stellen Sie sich einen riesigen, multidimensionalen Raum vor, in dem jedes Wort einer Sprache durch einen einzigartigen Punkt repräsentiert wird. Dieser Punkt wird durch eine Liste von Zahlen (einen Vektor) definiert. Wörter mit ähnlichen Bedeutungen oder Verwendungsmustern landen in diesem Raum näher beieinander.

Zum Beispiel könnten "Hund" und "Katze" in diesem Raum relativ nah beieinander sein, weil sie beide häufige Haustiere sind. "Feline" wäre sehr nah bei "Katze", während "Automobil" weit von beiden entfernt wäre.

Diese Darstellungen werden erstellt, indem riesige Textmengen (Korpora) analysiert werden, um zu sehen, wie Wörter im Kontext verwendet werden. Wenn zwei Wörter oft in ähnlichen Kontexten erscheinen, nimmt der Computer an, dass sie verwandt sind und positioniert sie näher in diesem mathematischen Raum.

Für einen Übersetzer ist dieses Konzept wertvoll, weil:

  1. Es hilft, Nuancen in der Bedeutung zu erfassen, die zwischen Sprachen bestehen könnten.
  2. Es kann Synonyme oder verwandte Wörter vorschlagen, die bei der Übersetzung nützlich sein könnten.
  3.  Es bildet die Grundlage für viele moderne maschinelle Übersetzungssysteme.

Das Verständnis von Word Embeddings kann Ihnen einen Einblick geben, wie maschinelle Übersetzungswerkzeuge funktionieren und warum sie bestimmte Entscheidungen bei Übersetzungen treffen.

Dies sind einige grundlegende Punkte für weitere Lektüre über Word Embeddings:

  1. Vektordarstellung: Jedes Wort wird als dichter Vektor reeller Zahlen dargestellt. 
  2. Semantische Ähnlichkeit: Wörter mit ähnlichen Bedeutungen werden im Vektorraum näher zusammen positioniert.
  3. Dimensionalität: Typischerweise reichen sie von 50 bis 300 Dimensionen, was eine reiche Darstellung von Wortbeziehungen ermöglicht.
  4. Anwendungen: Häufig bei Natural Language Processing-Aufgaben wie maschineller Übersetzung, Sentiment-Analyse und Textklassifizierung. 
  5. Trainingsmethoden: Können mit Techniken wie Word2Vec, GloVe oder FastText erstellt werden.
  6. Analogien: Können semantische Beziehungen erfassen, sodass Operationen wie "König - Mann + Frau = Königin" möglich sind.

Wie werden Word Embeddings trainiert?

Word Embeddings werden typischerweise auf großen Textkorpora trainiert. Das Grundprinzip ist, dass Wörter, die in ähnlichen Kontexten erscheinen, tendenziell ähnliche Bedeutungen haben.

Es gibt zwei beliebte Trainingsmethoden:

  1. Continuous Bag of Words (CBOW): Prognostiziert ein Zielwort basierend auf seinen Kontextwörtern.
  2. Skip-gram: Prognostiziert Kontextwörter bei gegebenem Zielwort.

Eigenschaften und Fähigkeiten von Word Embeddings 

  • Kompositionalität: Wortvektoren können kombiniert werden (z. B. durch Durchschnittsbildung), um Phrasen oder Sätze darzustellen. Dies ist eine großartige Funktion, um über das Wortniveau hinaus auf Satz- oder Absatzniveau zu gehen und so eine "Botschaft zu vermitteln".
  • Sprachübergreifende Embeddings: Dies ist sehr interessant für maschinelle Übersetzungen oder für die Übertragung von Wissen von einer Sprache in eine andere, da Word Embeddings Wörter aus verschiedenen Sprachen in einen gemeinsamen Vektorraum abbilden können (sagen wir das Konzept von "car" und "coche" im europäischen Spanisch oder "carro" im lateinamerikanischen Spanisch, das Konzept von "automobile" und "automóvil", "means of transport" und "medio de transporte" usw.)
  • Umgang mit Out-of-Vocabulary-Wörtern: Einige Modelle wie FastText können Embeddings für ungesehene Wörter basierend auf Subwort-Informationen generieren. Großartig, wenn Sie mit neuen Wörtern wie "Fitfluencer" konfrontiert werden.

Einschränkungen von Word Embeddings 

Polysemie: Standard-Word-Embeddings haben Schwierigkeiten mit Wörtern, die mehrere Bedeutungen haben - das Phänomen von Wörtern mit mehreren unterschiedlichen Bedeutungen.

Traditionelle Word-Embedding-Modelle wie Word2Vec oder GloVe weisen jedem Wort einen einzelnen Vektor zu, unabhängig von seinen potenziellen Mehrfachbedeutungen. Dieser Ansatz führt zu einer Bedeutungsverschmelzung, bei der der Vektor eine durchschnittliche Darstellung aller möglichen Bedeutungen des Wortes wird. Infolgedessen kann das Embedding keine einzelne Bedeutung genau darstellen und verwässert die semantische Präzision der Darstellung.

Das Problem wird durch die kontextunempfindliche Natur dieser Embeddings verschärft. In der natürlichen Sprache wird die beabsichtigte Bedeutung eines polysemen Wortes oft durch seinen umgebenden Kontext bestimmt. Standard-Word-Embeddings berücksichtigen jedoch diese kontextuellen Informationen nicht, was zu potenziellen Fehlinterpretationen in nachgelagerten Anwendungen führt.

Betrachten Sie Wörter wie "Bank", die sich auf ein Finanzinstitut oder das Ufer eines Flusses beziehen könnten, oder "Pflanze", die Vegetation oder eine Fabrik bedeuten könnte. In diesen Fällen hat das Word Embedding Schwierigkeiten, zwischen diesen verschiedenen Bedeutungen zu unterscheiden, was möglicherweise zu Fehlern bei Aufgaben wie maschineller Übersetzung, Information Retrieval oder Sentiment-Analyse führt, bei denen das Verständnis der richtigen Bedeutung eines Wortes entscheidend ist.

Diese Einschränkung kann erhebliche quantitative Auswirkungen auf die Leistung von NLP-Modellen haben. Die Forschung hat gezeigt, dass die Genauigkeit von Word-Embedding-Modellen für polyseme Wörter im Vergleich zu monosemen (einfach bedeutenden) Wörtern oft deutlich sinkt. Diese Leistungsminderung kann sich durch verschiedene NLP-Aufgaben wie maschinelle Übersetzung oder Sentiment-Analyse ziehen und die Gesamtzuverlässigkeit und Effektivität von Systemen beeinflussen, die auf diese Embeddings angewiesen sind. Diese statische Natur ist ein herausragendes Problem bei traditionellen Embeddings, weil sie jedem Wort unabhängig vom Kontext einen festen Vektor zuweisen.

Diese Einschränkung bleibt jedoch ein aktives Forschungsgebiet auf dem Feld der Natural Language Processing. Aus diesem Grund bleiben Glossare sowie Glossarfunktionen und Terminologiemanagement ein Fachgebiet der maschinellen Übersetzung für Übersetzungsunternehmen und Übersetzer.

Positionscodierungen:

Positionscodierungen werden den Token-Embeddings noch hinzugefügt, um die Reihenfolge der Token in der Sequenz zu integrieren, sodass das Modell die Struktur des Textes verstehen kann.
 

Transformer-Schichten:

Die eingebetteten Token (plus Positionscodierungen) durchlaufen mehrere Transformer-Schichten, in denen Self-Attention-Mechanismen es dem Modell ermöglichen, den gesamten Kontext einer Sequenz zu berücksichtigen, wodurch die kontextuelle Relevanz der Embeddings verbessert wird.

Fortgeschrittene Techniken zur Überwindung dieser anfänglichen Einschränkungen: Retrofitting zur Verbesserung von Word Embeddings mit externem Wissen 

Retrofitting ist eine ausgeklügelte Technik im Bereich des Natural Language Processing, die darauf abzielt, vortrainierte Word Embeddings durch Einbeziehung von Informationen aus externen Wissensquellen zu verfeinern. Diese Methode adressiert einige der inhärenten Einschränkungen von Standard-Word-Embeddings, insbesondere ihre Schwierigkeit beim Umgang mit Polysemie und den Mangel an expliziten semantischen oder relationalen Informationen.

Im Kern passt Retrofitting die Vektoren von vortrainierten Word Embeddings an, um sie besser an semantischen Beziehungen auszurichten, die in externen lexikalischen Ressourcen definiert sind. Diese Ressourcen können umfassende sprachliche Datenbanken wie WordNet oder FrameNet oder sogar domänenspezifische Ontologien umfassen. Der Prozess beginnt mit vortrainierten Word Embeddings, wie sie durch beliebte Algorithmen wie Word2Vec, GloVe oder FastText generiert werden. Diese anfänglichen Embeddings erfassen die Verteilungssemantik basierend auf Wort-Kookkurrenzen in großen Textkorpora.

Das Retrofitting-Verfahren verwendet dann ein semantisches Lexikon oder eine Wissensbasis, die Beziehungen zwischen Wörtern definiert. Diese externe Ressource bietet strukturierte Informationen über Wortbedeutungen und Verbindungen, die möglicherweise nicht vollständig durch Verteilungsmethoden allein erfasst werden können. Der Algorithmus aktualisiert die Wortvektoren iterativ und bringt semantisch verwandte Wörter im Vektorraum näher zusammen, während die Ähnlichkeit mit ihren ursprünglichen Embeddings beibehalten wird.

Mathematisch beinhaltet das Retrofitting in der Regel die Minimierung einer Kostenfunktion, die zwei primäre Ziele ausgleicht. Das erste besteht darin, die nachgerüsteten Vektoren in der Nähe ihrer ursprünglichen vortrainierten Werte zu halten und die wertvollen Verteilungsinformationen, die aus großen Textkorpora gelernt wurden, zu erhalten. Das zweite besteht darin, sicherzustellen, dass in der semantischen Ressource verbundene Wörter ähnliche Vektordarstellungen haben, wodurch das strukturierte Wissen in den Embedding-Raum integriert wird.

Dieser Ansatz bietet mehrere Vorteile gegenüber Standard-Word-Embeddings. Erstens verbessert er die semantische Genauigkeit, indem er nuancierte Wortbeziehungen erfasst, die explizit in der Wissensressource definiert sind. Dies kann zu einer besseren Leistung bei verschiedenen NLP-Aufgaben führen, insbesondere bei solchen, die ein feinkörniges semantisches Verständnis erfordern.

Zweitens erleichtert das Retrofitting die Domänenanpassung. Allgemeine Embeddings können an bestimmte Domänen angepasst werden, indem domänenspezifische Wissensressourcen verwendet werden, wodurch sie für spezialisierte Anwendungen relevanter und genauer werden. Dies ist besonders nützlich in Bereichen wie Medizin, Recht oder Finanzen, wo Terminologie und Wortgebrauch hochspezialisiert sein können.

Drittens kann das Retrofitting die Darstellungen für seltene Wörter potenziell verbessern. Diese Wörter haben oft schlechte Repräsentationen in Standard-Embeddings aufgrund begrenzter Vorkommen im Trainingskorpus. Durch die Nutzung externen Wissens kann das Retrofitting die Qualität dieser Darstellungen verbessern, was zu einem besseren Umgang mit ungewöhnlichen Begriffen führt.

Schließlich bewahrt das Retrofitting die wertvollen Verteilungsinformationen, die aus großen Textkorpora gelernt wurden, während strukturiertes Wissen hinzugefügt wird. Diese Kombination aus datengesteuerten und wissensbasierten Ansätzen führt zu Embeddings, die sowohl von statistischen Mustern in der Sprachverwendung als auch von kuratierten semantischen Informationen profitieren.

Zusammenfassend stellt Retrofitting eine leistungsstarke Technik zur Verbesserung von Word Embeddings dar, die die Lücke zwischen rein distributiven Methoden und strukturierten Wissensressourcen schließt. Da die Verarbeitung natürlicher Sprache weiter voranschreitet, spielen Techniken wie Retrofitting eine entscheidende Rolle bei der Entwicklung anspruchsvollerer und semantisch reicherer Repräsentationen der Sprache.

 

Retrofitting: Herausforderungen und zukünftige Richtungen

Das Retrofitting von Word Embeddings hat sich als eine leistungsstarke Technik zur Verbesserung des semantischen Reichtums von verteilten Wortdarstellungen herausgestellt. Wie jede fortgeschrittene Methode im Natural Language Processing bringt sie jedoch ihre eigenen Herausforderungen und Einschränkungen mit sich, die Forscher und Praktiker bewältigen müssen.

Eines der Hauptanliegen beim Retrofitting ist die Qualität der verwendeten Wissensquelle. Die Effektivität des Retrofitting-Prozesses hängt untrennbar mit der Vollständigkeit, Genauigkeit und Relevanz der eingesetzten externen Wissensbasis zusammen. Wenn die Wissensquelle unvollständig, veraltet oder fehlerhaft ist, können sich diese Mängel in die nachgerüsteten Embeddings ausbreiten. Diese Abhängigkeit unterstreicht die Bedeutung der sorgfältigen Auswahl und Überprüfung von Wissensquellen, insbesondere bei der Arbeit in spezialisierten Bereichen oder mehrsprachigen Kontexten.

Eine weitere Überlegung sind die mit dem Retrofitting verbundenen Rechenkosten. Während vortrainierte Embeddings leicht verfügbar sind und standardmäßig verwendet werden können, führt das Retrofitting einen zusätzlichen Schritt in der Embedding-Vorbereitungspipeline ein. Dieser Prozess kann rechenintensiv sein, insbesondere wenn es um große Vokabulare oder komplexe Wissensgraphen geht. Die erhöhten Rechenanforderungen können in ressourcenbeschränkten Umgebungen oder wenn eine schnelle Bereitstellung erforderlich ist, Herausforderungen darstellen.

Trotz der Verbesserungen, die das Retrofitting bietet, behalten die resultierenden Embeddings immer noch eine grundlegende Einschränkung traditioneller Word Embeddings: ihre statische Natur. Nachgerüstete Embeddings weisen, wie ihre nicht nachgerüsteten Gegenstücke, jedem Wort unabhängig vom Kontext einen festen Vektor zu. Dieser Ansatz befasst sich nicht vollständig mit der Herausforderung der Polysemie oder der kontextabhängigen Bedeutung. Wörter mit mehreren Bedeutungen oder Verwendungsmustern werden immer noch durch einen einzigen Vektor repräsentiert, der möglicherweise nicht das gesamte Spektrum ihrer semantischen Nuancen erfasst.

Dennoch haben nachgerüstete Embeddings spürbare Verbesserungen bei verschiedenen NLP-Aufgaben gezeigt. Bei semantischen Ähnlichkeitsurteilen zeigen sie oft eine bessere Korrelation mit menschlichen Bewertungen und erfassen nuancierte Beziehungen zwischen Wörtern genauer. Word-Sense-Disambiguation-Aufgaben profitieren von den zusätzlichen semantischen Informationen, die durch Retrofitting integriert werden, was eine präzisere Differenzierung zwischen mehreren Wortbedeutungen ermöglicht. Bei der Named Entity Recognition können nachgerüstete Embeddings externes Wissen nutzen, um Eigennamen und domänenspezifische Terminologie besser darzustellen. Auch Aufgaben zur Textklassifizierung zeigen Verbesserungen, insbesondere wenn sich die Klassifizierung auf feinkörnige semantische Unterscheidungen stützt.

Mit Blick auf die Zukunft entwickelt sich das Feld des Retrofitting weiter, mit mehreren vielversprechenden Forschungsrichtungen. Ein Schwerpunkt ist die effektive Kombination mehrerer Wissensquellen. Forscher untersuchen Möglichkeiten, Informationen aus verschiedenen lexikalischen Ressourcen, Ontologien und Wissensgraphen zu integrieren, um umfassendere und robustere nachgerüstete Embeddings zu schaffen. Dieser Ansatz zielt darauf ab, die Stärken verschiedener Wissensquellen zu nutzen und gleichzeitig ihre individuellen Einschränkungen zu mildern.

Ein weiterer spannender Weg ist die Entwicklung dynamischer Retrofitting-Techniken. Diese Methoden zielen darauf ab, den statischen Charakter traditioneller Embeddings anzugehen, indem der Retrofitting-Prozess an den Kontext angepasst wird. Das Ziel ist es, Embeddings zu erstellen, die Wörter flexibel darstellen können, basierend auf ihrer Verwendung in bestimmten Kontexten, und dabei möglicherweise Mehrdeutigkeiten auflösen und subtile Bedeutungsvariationen effektiver erfassen.

Darüber hinaus wird an der Integration von Retrofitting-Konzepten mit fortschrittlicheren Embedding-Modellen wie BERT oder GPT gearbeitet. Diese kontextualisierten Embedding-Modelle haben viele NLP-Aufgaben revolutioniert, und Forscher untersuchen Möglichkeiten, externes Wissen in diese Architekturen zu integrieren. Diese Integration könnte potenziell die Stärken tiefer kontextueller Repräsentationen mit den strukturierten semantischen Informationen kombinieren, die durch Retrofitting bereitgestellt werden.

Retrofitting stellt einen bedeutenden Schritt dar, um die Lücke zwischen rein distributionalen Methoden der Wortdarstellung und strukturierteren Ansätzen zur Erfassung semantischer Bedeutung in der Verarbeitung natürlicher Sprache zu schließen. Während Herausforderungen bestehen bleiben, verspricht die laufende Forschung und Entwicklung in diesem Bereich, noch leistungsfähigere und nuanciertere Wortdarstellungen zu liefern und unsere Fähigkeit, natürliche Sprache auf zunehmend anspruchsvolle Weise zu verarbeiten und zu verstehen, weiter zu verbessern.