Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Grundlagen von Word Embeddings | Wort-Einbettungen
Quizzes & Challenges
Quizzes
Challenges
/
Einführung in NLP mit Python

bookGrundlagen von Word Embeddings

Verständnis von Wort-Embeddings

Traditionelle Methoden zur Textrepräsentation wie Bag-of-Words und TF-IDF weisen erhebliche Einschränkungen auf. Sie behandeln Wörter isoliert, ignorieren semantische Beziehungen und erzeugen hochdimensionale, spärliche Vektoren, die bei großen Korpora rechnerisch ineffizient werden.

Wort-Embeddings beheben diese Probleme, indem sie den Kontext berücksichtigen, in dem Wörter auftreten, und so ein differenzierteres Verständnis der Sprache ermöglichen.

Note
Definition

Wort-Embeddings sind dichte Vektorrepräsentationen von Wörtern in einem kontinuierlichen Vektorraum, in dem semantisch ähnliche Wörter auf nahe beieinanderliegende Punkte abgebildet werden.

Mehrere Modelle und Techniken wurden entwickelt, um aussagekräftige Wort-Embeddings zu erzeugen:

  • Word2Vec: Entwickelt von Google, stellt Word2Vec Wörter als dichte Vektoren dar und verwendet zwei Architekturen: Continuous Bag of Words (CBoW), das ein Wort aus seinem Kontext vorhersagt, und Skip-gram, das aus einem gegebenen Wort die umgebenden Wörter vorhersagt;

  • GloVe: Erstellt an der Stanford University, erzeugt GloVe (Global Vectors) Wort-Embeddings durch Analyse globaler Wort-Kookkurrenzstatistiken über das gesamte Korpus hinweg und erfasst semantische Beziehungen basierend auf der Häufigkeit, mit der Wortpaare gemeinsam auftreten;

  • FastText: Eingeführt von Facebook AI Research, baut FastText auf Word2Vec auf, indem es Wörter als eine Sammlung von Zeichen-n-Grammen darstellt. Dadurch kann es Subwort-Informationen modellieren und verbessert die Fähigkeit, seltene und unbekannte Wörter sowie morphologisch komplexe Sprachen zu verarbeiten.

Word2Vec und FastText sind die am häufigsten verwendeten Modelle zur Generierung von Wort-Embeddings. Da FastText jedoch lediglich eine erweiterte Version von Word2Vec ist, überspringen wir es und konzentrieren uns ausschließlich auf Word2Vec.

Wie funktioniert Word2Vec?

Word2Vec wandelt Wörter in Vektoren um, indem es mit dem One-Hot-Encoding beginnt, bei dem jedes Wort im Vokabular durch einen eindeutigen Vektor dargestellt wird, der durch eine einzelne 1 zwischen Nullen gekennzeichnet ist. Im Folgenden ein Beispiel:

Dieser Vektor dient als Eingabe für ein neuronales Netzwerk, das darauf ausgelegt ist, die Wort-Embeddings zu "erlernen". Die Architektur des Netzwerks kann einem von zwei Modellen folgen:

  • CBoW (Continuous Bag of Words): Sagt ein Zielwort auf Basis des Kontexts der umgebenden Wörter voraus;
  • Skip-gram: Sagt die umgebenden Kontextwörter auf Basis des Zielworts voraus.

In beiden Word2Vec-Architekturen erhält das Modell während jeder Trainingsiteration ein Zielwort sowie die es umgebenden Wörter als Kontext, dargestellt als One-Hot-codierte Vektoren. Der Trainingsdatensatz besteht somit effektiv aus diesen Paaren oder Gruppen, wobei jedem Zielwort seine umgebenden Kontextwörter zugeordnet sind.

Jedes Wort im Vokabular wird einmal als Zielwort verwendet, während das Modell mit einer gleitenden Kontextfenster-Technik durch den Text iteriert. Diese Technik bewegt sich systematisch über jedes Wort und stellt sicher, dass aus allen möglichen Kontexten im Korpus umfassend gelernt wird.

Note
Definition

Ein Kontextfenster ist eine feste Anzahl von Wörtern, die ein Zielwort umgeben und vom Modell zur Erlernung des Kontexts verwendet werden. Es definiert, wie viele Wörter vor und nach dem Zielwort während des Trainings berücksichtigt werden.

Betrachten wir ein Beispiel mit einer Fenstergröße von 2, um die Sache zu verdeutlichen:

Eine Kontextfenstergröße von 2 bedeutet, dass das Modell bis zu 2 Wörter sowohl links als auch rechts vom Zielwort einbezieht, sofern diese Wörter innerhalb der Textgrenzen verfügbar sind. Wie Sie sehen, wenn auf einer Seite weniger als 2 Wörter vorhanden sind, nimmt das Modell so viele Wörter wie möglich auf.

question mark

Was bedeutet ein Kontextfenster der Größe 5?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 3.45

bookGrundlagen von Word Embeddings

Swipe um das Menü anzuzeigen

Verständnis von Wort-Embeddings

Traditionelle Methoden zur Textrepräsentation wie Bag-of-Words und TF-IDF weisen erhebliche Einschränkungen auf. Sie behandeln Wörter isoliert, ignorieren semantische Beziehungen und erzeugen hochdimensionale, spärliche Vektoren, die bei großen Korpora rechnerisch ineffizient werden.

Wort-Embeddings beheben diese Probleme, indem sie den Kontext berücksichtigen, in dem Wörter auftreten, und so ein differenzierteres Verständnis der Sprache ermöglichen.

Note
Definition

Wort-Embeddings sind dichte Vektorrepräsentationen von Wörtern in einem kontinuierlichen Vektorraum, in dem semantisch ähnliche Wörter auf nahe beieinanderliegende Punkte abgebildet werden.

Mehrere Modelle und Techniken wurden entwickelt, um aussagekräftige Wort-Embeddings zu erzeugen:

  • Word2Vec: Entwickelt von Google, stellt Word2Vec Wörter als dichte Vektoren dar und verwendet zwei Architekturen: Continuous Bag of Words (CBoW), das ein Wort aus seinem Kontext vorhersagt, und Skip-gram, das aus einem gegebenen Wort die umgebenden Wörter vorhersagt;

  • GloVe: Erstellt an der Stanford University, erzeugt GloVe (Global Vectors) Wort-Embeddings durch Analyse globaler Wort-Kookkurrenzstatistiken über das gesamte Korpus hinweg und erfasst semantische Beziehungen basierend auf der Häufigkeit, mit der Wortpaare gemeinsam auftreten;

  • FastText: Eingeführt von Facebook AI Research, baut FastText auf Word2Vec auf, indem es Wörter als eine Sammlung von Zeichen-n-Grammen darstellt. Dadurch kann es Subwort-Informationen modellieren und verbessert die Fähigkeit, seltene und unbekannte Wörter sowie morphologisch komplexe Sprachen zu verarbeiten.

Word2Vec und FastText sind die am häufigsten verwendeten Modelle zur Generierung von Wort-Embeddings. Da FastText jedoch lediglich eine erweiterte Version von Word2Vec ist, überspringen wir es und konzentrieren uns ausschließlich auf Word2Vec.

Wie funktioniert Word2Vec?

Word2Vec wandelt Wörter in Vektoren um, indem es mit dem One-Hot-Encoding beginnt, bei dem jedes Wort im Vokabular durch einen eindeutigen Vektor dargestellt wird, der durch eine einzelne 1 zwischen Nullen gekennzeichnet ist. Im Folgenden ein Beispiel:

Dieser Vektor dient als Eingabe für ein neuronales Netzwerk, das darauf ausgelegt ist, die Wort-Embeddings zu "erlernen". Die Architektur des Netzwerks kann einem von zwei Modellen folgen:

  • CBoW (Continuous Bag of Words): Sagt ein Zielwort auf Basis des Kontexts der umgebenden Wörter voraus;
  • Skip-gram: Sagt die umgebenden Kontextwörter auf Basis des Zielworts voraus.

In beiden Word2Vec-Architekturen erhält das Modell während jeder Trainingsiteration ein Zielwort sowie die es umgebenden Wörter als Kontext, dargestellt als One-Hot-codierte Vektoren. Der Trainingsdatensatz besteht somit effektiv aus diesen Paaren oder Gruppen, wobei jedem Zielwort seine umgebenden Kontextwörter zugeordnet sind.

Jedes Wort im Vokabular wird einmal als Zielwort verwendet, während das Modell mit einer gleitenden Kontextfenster-Technik durch den Text iteriert. Diese Technik bewegt sich systematisch über jedes Wort und stellt sicher, dass aus allen möglichen Kontexten im Korpus umfassend gelernt wird.

Note
Definition

Ein Kontextfenster ist eine feste Anzahl von Wörtern, die ein Zielwort umgeben und vom Modell zur Erlernung des Kontexts verwendet werden. Es definiert, wie viele Wörter vor und nach dem Zielwort während des Trainings berücksichtigt werden.

Betrachten wir ein Beispiel mit einer Fenstergröße von 2, um die Sache zu verdeutlichen:

Eine Kontextfenstergröße von 2 bedeutet, dass das Modell bis zu 2 Wörter sowohl links als auch rechts vom Zielwort einbezieht, sofern diese Wörter innerhalb der Textgrenzen verfügbar sind. Wie Sie sehen, wenn auf einer Seite weniger als 2 Wörter vorhanden sind, nimmt das Modell so viele Wörter wie möglich auf.

question mark

Was bedeutet ein Kontextfenster der Größe 5?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1
some-alt