Lernen Grundlagen von Word Embeddings

Verständnis von Wort-Embeddings

Traditionelle Methoden zur Textrepräsentation wie Bag-of-Words und TF-IDF weisen erhebliche Einschränkungen auf. Sie behandeln Wörter isoliert, ignorieren semantische Beziehungen und erzeugen hochdimensionale, spärliche Vektoren, die bei großen Korpora rechnerisch ineffizient werden.

Wort-Embeddings beheben diese Probleme, indem sie den Kontext berücksichtigen, in dem Wörter auftreten, und so ein differenzierteres Verständnis der Sprache ermöglichen.

Definition

Wort-Embeddings sind dichte Vektorrepräsentationen von Wörtern in einem kontinuierlichen Vektorraum, in dem semantisch ähnliche Wörter auf nahe beieinanderliegende Punkte abgebildet werden.

Mehrere Modelle und Techniken wurden entwickelt, um aussagekräftige Wort-Embeddings zu erzeugen:

Word2Vec: Entwickelt von Google, stellt Word2Vec Wörter als dichte Vektoren dar und verwendet zwei Architekturen: Continuous Bag of Words (CBoW), das ein Wort aus seinem Kontext vorhersagt, und Skip-gram, das aus einem gegebenen Wort die umgebenden Wörter vorhersagt;
GloVe: Erstellt an der Stanford University, erzeugt GloVe (Global Vectors) Wort-Embeddings durch Analyse globaler Wort-Kookkurrenzstatistiken über das gesamte Korpus hinweg und erfasst semantische Beziehungen basierend auf der Häufigkeit, mit der Wortpaare gemeinsam auftreten;
FastText: Eingeführt von Facebook AI Research, baut FastText auf Word2Vec auf, indem es Wörter als eine Sammlung von Zeichen-n-Grammen darstellt. Dadurch kann es Subwort-Informationen modellieren und verbessert die Fähigkeit, seltene und unbekannte Wörter sowie morphologisch komplexe Sprachen zu verarbeiten.

Word2Vec und FastText sind die am häufigsten verwendeten Modelle zur Generierung von Wort-Embeddings. Da FastText jedoch lediglich eine erweiterte Version von Word2Vec ist, überspringen wir es und konzentrieren uns ausschließlich auf Word2Vec.

Wie funktioniert Word2Vec?

Word2Vec wandelt Wörter in Vektoren um, indem es mit dem One-Hot-Encoding beginnt, bei dem jedes Wort im Vokabular durch einen eindeutigen Vektor dargestellt wird, der durch eine einzelne 1 zwischen Nullen gekennzeichnet ist. Im Folgenden ein Beispiel:

Dieser Vektor dient als Eingabe für ein neuronales Netzwerk, das darauf ausgelegt ist, die Wort-Embeddings zu "erlernen". Die Architektur des Netzwerks kann einem von zwei Modellen folgen:

CBoW (Continuous Bag of Words): Sagt ein Zielwort auf Basis des Kontexts der umgebenden Wörter voraus;
Skip-gram: Sagt die umgebenden Kontextwörter auf Basis des Zielworts voraus.

In beiden Word2Vec-Architekturen erhält das Modell während jeder Trainingsiteration ein Zielwort sowie die es umgebenden Wörter als Kontext, dargestellt als One-Hot-codierte Vektoren. Der Trainingsdatensatz besteht somit effektiv aus diesen Paaren oder Gruppen, wobei jedem Zielwort seine umgebenden Kontextwörter zugeordnet sind.

Jedes Wort im Vokabular wird einmal als Zielwort verwendet, während das Modell mit einer gleitenden Kontextfenster-Technik durch den Text iteriert. Diese Technik bewegt sich systematisch über jedes Wort und stellt sicher, dass aus allen möglichen Kontexten im Korpus umfassend gelernt wird.

Definition

Ein Kontextfenster ist eine feste Anzahl von Wörtern, die ein Zielwort umgeben und vom Modell zur Erlernung des Kontexts verwendet werden. Es definiert, wie viele Wörter vor und nach dem Zielwort während des Trainings berücksichtigt werden.

Betrachten wir ein Beispiel mit einer Fenstergröße von 2, um die Sache zu verdeutlichen:

Eine Kontextfenstergröße von 2 bedeutet, dass das Modell bis zu 2 Wörter sowohl links als auch rechts vom Zielwort einbezieht, sofern diese Wörter innerhalb der Textgrenzen verfügbar sind. Wie Sie sehen, wenn auf einer Seite weniger als 2 Wörter vorhanden sind, nimmt das Modell so viele Wörter wie möglich auf.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen

Verständnis von Wort-Embeddings

Wort-Embeddings beheben diese Probleme, indem sie den Kontext berücksichtigen, in dem Wörter auftreten, und so ein differenzierteres Verständnis der Sprache ermöglichen.

Definition

Wort-Embeddings sind dichte Vektorrepräsentationen von Wörtern in einem kontinuierlichen Vektorraum, in dem semantisch ähnliche Wörter auf nahe beieinanderliegende Punkte abgebildet werden.

Mehrere Modelle und Techniken wurden entwickelt, um aussagekräftige Wort-Embeddings zu erzeugen:

Word2Vec: Entwickelt von Google, stellt Word2Vec Wörter als dichte Vektoren dar und verwendet zwei Architekturen: Continuous Bag of Words (CBoW), das ein Wort aus seinem Kontext vorhersagt, und Skip-gram, das aus einem gegebenen Wort die umgebenden Wörter vorhersagt;
GloVe: Erstellt an der Stanford University, erzeugt GloVe (Global Vectors) Wort-Embeddings durch Analyse globaler Wort-Kookkurrenzstatistiken über das gesamte Korpus hinweg und erfasst semantische Beziehungen basierend auf der Häufigkeit, mit der Wortpaare gemeinsam auftreten;
FastText: Eingeführt von Facebook AI Research, baut FastText auf Word2Vec auf, indem es Wörter als eine Sammlung von Zeichen-n-Grammen darstellt. Dadurch kann es Subwort-Informationen modellieren und verbessert die Fähigkeit, seltene und unbekannte Wörter sowie morphologisch komplexe Sprachen zu verarbeiten.

Wie funktioniert Word2Vec?

Dieser Vektor dient als Eingabe für ein neuronales Netzwerk, das darauf ausgelegt ist, die Wort-Embeddings zu "erlernen". Die Architektur des Netzwerks kann einem von zwei Modellen folgen:

CBoW (Continuous Bag of Words): Sagt ein Zielwort auf Basis des Kontexts der umgebenden Wörter voraus;
Skip-gram: Sagt die umgebenden Kontextwörter auf Basis des Zielworts voraus.

Definition

Betrachten wir ein Beispiel mit einer Fenstergröße von 2, um die Sache zu verdeutlichen:

War alles klar?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1