Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Grundlagen der Wort-Einbettungen | Wort-Einbettungen
Einführung in NLP
course content

Kursinhalt

Einführung in NLP

Einführung in NLP

1. Grundlagen der Textvorverarbeitung
2. Stemming und Lemmatisierung
3. Grundlegende Textmodelle
4. Wort-Einbettungen

book
Grundlagen der Wort-Einbettungen

Verständnis von Wort-Einbettungen

Traditionelle Textrepräsentationsmodelle wie Bag of Words und TF-IDF haben die Verarbeitung natürlicher Sprache vorangebracht, weisen jedoch erhebliche Einschränkungen auf. Sie können die semantischen Beziehungen zwischen Wörtern nicht erfassen, da sie jedes Wort unabhängig von seinem Kontext behandeln und hochdimensionale, spärliche Matrizen erzeugen, die für große Textkorpora rechnerisch ineffizient sind.

Wort-Einbettungen lösen diese Probleme, indem sie den Kontext berücksichtigen, in dem Wörter erscheinen, und ein nuancierteres Verständnis der Sprache bieten.

Mehrere Modelle und Techniken wurden entwickelt, um effektive Wort-Einbettungen zu erzeugen:

  • Word2Vec: Dieses Tool, entwickelt von Google-Forschern, verwandelt Wörter in numerische Vektoren. Es verwendet zwei Methoden: Continuous Bag of Words (CBoW), das ein Wort basierend auf seinem Kontext vorhersagt, und Skip-Gram, das das Gegenteil tut, indem es den umgebenden Kontext aus einem Wort vorhersagt;

  • GloVe: Entwickelt von der Stanford University, verwandelt GloVe Wörter in Vektoren mit einem anderen Ansatz. Es analysiert, wie oft Wortpaare im gesamten Textkorpus zusammen vorkommen, um ihre Beziehungen zu lernen;

  • FastText: Erstellt von Facebook AI Research, verbessert FastText Word2Vec, indem es Wörter in kleinere Teile namens Zeichen-n-Gramme zerlegt. Dies ermöglicht es dem Modell, morphologisch reichhaltige Sprachen und während des Trainings nicht gesehene Wörter besser zu handhaben.

Tatsächlich sind Word2Vec und FastText die am häufigsten verwendeten Modelle zur Generierung von Wort-Embeddings. Da FastText im Wesentlichen eine verbesserte Version von Word2Vec ist, konzentrieren wir uns in unserem Kurs ausschließlich auf Word2Vec.

Wie funktioniert Word2Vec?

Word2Vec transformiert Wörter in Vektoren durch einen Prozess, der mit der One-Hot-Encoding beginnt, bei dem jedes Wort in einem Vokabular durch einen eindeutigen Vektor dargestellt wird, der durch eine einzelne '1' unter Nullen gekennzeichnet ist. Schauen wir uns ein Beispiel an:

Dieser Vektor dient als Eingabe für ein neuronales Netzwerk, das darauf ausgelegt ist, die 'Wort-Embeddings zu lernen'. Die Architektur des Netzwerks kann einem von zwei Modellen folgen: CBoW (Continuous Bag of Words), das ein Zielwort basierend auf dem Kontext der umgebenden Wörter vorhersagt, oder Skip-Gram, das umgekehrt die umgebenden Kontextwörter basierend auf dem Zielwort vorhersagt.

In beiden Word2Vec-Architekturen wird dem Modell während jeder Trainingsiteration ein Zielwort und die es umgebenden Wörter als Kontext in Form von One-Hot-encodierten Vektoren bereitgestellt. Der Trainingsdatensatz besteht somit effektiv aus diesen Paaren oder Gruppen, wobei jedes Zielwort mit seinen umgebenden Kontextwörtern assoziiert ist.

Jedes Wort im Vokabular wird abwechselnd zum Ziel, während das Modell den Text mit einer gleitenden Kontextfenster-Technik durchläuft. Diese Technik bewegt sich systematisch über jedes Wort, um ein umfassendes Lernen aus allen möglichen Kontexten im Korpus zu gewährleisten.

Schauen wir uns ein Beispiel mit einer Fenstergröße von 2 an, um die Dinge klar zu machen:

Eine Kontextfenstergröße von 2 bedeutet, dass das Modell bis zu 2 Wörter sowohl von links als auch von rechts des Zielwortes einbezieht, solange diese Wörter innerhalb der Satzgrenzen verfügbar sind. Wie Sie sehen können, wenn es weniger als 2 Wörter auf einer Seite gibt, wird das Modell so viele Wörter wie möglich einbeziehen.

Was bedeutet ein Kontextfenster der Größe 5?

Was bedeutet ein Kontextfenster der Größe 5?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1
We're sorry to hear that something went wrong. What happened?
some-alt