Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Schlüsseltypen von Vektorraum-Modellen | Grundlegende Textmodelle
Einführung in NLP
course content

Kursinhalt

Einführung in NLP

Einführung in NLP

1. Grundlagen der Textvorverarbeitung
2. Stemming und Lemmatisierung
3. Grundlegende Textmodelle
4. Wort-Einbettungen

book
Schlüsseltypen von Vektorraum-Modellen

Vektorraum-Modelle können grob basierend auf der Art der Darstellung klassifiziert werden, die sie bieten, wobei jedes einzigartige Eigenschaften und Anwendungsfälle hat. Lassen Sie uns nun die Schlüsselkonzepte dieser Modelle besprechen und ihre Implementierung auf spätere Kapitel verschieben.

Bag of Words

Bag of Words (BoW) ist ein Vektorraum-Modell, das Dokumente als Vektoren darstellt, wobei jede Dimension einem einzigartigen Wort entspricht. Es kann binär sein (zeigt das Vorhandensein eines Wortes an) oder frequenzbasiert (zeigt die Wortanzahl an).

Hier ist ein Beispiel für ein frequenzbasiertes BoW:

Wie Sie sehen können, wird jedes Dokument durch einen Vektor dargestellt, wobei jede Dimension der Häufigkeit eines bestimmten Wortes in diesem Dokument entspricht. Im Falle eines binären Bag-of-Words-Modells würde jeder Vektor nur 0 oder 1 für jedes Wort enthalten, was auf dessen Abwesenheit oder Vorhandensein hinweist.

TF-IDF

Das TF-IDF (Term Frequency-Inverse Document Frequency) Modell erweitert den Bag of Words (BoW) Ansatz, indem es die Worthäufigkeiten basierend auf ihrem Vorkommen in allen Dokumenten anpasst. Es betont Wörter, die für ein Dokument einzigartig sind, und bietet dadurch spezifischere Einblicke in den Inhalt des Dokuments.

Dies wird erreicht, indem die Termfrequenz (die Anzahl der Vorkommen eines Wortes in einem Dokument) mit der inversen Dokumentfrequenz (ein Maß dafür, wie häufig oder selten ein Wort im gesamten Datensatz ist) kombiniert wird.

Lassen Sie uns unser vorheriges Beispiel mit diesem Modell modifizieren:

In einem der kommenden Kapitel werden wir lernen, wie man den TF-IDF-Wert für jedes Wort berechnet. Für den Moment ist es wichtig zu beachten, dass die resultierenden Vektoren, die durch TF-IDF angereichert sind, eine größere Vielfalt aufweisen und tiefere Einblicke in den Inhalt des Dokuments bieten.

Wort-Embeddings und Dokument-Embeddings

Wir haben Wort-Embeddings bereits im vorherigen Kapitel erwähnt. Im Wesentlichen ordnet dieses Modell einzelne Wörter dichten Vektoren in einem niedrigdimensionalen, kontinuierlichen Raum zu, die semantische Ähnlichkeiten erfassen, die nicht direkt interpretierbar sind.

Dokument-Embeddings hingegen erzeugen dichte Vektoren, die ganze Dokumente repräsentieren und die gesamte semantische Bedeutung erfassen.

Schauen wir uns ein Beispiel mit den Wort-Einbettungen für die Wörter "Katze", "Kätzchen", "Hund" und "Haus" an:

Wir haben die Größe der Einbettungen auf 6 festgelegt. Obwohl die numerischen Werte willkürlich sind, demonstrieren sie effektiv, wie die Einbettungen die Ähnlichkeiten zwischen Wörtern genau widerspiegeln.

In einem realen Szenario würden diese Einbettungen aus dem Training eines Modells auf einem Textkorpus abgeleitet, wodurch es die nuancierten Beziehungen zwischen Wörtern basierend auf dem tatsächlichen Sprachgebrauch 'lernen' kann. Wir werden dies in einem der kommenden Kapitel erreichen, bleiben Sie dran!

question-icon

Ordnen Sie die Modelle nach ihrer Komplexität, vom einfachsten bis zum komplexesten.

1.
2.

3.

4.

Click or drag`n`drop items and fill in the blanks

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2
We're sorry to hear that something went wrong. What happened?
some-alt