Lernen Arten von Vektorraum-Modellen | Grundlegende Textmodelle

Vektorraum-Modelle lassen sich nach der Art ihrer Textrepräsentation kategorisieren, von einfachen, frequenzbasierten Methoden bis hin zu fortgeschrittenen, kontextsensitiven Einbettungen. Jeder Ansatz bietet spezifische Vorteile und eignet sich für unterschiedliche Arten von NLP-Aufgaben.

Bag of Words

Bag of Words (BoW) ist ein Vektorraum-Modell, das Dokumente als Vektoren darstellt, wobei jede Dimension einem einzigartigen Wort entspricht. Es kann binär sein (zeigt das Vorkommen eines Wortes an) oder frequenzbasiert (zeigt die Häufigkeit eines Wortes an).

Hier ist ein Beispiel für ein frequenzbasiertes BoW:

Wie zu sehen ist, wird jedes Dokument durch einen Vektor dargestellt, wobei jede Dimension der Häufigkeit eines bestimmten Wortes in diesem Dokument entspricht. Im Fall eines binären Bag-of-Words-Modells enthält jeder Vektor nur 0 oder 1 für jedes Wort, was dessen Abwesenheit bzw. Vorhandensein anzeigt.

Hinweis

Textvorverarbeitung ist ein notwendiger Schritt, bevor BoW oder ähnliche Modelle angewendet werden.

TF-IDF

Das TF-IDF (Termfrequenz–inverse Dokumentfrequenz)-Modell erweitert den Bag-of-Words (BoW)-Ansatz, indem es die Worthäufigkeiten basierend auf ihrem Vorkommen in allen Dokumenten anpasst. Es hebt Wörter hervor, die für ein Dokument einzigartig sind, und liefert dadurch spezifischere Einblicke in den Dokumenteninhalt.

Dies wird erreicht, indem die Termfrequenz (die Anzahl, wie oft ein Wort in einem Dokument erscheint) mit der inversen Dokumentfrequenz (ein Maß dafür, wie häufig oder selten ein Wort im gesamten Datensatz vorkommt) kombiniert wird.

Hier ist das Ergebnis der Anwendung von TF-IDF auf die Dokumente aus dem vorherigen Beispiel:

Die durch TF-IDF angereicherten Vektoren zeigen eine größere Vielfalt und bieten tiefere Einblicke in den Inhalt des Dokuments.

Wort-Embeddings und Dokument-Embeddings

Wort-Embeddings ordnen einzelne Wörter dichten Vektoren in einem niedrigdimensionalen, kontinuierlichen Raum zu und erfassen semantische Ähnlichkeiten, die nicht direkt interpretierbar sind.

Dokument-Embeddings hingegen erzeugen dichte Vektoren, die ganze Dokumente repräsentieren und deren gesamthafte semantische Bedeutung erfassen.

Hinweis

Die Dimensionalität (Größe) von Embeddings wird typischerweise basierend auf den Projektanforderungen und den verfügbaren Rechenressourcen gewählt. Die Auswahl der richtigen Größe ist entscheidend, um ein Gleichgewicht zwischen der Erfassung reichhaltiger semantischer Informationen und der Modelleffizienz zu erreichen.

Hier ist ein Beispiel dafür, wie Wort-Embeddings für die Wörter "cat", "kitten", "dog" und "house" aussehen könnten:

Obwohl die numerischen Werte in dieser Tabelle willkürlich sind, veranschaulichen sie, wie Einbettungen sinnvolle Beziehungen zwischen Wörtern darstellen können.

In realen Anwendungen werden solche Einbettungen durch das Trainieren eines Modells auf einem großen Textkorpus erlernt, wodurch das Modell in der Lage ist, subtile Muster und semantische Beziehungen innerhalb der natürlichen Sprache zu erkennen.

Mehr erfahren

Eine weitere Entwicklung bei dichten Repräsentationen sind kontextuelle Einbettungen (generiert von Modellen wie BERT und GPT), die den Kontext berücksichtigen, in dem ein Wort erscheint, um dessen Vektor zu erzeugen. Das bedeutet, dass dasselbe Wort unterschiedliche Einbettungen haben kann, je nach Verwendung in verschiedenen Sätzen, was ein nuanciertes Sprachverständnis ermöglicht.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen

Bag of Words

Hier ist ein Beispiel für ein frequenzbasiertes BoW:

Hinweis

Textvorverarbeitung ist ein notwendiger Schritt, bevor BoW oder ähnliche Modelle angewendet werden.

TF-IDF

Hier ist das Ergebnis der Anwendung von TF-IDF auf die Dokumente aus dem vorherigen Beispiel:

Die durch TF-IDF angereicherten Vektoren zeigen eine größere Vielfalt und bieten tiefere Einblicke in den Inhalt des Dokuments.

Wort-Embeddings und Dokument-Embeddings

Dokument-Embeddings hingegen erzeugen dichte Vektoren, die ganze Dokumente repräsentieren und deren gesamthafte semantische Bedeutung erfassen.

Hinweis

Hier ist ein Beispiel dafür, wie Wort-Embeddings für die Wörter "cat", "kitten", "dog" und "house" aussehen könnten:

Obwohl die numerischen Werte in dieser Tabelle willkürlich sind, veranschaulichen sie, wie Einbettungen sinnvolle Beziehungen zwischen Wörtern darstellen können.

Mehr erfahren

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2