Lernen Arten von Vektorraum-Modellen

Swipe um das Menü anzuzeigen

Vektorraum-Modelle können nach der Art ihrer Textrepräsentation kategorisiert werden, von einfachen, frequenzbasierten Methoden bis hin zu fortgeschrittenen, kontextsensitiven Einbettungen. Jeder Ansatz bietet spezifische Vorteile und eignet sich für unterschiedliche Arten von NLP-Aufgaben.

Bag of Words

Bag of Words (BoW) ist ein Vektorraum-Modell, das Dokumente als Vektoren darstellt, wobei jede Dimension einem einzigartigen Wort entspricht. Es kann binär sein (zeigt das Vorkommen eines Wortes an) oder frequenzbasiert (zeigt die Anzahl der Vorkommen eines Wortes an).

Hier ein Beispiel für ein frequenzbasiertes BoW:

Wie ersichtlich, wird jedes Dokument durch einen Vektor dargestellt, wobei jede Dimension der Häufigkeit eines bestimmten Wortes in diesem Dokument entspricht. Im Fall eines binären Bag-of-Words-Modells enthält jeder Vektor nur 0 oder 1 für jedes Wort, was dessen Abwesenheit bzw. Vorhandensein anzeigt.

Hinweis

Die Textvorverarbeitung ist ein notwendiger Schritt, bevor BoW oder ähnliche Modelle angewendet werden.

TF-IDF

Das TF-IDF (Termfrequenz-inverse Dokumentfrequenz)-Modell erweitert den Bag-of-Words (BoW)-Ansatz, indem es die Worthäufigkeiten basierend auf ihrem Vorkommen in allen Dokumenten anpasst. Es hebt Wörter hervor, die für ein Dokument einzigartig sind, und liefert dadurch spezifischere Einblicke in den Dokumenteninhalt.

Dies wird erreicht, indem die Termfrequenz (die Anzahl, wie oft ein Wort in einem Dokument erscheint) mit der inversen Dokumentfrequenz (ein Maß dafür, wie häufig oder selten ein Wort im gesamten Datensatz vorkommt) kombiniert wird.

Hier ist das Ergebnis der Anwendung von TF-IDF auf die Dokumente aus dem vorherigen Beispiel:

Die durch TF-IDF angereicherten Vektoren zeigen eine größere Vielfalt und bieten tiefere Einblicke in den Inhalt des Dokuments.

Wort-Embeddings und Dokument-Embeddings

Wort-Embeddings ordnen einzelne Wörter dichten Vektoren in einem niedrigdimensionalen, kontinuierlichen Raum zu und erfassen semantische Ähnlichkeiten, die nicht direkt interpretierbar sind.

Dokument-Embeddings hingegen erzeugen dichte Vektoren, die ganze Dokumente repräsentieren und deren gesamthafte semantische Bedeutung erfassen.

Hinweis

Die Dimensionalität (Größe) von Embeddings wird typischerweise basierend auf den Projektanforderungen und den verfügbaren Rechenressourcen gewählt. Die Auswahl der richtigen Größe ist entscheidend, um ein Gleichgewicht zwischen der Erfassung reichhaltiger semantischer Informationen und der Aufrechterhaltung der Modelleffizienz zu erreichen.

Hier ist ein Beispiel, wie Wort-Embeddings für die Wörter "cat", "kitten", "dog" und "house" aussehen könnten:

Obwohl die numerischen Werte in dieser Tabelle willkürlich sind, veranschaulichen sie, wie Einbettungen sinnvolle Beziehungen zwischen Wörtern darstellen können.

In realen Anwendungen werden solche Einbettungen durch das Trainieren eines Modells auf einem großen Textkorpus erlernt, wodurch das Modell in der Lage ist, feine Muster und semantische Beziehungen innerhalb der natürlichen Sprache zu erkennen.

Mehr erfahren

Eine weitere Entwicklung bei dichten Repräsentationen, kontextuelle Einbettungen (generiert von Modellen wie BERT und GPT), berücksichtigt den Kontext, in dem ein Wort erscheint, um dessen Vektor zu erzeugen. Das bedeutet, dass dasselbe Wort unterschiedliche Einbettungen haben kann, abhängig von seiner Verwendung in verschiedenen Sätzen, was ein nuanciertes Verständnis der Sprache ermöglicht.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 19

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 19