Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Wortfrequenz | Extrahieren der Textbedeutung mit TF-IDF
Extrahieren der Textbedeutung mit TF-IDF
course content

Kursinhalt

Extrahieren der Textbedeutung mit TF-IDF

book
Wortfrequenz

Das Hauptziel dieses Kapitels ist es, die Verteilung von Wörtern über Sätze in einem gegebenen Text zu quantifizieren. Indem wir bestimmen, in wie vielen Sätzen jedes einzigartige Wort vorkommt, wollen wir die Grundlage für die Berechnung des Inverse Sentence Frequency (ISF)-Teils des TF-ISF-Scores legen.

Ein Zählmechanismus einrichten

Initialisierung des Wörterbuchs: Wir beginnen mit der Erstellung eines leeren Wörterbuchs namens word_sentence_counts. Dieses Wörterbuch ist so konzipiert, dass es jedes einzigartige Wort der Anzahl der Sätze zuordnet, in denen es vorkommt. Die Schlüssel-Wert-Paare bestehen aus dem Wort als Schlüssel und seiner Satzvorkommensanzahl als Wert.

Verarbeitung jedes Satzes

Durchlaufen der tokenisierten Sätze: Der Code durchläuft jeden Satz in der Liste tokenized_sentences, die Sätze enthält, die bereits in einzelne Wörter (Tokens) aufgeteilt wurden.

Aktualisierung der Wortanzahlen

Überprüfung der Wortpräsenz: Für jedes einzigartige Wort in einem Satz überprüft der Code, ob dieses Wort bereits im Wörterbuch word_sentence_counts existiert.

  • Neue Wörter: Wenn ein Wort nicht im Wörterbuch gefunden wird, bedeutet dies, dass dies der erste Satz ist, in dem das Wort aufgetreten ist. Folglich wird das Wort mit einer Anzahl von 1 zum Wörterbuch hinzugefügt;

  • Vorhandene Wörter: Wenn das Wort bereits im Wörterbuch ist, wird seine Anzahl um 1 erhöht, was sein Auftreten in einem zusätzlichen Satz widerspiegelt.

Aufgabe

Swipe to start coding

Durchlaufen Sie jeden tokenisierten Satz, zählen Sie jedes einzigartige Wort und aktualisieren Sie die Zählungen im Wörterbuch.

Lösung

Mark tasks as Completed
Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 8
AVAILABLE TO ULTIMATE ONLY
We're sorry to hear that something went wrong. What happened?
some-alt