Kursinhalt
Extrahieren der Textbedeutung mit TF-IDF
Wortfrequenz
Das Hauptziel dieses Kapitels ist es, die Verteilung von Wörtern über Sätze in einem gegebenen Text zu quantifizieren. Indem wir bestimmen, in wie vielen Sätzen jedes einzigartige Wort vorkommt, wollen wir die Grundlage für die Berechnung des Inverse Sentence Frequency (ISF)-Teils des TF-ISF-Scores legen.
Ein Zählmechanismus einrichten
Initialisierung des Wörterbuchs: Wir beginnen mit der Erstellung eines leeren Wörterbuchs namens word_sentence_counts
. Dieses Wörterbuch ist so konzipiert, dass es jedes einzigartige Wort der Anzahl der Sätze zuordnet, in denen es vorkommt. Die Schlüssel-Wert-Paare bestehen aus dem Wort als Schlüssel und seiner Satzvorkommensanzahl als Wert.
Verarbeitung jedes Satzes
Durchlaufen der tokenisierten Sätze: Der Code durchläuft jeden Satz in der Liste tokenized_sentences
, die Sätze enthält, die bereits in einzelne Wörter (Tokens) aufgeteilt wurden.
Aktualisierung der Wortanzahlen
Überprüfung der Wortpräsenz: Für jedes einzigartige Wort in einem Satz überprüft der Code, ob dieses Wort bereits im Wörterbuch word_sentence_counts
existiert.
-
Neue Wörter: Wenn ein Wort nicht im Wörterbuch gefunden wird, bedeutet dies, dass dies der erste Satz ist, in dem das Wort aufgetreten ist. Folglich wird das Wort mit einer Anzahl von 1 zum Wörterbuch hinzugefügt;
-
Vorhandene Wörter: Wenn das Wort bereits im Wörterbuch ist, wird seine Anzahl um 1 erhöht, was sein Auftreten in einem zusätzlichen Satz widerspiegelt.
Swipe to start coding
Durchlaufen Sie jeden tokenisierten Satz, zählen Sie jedes einzigartige Wort und aktualisieren Sie die Zählungen im Wörterbuch.
Lösung
Danke für Ihr Feedback!