Kursinhalt
Extrahieren der Textbedeutung mit TF-IDF
TF-Wert
Termfrequenz (TF) ist ein Maß, das die Bedeutung eines Wortes innerhalb eines bestimmten Satzes oder Dokuments quantifiziert, relativ zur Länge des Satzes oder Dokuments. Im Wesentlichen ist es eine Möglichkeit, wie häufig ein Wort erscheint hervorzuheben, angepasst an die Größe des Textes, um Fairness über Texte unterschiedlicher Längen hinweg zu gewährleisten.
TF wird mit einer logarithmischen Skala berechnet, um den Effekt sehr hoher Frequenzen abzuschwächen, was hilft, eine ausgewogene Bedeutung über alle Wörter hinweg zu bewahren. Die hier verwendete Formel ist log(1 + (frequency of the word in the sentence) / (total number of words in the sentence))
. Diese Anpassung berücksichtigt die Intuition, dass die Bedeutung eines Wortes für einen Satz nicht linear mit seiner Häufigkeit zunimmt.
Für jeden Satz in unserer Liste von tokenisierten Sätzen (tokenized_sentences
) berechnen wir den TF-Wert für jedes einzigartige Wort. Dies wird erreicht, indem wir durch jedes Wort in einem Satz iterieren, seine Häufigkeit relativ zur Satzlänge berechnen und die logarithmische Formel anwenden. Das Ergebnis ist ein Wörterbuch für jeden Satz, das Wörter ihren jeweiligen TF-Werten zuordnet.
Swipe to start coding
Berechnen Sie die Termfrequenz (TF) jedes Wortes in jedem Satz.
Lösung
Danke für Ihr Feedback!