Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen TF-Wert | Extrahieren der Textbedeutung mit TF-IDF
Extrahieren der Textbedeutung mit TF-IDF
course content

Kursinhalt

Extrahieren der Textbedeutung mit TF-IDF

book
TF-Wert

Termfrequenz (TF) ist ein Maß, das die Bedeutung eines Wortes innerhalb eines bestimmten Satzes oder Dokuments quantifiziert, relativ zur Länge des Satzes oder Dokuments. Im Wesentlichen ist es eine Möglichkeit, wie häufig ein Wort erscheint hervorzuheben, angepasst an die Größe des Textes, um Fairness über Texte unterschiedlicher Längen hinweg zu gewährleisten.

TF wird mit einer logarithmischen Skala berechnet, um den Effekt sehr hoher Frequenzen abzuschwächen, was hilft, eine ausgewogene Bedeutung über alle Wörter hinweg zu bewahren. Die hier verwendete Formel ist log(1 + (frequency of the word in the sentence) / (total number of words in the sentence)). Diese Anpassung berücksichtigt die Intuition, dass die Bedeutung eines Wortes für einen Satz nicht linear mit seiner Häufigkeit zunimmt.

Für jeden Satz in unserer Liste von tokenisierten Sätzen (tokenized_sentences) berechnen wir den TF-Wert für jedes einzigartige Wort. Dies wird erreicht, indem wir durch jedes Wort in einem Satz iterieren, seine Häufigkeit relativ zur Satzlänge berechnen und die logarithmische Formel anwenden. Das Ergebnis ist ein Wörterbuch für jeden Satz, das Wörter ihren jeweiligen TF-Werten zuordnet.

Aufgabe

Swipe to start coding

Berechnen Sie die Termfrequenz (TF) jedes Wortes in jedem Satz.

Lösung

Mark tasks as Completed
Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 7
AVAILABLE TO ULTIMATE ONLY
We're sorry to hear that something went wrong. What happened?
some-alt