Contenu du cours
Extraire le Sens du Texte en Utilisant TF-IDF
Score ISF
Fréquence Inverse de Phrase (ISF) est une mesure conçue pour évaluer l'importance d'un mot en fonction de sa fréquence d'apparition dans les phrases. Le principe sous-jacent est que les mots apparaissant dans de nombreuses phrases sont généralement moins informatifs concernant le contenu ou les thèmes spécifiques du texte. À l'inverse, les mots présents dans moins de phrases sont considérés comme plus significatifs car ils se rapportent probablement à des aspects plus spécifiques ou uniques du texte.
L'ISF quantifie ce concept en attribuant des scores plus élevés aux mots avec une distribution de phrases plus faible, mettant ainsi en évidence leur valeur potentielle pour caractériser le texte.
Mise en œuvre du calcul de l'ISF
Le processus de calcul des scores ISF implique les étapes suivantes :
-
Utilisation des Comptes de Distribution des Mots : Le dictionnaire
word_sentence_counts
, préparé précédemment, associe chaque mot au nombre de phrases dans lesquelles il apparaît. Ces données sont essentielles pour calculer les scores ISF car elles reflètent la distribution des mots au niveau des phrases ; -
Application de la Formule ISF : Pour chaque mot, le score ISF est calculé en utilisant une échelle logarithmique. La formule
log(len(sentences) / word_sentence_counts[word])
prend le nombre total de phrases dans le texte et le divise par le nombre de phrases contenant le mot.
Swipe to start coding
Calculez la Fréquence Inverse de Phrase (ISF) pour chaque mot unique dans vos phrases tokenisées.
Solution
Merci pour vos commentaires !