Contenu du cours
Extraire le Sens du Texte en Utilisant TF-IDF
Fréquence des Mots
L'objectif principal de ce chapitre est de quantifier la distribution des mots à travers les phrases d'un texte donné. En déterminant dans combien de phrases chaque mot unique apparaît, nous visons à poser les bases pour calculer la partie Fréquence Inverse de Phrase (ISF) du score TF-ISF.
Mise en Place d'un Mécanisme de Comptage
Initialisation du Dictionnaire : Nous commençons par créer un dictionnaire vide nommé word_sentence_counts
. Ce dictionnaire est conçu pour associer chaque mot unique au nombre de phrases dans lesquelles il apparaît. Les paires clé-valeur consistent en le mot comme clé et le nombre d'occurrences de la phrase comme valeur.
Traitement de Chaque Phrase
Itération à Travers les Phrases Tokenisées : Le code parcourt chaque phrase dans la liste tokenized_sentences
, qui contient des phrases déjà divisées en mots individuels (tokens).
Mise à Jour des Comptes de Mots
Vérification de la Présence des Mots : Pour chaque mot unique dans une phrase, le code vérifie si ce mot existe déjà dans le dictionnaire word_sentence_counts
.
-
Nouveaux Mots : Si un mot n'est pas trouvé dans le dictionnaire, cela implique que c'est la première phrase dans laquelle le mot a été rencontré. Par conséquent, le mot est ajouté au dictionnaire avec un compte de 1;
-
Mots Existants : Si le mot est déjà dans le dictionnaire, son compte est incrémenté de 1, reflétant son apparition dans une phrase supplémentaire.
Swipe to start coding
Itérer à travers chaque phrase tokenisée, compter chaque mot unique, et mettre à jour les comptes dans le dictionnaire.
Solution
Merci pour vos commentaires !