Fréquence des Mots
L'objectif principal de ce chapitre est de quantifier la distribution des mots à travers les phrases d'un texte donné. En déterminant dans combien de phrases chaque mot unique apparaît, nous visons à poser les bases pour calculer la partie Fréquence Inverse de Phrase (ISF) du score TF-ISF.
Mise en Place d'un Mécanisme de Comptage
Initialisation du Dictionnaire : Nous commençons par créer un dictionnaire vide nommé word_sentence_counts
. Ce dictionnaire est conçu pour associer chaque mot unique au nombre de phrases dans lesquelles il apparaît. Les paires clé-valeur consistent en le mot comme clé et le nombre d'occurrences de la phrase comme valeur.
Traitement de Chaque Phrase
Itération à Travers les Phrases Tokenisées : Le code parcourt chaque phrase dans la liste tokenized_sentences
, qui contient des phrases déjà divisées en mots individuels (tokens).
Mise à Jour des Comptes de Mots
Vérification de la Présence des Mots : Pour chaque mot unique dans une phrase, le code vérifie si ce mot existe déjà dans le dictionnaire word_sentence_counts
.
-
Nouveaux Mots : Si un mot n'est pas trouvé dans le dictionnaire, cela implique que c'est la première phrase dans laquelle le mot a été rencontré. Par conséquent, le mot est ajouté au dictionnaire avec un compte de 1;
-
Mots Existants : Si le mot est déjà dans le dictionnaire, son compte est incrémenté de 1, reflétant son apparition dans une phrase supplémentaire.
Swipe to start coding
Itérer à travers chaque phrase tokenisée, compter chaque mot unique, et mettre à jour les comptes dans le dictionnaire.
Solution
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain what Inverse Sentence Frequency (ISF) is and how it's used?
Can you provide an example of how the word_sentence_counts dictionary would look after processing some sentences?
How do I tokenize my text into sentences and words to use with this method?
Awesome!
Completion rate improved to 8.33
Fréquence des Mots
L'objectif principal de ce chapitre est de quantifier la distribution des mots à travers les phrases d'un texte donné. En déterminant dans combien de phrases chaque mot unique apparaît, nous visons à poser les bases pour calculer la partie Fréquence Inverse de Phrase (ISF) du score TF-ISF.
Mise en Place d'un Mécanisme de Comptage
Initialisation du Dictionnaire : Nous commençons par créer un dictionnaire vide nommé word_sentence_counts
. Ce dictionnaire est conçu pour associer chaque mot unique au nombre de phrases dans lesquelles il apparaît. Les paires clé-valeur consistent en le mot comme clé et le nombre d'occurrences de la phrase comme valeur.
Traitement de Chaque Phrase
Itération à Travers les Phrases Tokenisées : Le code parcourt chaque phrase dans la liste tokenized_sentences
, qui contient des phrases déjà divisées en mots individuels (tokens).
Mise à Jour des Comptes de Mots
Vérification de la Présence des Mots : Pour chaque mot unique dans une phrase, le code vérifie si ce mot existe déjà dans le dictionnaire word_sentence_counts
.
-
Nouveaux Mots : Si un mot n'est pas trouvé dans le dictionnaire, cela implique que c'est la première phrase dans laquelle le mot a été rencontré. Par conséquent, le mot est ajouté au dictionnaire avec un compte de 1;
-
Mots Existants : Si le mot est déjà dans le dictionnaire, son compte est incrémenté de 1, reflétant son apparition dans une phrase supplémentaire.
Swipe to start coding
Itérer à travers chaque phrase tokenisée, compter chaque mot unique, et mettre à jour les comptes dans le dictionnaire.
Solution
Merci pour vos commentaires !