Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Fréquence des Mots | Extraire le Sens du Texte en Utilisant TF-IDF
Extraire le Sens du Texte en Utilisant TF-IDF
course content

Contenu du cours

Extraire le Sens du Texte en Utilisant TF-IDF

book
Fréquence des Mots

L'objectif principal de ce chapitre est de quantifier la distribution des mots à travers les phrases d'un texte donné. En déterminant dans combien de phrases chaque mot unique apparaît, nous visons à poser les bases pour calculer la partie Fréquence Inverse de Phrase (ISF) du score TF-ISF.

Mise en Place d'un Mécanisme de Comptage

Initialisation du Dictionnaire : Nous commençons par créer un dictionnaire vide nommé word_sentence_counts. Ce dictionnaire est conçu pour associer chaque mot unique au nombre de phrases dans lesquelles il apparaît. Les paires clé-valeur consistent en le mot comme clé et le nombre d'occurrences de la phrase comme valeur.

Traitement de Chaque Phrase

Itération à Travers les Phrases Tokenisées : Le code parcourt chaque phrase dans la liste tokenized_sentences, qui contient des phrases déjà divisées en mots individuels (tokens).

Mise à Jour des Comptes de Mots

Vérification de la Présence des Mots : Pour chaque mot unique dans une phrase, le code vérifie si ce mot existe déjà dans le dictionnaire word_sentence_counts.

  • Nouveaux Mots : Si un mot n'est pas trouvé dans le dictionnaire, cela implique que c'est la première phrase dans laquelle le mot a été rencontré. Par conséquent, le mot est ajouté au dictionnaire avec un compte de 1;

  • Mots Existants : Si le mot est déjà dans le dictionnaire, son compte est incrémenté de 1, reflétant son apparition dans une phrase supplémentaire.

Tâche

Swipe to start coding

Itérer à travers chaque phrase tokenisée, compter chaque mot unique, et mettre à jour les comptes dans le dictionnaire.

Solution

Mark tasks as Completed
Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 8
AVAILABLE TO ULTIMATE ONLY
We're sorry to hear that something went wrong. What happened?
some-alt