Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Mots Vides | Identifier les Mots les Plus Fréquents dans un Texte
Identifier les Mots les Plus Fréquents dans un Texte

book
Mots Vides

Stopwords sont des mots courants dans une langue qui n'ont pas beaucoup de signification, tels que "the", "and", et "of". Dans les tâches de traitement du langage naturel, la suppression des stopwords est une étape de prétraitement courante. En effet, éliminer ces mots peut améliorer la précision et l'efficacité de divers algorithmes et techniques appliqués aux données textuelles.

NLTK fournit un ensemble intégré de stopwords pour plusieurs langues, dont l'anglais, le français, l'allemand et l'espagnol. Ces stopwords peuvent être facilement supprimés du texte en utilisant le module stopwords de NLTK. Ce faisant, le texte résultant ne contient que les mots les plus significatifs, ce qui peut considérablement améliorer les performances des algorithmes utilisés dans des tâches telles que l'analyse de sentiment et la modélisation thématique.

Tâche

Swipe to start coding

  1. Importer le corpus 'stopwords' depuis NLTK.
  2. Créer un ensemble de stopwords anglais.
  3. Filtrer les stopwords d'un texte tokenisé et créer une liste de mots qui ne sont pas des stopwords.

Solution

# Import the 'stopwords' corpus from NLTK
from nltk.corpus import stopwords

# Download the 'stopwords' data
nltk.download("stopwords")

# Create a set of English stopwords
stop_words = set(stopwords.words("english"))

# Initialize an empty list to hold the words that are not stopwords
filtered_list = []

# Tokenize the text 'story' into words and iterate through each word
for word in word_tokenize(story):
# Convert the word to casefold for case-insensitive comparison and check if it's not a stopword
if word.casefold() not in stop_words:
# If the word is not a stopword, append it to the filtered list
filtered_list.append(word)
# Print the result
filtered_list

Mark tasks as Completed
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4
AVAILABLE TO ULTIMATE ONLY
some-alt