Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Racine | Identifier les Mots les Plus Fréquents dans un Texte
Identifier les Mots les Plus Fréquents dans un Texte

book
Racine

L'algorithme de stemming Porter est une méthode très appréciée et couramment utilisée dans le traitement du langage naturel pour réaliser le stemming. Le stemming, un processus qui consiste à tronquer les mots jusqu'à leur forme racine ou de base, est obtenu en supprimant systématiquement les suffixes.

Reconnu pour son efficacité dans le traitement des textes en anglais, le Porter Stemmer utilise une série d'approches basées sur des règles pour éliminer les suffixes communs des mots. Cette capacité à réduire les mots à leur racine diminue significativement la dimensionalité des données textuelles.

Tâche

Swipe to start coding

  1. Importer la classe PorterStemmer pour effectuer le stemming depuis NLTK.
  2. Créer une instance du PorterStemmer.
  3. Appliquer le stemming à chaque mot de la liste filtrée précédemment.

Solution

# Import the PorterStemmer class from NLTK for stemming
from nltk.stem import PorterStemmer

# Create an instance of the PorterStemmer
stemmer = PorterStemmer()

# Apply stemming to each word in the filtered list
stemmed_words = [stemmer.stem(word) for word in filtered_list]

# Display the stemmed words
stemmed_words

Mark tasks as Completed
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 6
AVAILABLE TO ULTIMATE ONLY
some-alt