Contenu du cours
Identifier les Mots les Plus Fréquents dans un Texte
Identifier les Mots les Plus Fréquents dans un Texte
Tokeniseur Regexp
RegexpTokenizer
est une classe de NLTK conçue pour tokeniser des données textuelles en utilisant des expressions régulières. Ces expressions sont de puissants motifs capables de correspondre à des séquences spécifiques dans le texte, comme des mots ou des signes de ponctuation.
Le RegexpTokenizer
est particulièrement avantageux pour les scénarios nécessitant une tokenisation personnalisée.
Tâche
Swipe to start coding
- Importer le RegexpTokenizer pour la tokenisation basée sur un motif d'expression régulière provenant de NLTK.
- Créer un tokeniseur qui divise le texte en mots en utilisant une expression régulière spécifique.
- Tokeniser les mots lemmatisés pour créer une liste de mots.
Solution
Mark tasks as Completed
Tout était clair ?
Merci pour vos commentaires !
Section 1. Chapitre 9
AVAILABLE TO ULTIMATE ONLY