Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Tokeniseur Regexp | Identifier les Mots les Plus Fréquents dans un Texte
Identifier les Mots les Plus Fréquents dans un Texte
course content

Contenu du cours

Identifier les Mots les Plus Fréquents dans un Texte

book
Tokeniseur Regexp

RegexpTokenizer est une classe de NLTK conçue pour tokeniser des données textuelles en utilisant des expressions régulières. Ces expressions sont de puissants motifs capables de correspondre à des séquences spécifiques dans le texte, comme des mots ou des signes de ponctuation.

Le RegexpTokenizer est particulièrement avantageux pour les scénarios nécessitant une tokenisation personnalisée.

Tâche

Swipe to start coding

  1. Importer le RegexpTokenizer pour la tokenisation basée sur un motif d'expression régulière provenant de NLTK.
  2. Créer un tokeniseur qui divise le texte en mots en utilisant une expression régulière spécifique.
  3. Tokeniser les mots lemmatisés pour créer une liste de mots.

Solution

Mark tasks as Completed
Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 9
AVAILABLE TO ULTIMATE ONLY
We're sorry to hear that something went wrong. What happened?
some-alt