Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Tokenisation avec Regex | Fondamentaux du Prétraitement de Texte
Introduction au TALN avec Python

bookDéfi : Tokenisation avec Regex

Tâche

Swipe to start coding

Un message vous est donné dans la variable message. Vous devez le découper en mots à l'aide des expressions régulières. Pour cela :

  1. Importez la classe nécessaire.
  2. Convertissez message en minuscules et enregistrez-le dans message_lower.
  3. Créez un Regexp Tokenizer avec le bon motif et enregistrez-le dans word_tokenizer.
  4. Découpez message_lower en mots à l'aide de word_tokenizer.

Un mot est une suite de caractères alphanumériques et de soulignements. Par exemple, '#NLPConference_20!' contient un seul mot : NLPConference_20.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 6
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

close

bookDéfi : Tokenisation avec Regex

Glissez pour afficher le menu

Tâche

Swipe to start coding

Un message vous est donné dans la variable message. Vous devez le découper en mots à l'aide des expressions régulières. Pour cela :

  1. Importez la classe nécessaire.
  2. Convertissez message en minuscules et enregistrez-le dans message_lower.
  3. Créez un Regexp Tokenizer avec le bon motif et enregistrez-le dans word_tokenizer.
  4. Découpez message_lower en mots à l'aide de word_tokenizer.

Un mot est une suite de caractères alphanumériques et de soulignements. Par exemple, '#NLPConference_20!' contient un seul mot : NLPConference_20.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 6
single

single

some-alt