Apprendre Tokenisation | Fondamentaux du Prétraitement de Texte

Avant de plonger dans le processus de tokenisation, il est nécessaire de définir ce que sont les tokens.

Définition

Tokens sont des composants textuels indépendants et minimaux, possédant une syntaxe et une sémantique spécifiques.

Par conséquent, la tokenisation est le processus qui consiste à diviser le texte en tokens. Par exemple, un paragraphe, un document texte ou un corpus textuel se compose de plusieurs éléments pouvant être séparés en phrases, syntagmes et mots. En réalité, les méthodes de tokenisation les plus courantes incluent la tokenisation en phrases et en mots, utilisée pour segmenter un document texte (ou un corpus) en phrases, puis chaque phrase en mots.

Définition

Un corpus textuel (pluriel : corpus) est un ensemble volumineux et structuré de textes utilisé dans la recherche en linguistique et en linguistique computationnelle. Il s'agit essentiellement d'une collection exhaustive de documents écrits ou oraux servant d'échantillon représentatif d'une langue, d'un dialecte ou d'un domaine spécifique.

Tokenisation de phrases

Commençons par la tokenisation de phrases. Heureusement, nltk propose la fonction sent_tokenize() dans le module tokenize. L'objectif principal de cette fonction est de diviser un texte donné en une liste de phrases.

sent_tokenize() utilise un modèle pré-entraîné, généralement un modèle d'apprentissage automatique entraîné sur un large corpus de textes, pour identifier les frontières entre les phrases. Il prend en compte divers indices dans le texte, tels que les signes de ponctuation (par exemple, points, points d'exclamation, points d'interrogation), la capitalisation et d'autres motifs linguistiques qui marquent généralement la fin d'une phrase et le début d'une autre.


              123456789
            
# Importing the sent_tokenize() function
from nltk.tokenize import sent_tokenize
import nltk
# Downloading the "Punkt" tokenizer models
nltk.download('punkt_tab')
text = "Hello world. This is an example of sentence tokenization. NLTK makes it easy!"
# Sentence tokenization
sentences = sent_tokenize(text)
print(sentences)

Comme vous pouvez le constater, il n'y a rien de compliqué ici. Il suffit de passer une chaîne de caractères contenant votre texte en argument de sent_tokenize() pour obtenir une liste de phrases. Concernant nltk.download('punkt_tab'), cette commande télécharge spécifiquement les modèles de tokeniseur "Punkt". En téléchargeant les modèles de tokeniseur Punkt, vous vous assurez que NLTK dispose des données nécessaires pour effectuer une tokenisation précise des phrases et des mots.

Remarque

Les signes de ponctuation à la fin de chaque phrase sont inclus dans la phrase.

Tokenisation des mots

Dans la tokenisation des mots, plusieurs méthodes courantes existent ; cependant, seules les deux plus répandues seront abordées ici.

La méthode la plus directe et la plus simple consiste à utiliser la fonction split() de la classe string, qui utilise par défaut les symboles de saut de ligne, les espaces et les tabulations comme délimiteurs. Toutefois, il est également possible de passer une chaîne de caractères arbitraire en argument pour servir de délimiteur.


              123456
            
text = "This is an example of word tokenization."
# Convert the text to lowercase
text = text.lower()
# Word tokenization using split()
words = text.split()
print(words)

Remarque

Pour garantir que les jetons comme 'This' et 'this' soient considérés comme identiques, il est important de convertir la chaîne en minuscules avant la tokenisation.

Une approche plus flexible consiste toutefois à utiliser la fonction word_tokenize() du module tokenize de la bibliothèque nltk. Cette fonction identifie et sépare les mots en fonction des espaces et des signes de ponctuation, décomposant ainsi efficacement les phrases en leurs mots constitutifs. De manière similaire à sent_tokenize(), cette fonction nécessite une chaîne de caractères comme argument.

Comparons cette approche avec l'utilisation de la méthode split(). L'exemple ci-dessous utilise word_tokenize() :


              12345678
            
from nltk import word_tokenize
import nltk
nltk.download('punkt_tab')
text = "Good muffins cost $3.88 in New York. Please buy me two of them. Thanks"
text = text.lower()
# Word tokenization using word_tokenize()
words = word_tokenize(text)
print(words)

Voyons maintenant comment la méthode split() fonctionne avec le même texte :


              12345
            
text = "Good muffins cost $3.88 in New York. Please buy me two of them. Thanks"
text = text.lower()
# Word tokenization using split()
words = text.split()
print(words)

Dans notre exemple, word_tokenize(), contrairement à split(), identifie avec précision les ponctuations et caractères spéciaux comme des jetons distincts. Il sépare correctement le symbole dollar du chiffre et reconnaît les points comme des jetons autonomes. Cette tokenisation fine est essentielle pour de nombreuses tâches de TAL, où la délimitation précise des mots et de la ponctuation peut avoir un impact significatif sur la précision de l'analyse et les informations obtenues.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the difference between sentence and word tokenization?

Why is it important to use the Punkt tokenizer models in NLTK?

Can you give more examples of when precise tokenization is necessary?

Glissez pour afficher le menu

Avant de plonger dans le processus de tokenisation, il est nécessaire de définir ce que sont les tokens.

Définition

Tokens sont des composants textuels indépendants et minimaux, possédant une syntaxe et une sémantique spécifiques.

Définition

Tokenisation de phrases


              123456789
            
# Importing the sent_tokenize() function
from nltk.tokenize import sent_tokenize
import nltk
# Downloading the "Punkt" tokenizer models
nltk.download('punkt_tab')
text = "Hello world. This is an example of sentence tokenization. NLTK makes it easy!"
# Sentence tokenization
sentences = sent_tokenize(text)
print(sentences)

Remarque

Les signes de ponctuation à la fin de chaque phrase sont inclus dans la phrase.

Tokenisation des mots

Dans la tokenisation des mots, plusieurs méthodes courantes existent ; cependant, seules les deux plus répandues seront abordées ici.


              123456
            
text = "This is an example of word tokenization."
# Convert the text to lowercase
text = text.lower()
# Word tokenization using split()
words = text.split()
print(words)

Remarque

Pour garantir que les jetons comme 'This' et 'this' soient considérés comme identiques, il est important de convertir la chaîne en minuscules avant la tokenisation.

Comparons cette approche avec l'utilisation de la méthode split(). L'exemple ci-dessous utilise word_tokenize() :


              12345678
            
from nltk import word_tokenize
import nltk
nltk.download('punkt_tab')
text = "Good muffins cost $3.88 in New York. Please buy me two of them. Thanks"
text = text.lower()
# Word tokenization using word_tokenize()
words = word_tokenize(text)
print(words)

Voyons maintenant comment la méthode split() fonctionne avec le même texte :


              12345
            
text = "Good muffins cost $3.88 in New York. Please buy me two of them. Thanks"
text = text.lower()
# Word tokenization using split()
words = text.split()
print(words)

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3