Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Types Clés de Modèles d'Espace Vectoriel | Modèles de Texte de Base
Introduction au NLP
course content

Contenu du cours

Introduction au NLP

Introduction au NLP

1. Fondamentaux du Prétraitement de Texte
2. Racine et Lemmatisation
3. Modèles de Texte de Base
4. Incorporations de Mots

book
Types Clés de Modèles d'Espace Vectoriel

Les modèles d'espace vectoriel peuvent être largement classés en fonction de la nature de la représentation qu'ils fournissent, chacun ayant des caractéristiques et des cas d'utilisation uniques. Discutons maintenant des concepts clés autour de ces modèles, en reportant leur mise en œuvre à des chapitres ultérieurs.

Sac de mots

Le Sac de mots (BoW) est un modèle d'espace vectoriel qui représente les documents sous forme de vecteurs où chaque dimension correspond à un mot unique. Il peut être binaire (indiquant la présence d'un mot) ou basé sur la fréquence (indiquant le nombre de mots).

Voici un exemple de BoW basé sur la fréquence :

Comme vous pouvez le voir, chaque document est représenté par un vecteur, chaque dimension correspondant à la fréquence d'un mot spécifique dans ce document. Dans le cas d'un modèle binaire de sac de mots, chaque vecteur contiendrait uniquement 0 ou 1 pour chaque mot, indiquant respectivement son absence ou présence.

TF-IDF

Le modèle TF-IDF (Term Frequency-Inverse Document Frequency) étend l'approche du sac de mots (BoW) en ajustant les fréquences des mots en fonction de leur occurrence dans tous les documents. Il met en avant les mots qui sont uniques à un document, fournissant ainsi des informations plus spécifiques sur le contenu du document.

Cela est réalisé en combinant la fréquence du terme (le nombre de fois qu'un mot apparaît dans un document) avec la fréquence inverse du document (une mesure de la fréquence ou de la rareté d'un mot dans l'ensemble du jeu de données).

Modifions notre exemple précédent avec ce modèle :

Dans l'un des prochains chapitres, nous apprendrons à calculer la valeur TF-IDF pour chaque mot. Pour l'instant, il est important de noter que les vecteurs résultants, enrichis par TF-IDF, affichent une plus grande variété, offrant des aperçus plus profonds du contenu du document.

Embeddings de Mots et Embeddings de Documents

Nous avons déjà mentionné les embeddings de mots dans le chapitre précédent. Essentiellement, ce modèle mappe les mots individuels à des vecteurs denses dans un espace continu de faible dimension, capturant des similitudes sémantiques, qui ne sont pas réellement directement interprétables.

Les embeddings de documents, en revanche, génèrent des vecteurs denses représentant des documents entiers, capturant le sens sémantique global.

Prenons un exemple avec les embeddings de mots pour les mots "cat", "kitten", "dog", et "house":

Nous avons choisi la taille des embeddings pour être 6. Bien que les valeurs numériques soient arbitraires, elles démontrent efficacement comment les embeddings reflètent avec précision les similitudes entre les mots.

Dans un scénario réel, ces embeddings seraient dérivés de l'entraînement d'un modèle sur un corpus de texte, lui permettant de 'apprendre' les relations nuancées entre les mots basées sur l'utilisation réelle de la langue. Nous accomplirons cela dans l'un des prochains chapitres, restez à l'écoute !

question-icon

Ordonnez les modèles par leur complexité, du plus simple au plus complexe.

1.
2.

3.

4.

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 2
We're sorry to hear that something went wrong. What happened?
some-alt