Apprendre Types de Modèles d'Espace Vectoriel

Les modèles d’espace vectoriel peuvent être classés selon la manière dont ils représentent le texte, allant de méthodes simples basées sur la fréquence à des embeddings avancés sensibles au contexte. Chaque approche présente des avantages distincts et convient à différents types de tâches en TAL.

Sac de mots

Le sac de mots (BoW) est un modèle d’espace vectoriel qui représente les documents sous forme de vecteurs, chaque dimension correspondant à un mot unique. Il peut être binaire (indiquant la présence du mot) ou basé sur la fréquence (indiquant le nombre d’occurrences du mot).

Voici un exemple de sac de mots basé sur la fréquence :

Comme vous pouvez le constater, chaque document est représenté par un vecteur, chaque dimension correspondant à la fréquence d’un mot spécifique dans ce document. Dans le cas d’un modèle binaire de sac de mots, chaque vecteur ne contiendrait que 0 ou 1 pour chaque mot, indiquant respectivement son absence ou sa présence.

Note

Le prétraitement du texte constitue une étape nécessaire avant d'appliquer des modèles tels que BoW ou similaires.

TF-IDF

Le modèle TF-IDF (term frequency-inverse document frequency) étend l'approche sac de mots (BoW) en ajustant les fréquences des mots selon leur occurrence dans l'ensemble des documents. Il met en avant les mots uniques à un document, fournissant ainsi des indications plus spécifiques sur le contenu du document.

Cela est réalisé en combinant la fréquence du terme (le nombre de fois qu'un mot apparaît dans un document) avec la fréquence inverse du document (une mesure de la rareté ou de la fréquence d'un mot dans l'ensemble du corpus).

Voici le résultat de l'application du TF-IDF aux documents de l'exemple précédent :

Les vecteurs obtenus, enrichis par le TF-IDF, présentent une plus grande diversité, offrant une compréhension plus approfondie du contenu du document.

Représentations vectorielles de mots et de documents

Les représentations vectorielles de mots (word embeddings) associent des mots individuels à des vecteurs denses dans un espace continu de faible dimension, capturant des similarités sémantiques qui ne sont pas directement interprétables.

Les représentations vectorielles de documents (document embeddings), quant à elles, produisent des vecteurs denses représentant des documents entiers, reflétant leur signification sémantique globale.

Remarque

La dimensionnalité (taille) des représentations vectorielles est généralement choisie en fonction des besoins du projet et des ressources informatiques disponibles. Le choix de la taille appropriée est essentiel pour trouver un équilibre entre la richesse de l’information sémantique capturée et l’efficacité du modèle.

Voici un exemple de ce à quoi pourraient ressembler les représentations vectorielles pour les mots "cat", "kitten", "dog" et "house" :

Bien que les valeurs numériques dans ce tableau soient arbitraires, elles illustrent comment les embeddings peuvent représenter des relations significatives entre les mots.

Dans les applications réelles, de tels embeddings sont appris en entraînant un modèle sur un large corpus de textes, ce qui lui permet de découvrir des motifs subtils et des relations sémantiques au sein du langage naturel.

Approfondir

Une avancée supplémentaire dans les représentations denses, les embeddings contextuels (générés par des modèles comme BERT et GPT), prend en compte le contexte dans lequel un mot apparaît pour générer son vecteur. Cela signifie qu’un même mot peut avoir des embeddings différents selon son utilisation dans différentes phrases, offrant ainsi une compréhension nuancée du langage.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the main differences between BoW, TF-IDF, and embeddings?

What are some practical applications for each of these vector space models?

How do I choose which vector space model to use for my NLP task?

Glissez pour afficher le menu