Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Aperçu des Modèles d'Espace Vectoriel | Modèles de Texte de Base
Introduction au NLP
course content

Contenu du cours

Introduction au NLP

Introduction au NLP

1. Fondamentaux du Prétraitement de Texte
2. Racine et Lemmatisation
3. Modèles de Texte de Base
4. Incorporations de Mots

book
Aperçu des Modèles d'Espace Vectoriel

Le besoin de représentation numérique

Contrairement aux humains, les ordinateurs, par nature, ne comprennent pas le texte. Alors que pour nous, les données textuelles sont riches, complexes et très nuancées, véhiculant des significations interprétées en fonction de la langue, du contexte et des connaissances culturelles, pour un ordinateur, le texte est initialement juste une séquence de caractères sans signification inhérente.

Pour surmonter ces défis, nous nous tournons vers des modèles mathématiques et statistiques capables de traiter et d'analyser les motifs au sein des données. Cependant, ces modèles nécessitent une entrée numérique—ils fonctionnent sur des vecteurs, des matrices et d'autres structures mathématiques, et non sur du texte brut.

Comprendre les modèles d'espace vectoriel

Heureusement, les modèles de représentation textuelle offrent une solution à ce problème, à savoir les modèles d'espace vectoriel, que nous aborderons dans ce cours.

Le concept mathématique peut être défini comme suit. Supposons que nous ayons un document D dans l'espace vectoriel des documents V.

Le nombre de dimensions ou de colonnes pour chaque document sera le nombre total de termes ou de mots uniques dans tous les documents de l'espace vectoriel. Par conséquent, l'espace vectoriel peut être noté comme suit :

où chaque document contient des mots différents. Essentiellement, cet espace vectoriel représente le vocabulaire.

Maintenant, nous pouvons représenter un document dans l'espace vectoriel comme suit :

où WDn désigne le poids du mot n dans le document D. Jetons un coup d'œil à un exemple avec 2 documents et des termes uniques (mots) :

En utilisant ces représentations vectorielles, nous pourrions, par exemple, calculer le score de similarité de ces documents en calculant l'angle entre eux (cosinus de l'angle pour être plus précis) afin de déterminer à quel point ils sont sémantiquement similaires.

Mots en tant que Vecteurs

Ce concept peut cependant être étendu aux représentations individuelles des mots grâce à la technique connue sous le nom d'embeddings de mots. Les embeddings de mots fonctionnent selon un principe mathématique similaire mais se concentrent sur la représentation des mots individuels en tant que vecteurs plutôt que des documents entiers. Les dimensions de ces vecteurs capturent des caractéristiques sémantiques latentes qui ne sont pas directement interprétables.

Voici un exemple avec des embeddings en 2 dimensions pour trois mots :

Comme vous pouvez le voir, les mots "femme" et "reine" ainsi que "reine" et "roi" sont assez similaires et proches les uns des autres, tandis que "femme" et "roi" sont plutôt éloignés les uns des autres, représentant leur différence sémantique

Applications des Modèles d'Espace Vectoriel

Les modèles d'espace vectoriel sous-tendent une variété de tâches NLP, permettant :

  • Similarité Sémantique : Calculer la similarité entre des documents textuels ou des mots basés sur leurs représentations vectorielles ;

  • Recherche d'Information : Améliorer les moteurs de recherche et les systèmes de recommandation pour trouver du contenu pertinent à la requête d'un utilisateur ;

  • Classification et Regroupement de Textes : Catégoriser automatiquement les documents en classes prédéfinies ou regrouper des documents similaires ensemble ;

  • Compréhension du Langage Naturel : Faciliter des analyses linguistiques plus approfondies qui ouvrent la voie à des applications comme l'analyse de sentiment, la modélisation de sujets, et plus encore.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1
We're sorry to hear that something went wrong. What happened?
some-alt