Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Mise en Œuvre sur un Jeu de Données Réel | Section
Fondamentaux de l'apprentissage non supervisé

bookMise en Œuvre sur un Jeu de Données Réel

Après avoir pratiqué K-means sur des données factices, vous pouvez maintenant l'appliquer à un jeu de données réel : le jeu de données wine. Les jeux de données réels présentent des complexités telles que des structures de clusters peu claires et des échelles de caractéristiques variables, offrant un défi de regroupement plus pratique.

Vous utiliserez la fonction datasets.load_wine() pour charger ce jeu de données. Le jeu de données wine comporte divers attributs de différents vins. Notre objectif est de vérifier si K-means peut découvrir des clusters reflétant les similarités entre vins sur la base de ces attributs.

Les données réelles nécessitent souvent une prétraitement. Une mise à l'échelle des caractéristiques peut être nécessaire pour garantir que toutes les caractéristiques contribuent de manière égale aux calculs de distance dans K-means.

Pour trouver le nombre optimal de clusters, vous utiliserez à nouveau :

  • Méthode WSS : analysez le graphique du coude pour une plage de valeurs de K. Les coudes peuvent être moins distincts avec des données réelles ;

  • Méthode du score de silhouette : examinez le graphique de silhouette et les scores moyens pour trouver le meilleur K. Les scores peuvent être plus variables qu'avec des données factices.

Les visualisations sont essentielles pour comprendre les résultats :

  • Tracer 3 caractéristiques sélectionnées dans un graphique 3D du vin permet d'inspecter visuellement la distribution des données dans un espace de caractéristiques réduit, sans utiliser de réduction de dimensionnalité ;

  • Graphique WSS pour l'identification du coude ;

  • Graphique de silhouette pour la qualité des clusters.

Clusters K-means visualisés sur le graphique 3D à 3 caractéristiques des données wine, montrant l'affectation des clusters dans cet espace de caractéristiques réduit.

question mark

Pourquoi la mise à l'échelle des caractéristiques est-elle effectuée avant d'appliquer le clustering K-means au jeu de données wine ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 12

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

bookMise en Œuvre sur un Jeu de Données Réel

Glissez pour afficher le menu

Après avoir pratiqué K-means sur des données factices, vous pouvez maintenant l'appliquer à un jeu de données réel : le jeu de données wine. Les jeux de données réels présentent des complexités telles que des structures de clusters peu claires et des échelles de caractéristiques variables, offrant un défi de regroupement plus pratique.

Vous utiliserez la fonction datasets.load_wine() pour charger ce jeu de données. Le jeu de données wine comporte divers attributs de différents vins. Notre objectif est de vérifier si K-means peut découvrir des clusters reflétant les similarités entre vins sur la base de ces attributs.

Les données réelles nécessitent souvent une prétraitement. Une mise à l'échelle des caractéristiques peut être nécessaire pour garantir que toutes les caractéristiques contribuent de manière égale aux calculs de distance dans K-means.

Pour trouver le nombre optimal de clusters, vous utiliserez à nouveau :

  • Méthode WSS : analysez le graphique du coude pour une plage de valeurs de K. Les coudes peuvent être moins distincts avec des données réelles ;

  • Méthode du score de silhouette : examinez le graphique de silhouette et les scores moyens pour trouver le meilleur K. Les scores peuvent être plus variables qu'avec des données factices.

Les visualisations sont essentielles pour comprendre les résultats :

  • Tracer 3 caractéristiques sélectionnées dans un graphique 3D du vin permet d'inspecter visuellement la distribution des données dans un espace de caractéristiques réduit, sans utiliser de réduction de dimensionnalité ;

  • Graphique WSS pour l'identification du coude ;

  • Graphique de silhouette pour la qualité des clusters.

Clusters K-means visualisés sur le graphique 3D à 3 caractéristiques des données wine, montrant l'affectation des clusters dans cet espace de caractéristiques réduit.

question mark

Pourquoi la mise à l'échelle des caractéristiques est-elle effectuée avant d'appliquer le clustering K-means au jeu de données wine ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 12
some-alt