Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Implémentation sur un Jeu de Données Réel | K-Means
Analyse de Clusters

bookImplémentation sur un Jeu de Données Réel

Après avoir pratiqué K-means sur des données factices, il est désormais possible de l'appliquer à un jeu de données réel : le jeu de données wine. Les jeux de données réels présentent des complexités telles que des structures de clusters peu claires et des échelles de variables différentes, offrant ainsi un défi de regroupement plus concret.

La fonction datasets.load_wine() sera utilisée pour charger ce jeu de données. Le jeu de données wine comporte divers attributs de différents vins. L'objectif est de vérifier si K-means peut révéler des clusters reflétant les similarités entre vins sur la base de ces attributs.

Les données réelles nécessitent souvent une étape de prétraitement. Une mise à l'échelle des variables peut s'avérer nécessaire afin que toutes les variables contribuent de manière équitable au calcul des distances dans K-means.

Pour déterminer le nombre optimal de clusters, les méthodes suivantes seront à nouveau utilisées :

  • Méthode WSS : analyse du graphique du coude pour différentes valeurs de K. Les coudes peuvent être moins marqués avec des données réelles ;

  • Méthode du score de silhouette : examen du graphique de silhouette et des scores moyens pour identifier le meilleur K. Les scores peuvent être plus variables qu'avec des données factices.

Les visualisations sont essentielles pour interpréter les résultats :

  • Tracer 3 variables sélectionnées dans un graphique 3D du jeu de données wine permet d'inspecter visuellement la distribution des données dans un espace de variables réduit, sans utiliser de réduction de dimensionnalité ;

  • Graphique WSS pour l'identification du coude ;

  • Graphique de silhouette pour la qualité des clusters.

Les clusters K-means sont visualisés sur le graphique 3D à 3 variables du jeu de données wine, illustrant l'affectation des clusters dans cet espace de variables réduit.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 6

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.94

bookImplémentation sur un Jeu de Données Réel

Glissez pour afficher le menu

Après avoir pratiqué K-means sur des données factices, il est désormais possible de l'appliquer à un jeu de données réel : le jeu de données wine. Les jeux de données réels présentent des complexités telles que des structures de clusters peu claires et des échelles de variables différentes, offrant ainsi un défi de regroupement plus concret.

La fonction datasets.load_wine() sera utilisée pour charger ce jeu de données. Le jeu de données wine comporte divers attributs de différents vins. L'objectif est de vérifier si K-means peut révéler des clusters reflétant les similarités entre vins sur la base de ces attributs.

Les données réelles nécessitent souvent une étape de prétraitement. Une mise à l'échelle des variables peut s'avérer nécessaire afin que toutes les variables contribuent de manière équitable au calcul des distances dans K-means.

Pour déterminer le nombre optimal de clusters, les méthodes suivantes seront à nouveau utilisées :

  • Méthode WSS : analyse du graphique du coude pour différentes valeurs de K. Les coudes peuvent être moins marqués avec des données réelles ;

  • Méthode du score de silhouette : examen du graphique de silhouette et des scores moyens pour identifier le meilleur K. Les scores peuvent être plus variables qu'avec des données factices.

Les visualisations sont essentielles pour interpréter les résultats :

  • Tracer 3 variables sélectionnées dans un graphique 3D du jeu de données wine permet d'inspecter visuellement la distribution des données dans un espace de variables réduit, sans utiliser de réduction de dimensionnalité ;

  • Graphique WSS pour l'identification du coude ;

  • Graphique de silhouette pour la qualité des clusters.

Les clusters K-means sont visualisés sur le graphique 3D à 3 variables du jeu de données wine, illustrant l'affectation des clusters dans cet espace de variables réduit.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 6
some-alt