Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Implémentation sur un Jeu de Données Fictif | Regroupement Hiérarchique
Analyse de Clusters

bookImplémentation sur un Jeu de Données Fictif

Comme d'habitude, vous utiliserez les bibliothèques suivantes :

  • sklearn pour générer des données factices et implémenter le clustering hiérarchique (AgglomerativeClustering) ;

  • scipy pour générer et manipuler le dendrogramme ;

  • matplotlib pour visualiser les clusters et le dendrogramme ;

  • numpy pour les opérations numériques.

Génération de données factices

La fonction make_blobs() de scikit-learn permet de générer des ensembles de données avec différents nombres de clusters et degrés de séparation variés. Cela vous aidera à observer les performances du clustering hiérarchique dans différents scénarios.

L'algorithme général est le suivant :

  1. Instanciation de l'objet AgglomerativeClustering, en spécifiant la méthode de liaison et d'autres paramètres ;

  2. Ajustement du modèle aux données ;

  3. Extraction des étiquettes de cluster si un nombre spécifique de clusters est choisi ;

  4. Visualisation des clusters (si les données sont en 2D ou 3D) à l'aide de diagrammes de dispersion ;

  5. Utilisation de la fonction linkage de SciPy pour créer la matrice de liaison puis du dendrogramme pour visualiser le dendrogramme.

Il est également possible d'expérimenter avec différentes méthodes de liaison (par exemple, single, complete, average, Ward) et d'observer leur impact sur les résultats du clustering et la structure du dendrogramme.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 3

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.94

bookImplémentation sur un Jeu de Données Fictif

Glissez pour afficher le menu

Comme d'habitude, vous utiliserez les bibliothèques suivantes :

  • sklearn pour générer des données factices et implémenter le clustering hiérarchique (AgglomerativeClustering) ;

  • scipy pour générer et manipuler le dendrogramme ;

  • matplotlib pour visualiser les clusters et le dendrogramme ;

  • numpy pour les opérations numériques.

Génération de données factices

La fonction make_blobs() de scikit-learn permet de générer des ensembles de données avec différents nombres de clusters et degrés de séparation variés. Cela vous aidera à observer les performances du clustering hiérarchique dans différents scénarios.

L'algorithme général est le suivant :

  1. Instanciation de l'objet AgglomerativeClustering, en spécifiant la méthode de liaison et d'autres paramètres ;

  2. Ajustement du modèle aux données ;

  3. Extraction des étiquettes de cluster si un nombre spécifique de clusters est choisi ;

  4. Visualisation des clusters (si les données sont en 2D ou 3D) à l'aide de diagrammes de dispersion ;

  5. Utilisation de la fonction linkage de SciPy pour créer la matrice de liaison puis du dendrogramme pour visualiser le dendrogramme.

Il est également possible d'expérimenter avec différentes méthodes de liaison (par exemple, single, complete, average, Ward) et d'observer leur impact sur les résultats du clustering et la structure du dendrogramme.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 3
some-alt