Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Évaluation de la Qualité | Comment Choisir le Meilleur Modèle ?
Analyse de Cluster
course content

Contenu du cours

Analyse de Cluster

Analyse de Cluster

1. Qu'est-ce Que le Clustering?
2. Algorithmes de Regroupement de Base
3. Comment Choisir le Meilleur Modèle ?

book
Évaluation de la Qualité

Dans les tâches réelles avec des données réelles, il peut être difficile de comprendre quel algorithme utiliser et si les résultats sont suffisamment bons. Pour déterminer cela, plusieurs techniques sont utilisées :

  1. Validation relative des clusters, qui évalue la structure de regroupement en variant différentes valeurs de paramètres pour le même algorithme (par exemple : variation du nombre de clusters k pour K-means, linkage pour agglomératif, eps et min_samples pour DBSCAN, etc.) ;

  2. Validation interne et externe des clusters signifie que nous utilisons des métriques internes et externes pour estimer la qualité du regroupement ;

  3. Règle empirique : un groupe stable doit être préservé lors du changement de méthode de regroupement. Par exemple, si les résultats obtenus en utilisant la méthode agglomérative et la méthode K-means coïncident à plus de 70 %, alors l'hypothèse de stabilité est acceptée ;

  4. Utilisation de méthodes de rééchantillonnage pour évaluer la stabilité de la division en clusters :

    • si la division est stable à travers différents sous-échantillons du jeu de données original ;
    • si la division est stable après que certains échantillons ont été supprimés du jeu de données original ;
    • si la division est stable après avoir changé l'ordre des éléments.
  5. Essayez d'interpréter les résultats du regroupement en termes de domaine : est-il possible d'expliquer les résultats du regroupement et y a-t-il une logique en eux.

Remarque

Dans le contexte de l'analyse de données, le domaine fait référence au champ ou à l'industrie spécifique auquel les données appartiennent ou sont utilisées. Des exemples de domaines incluent la santé, la finance, le marketing, le transport, et bien d'autres.

Peut-on considérer que les résultats du regroupement sont stables si différents algorithmes produisent des clusters complètement différents ?

Peut-on considérer que les résultats du regroupement sont stables si différents algorithmes produisent des clusters complètement différents ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3
We're sorry to hear that something went wrong. What happened?
some-alt