Apprendre Évaluation de la Qualité | Comment Choisir le Meilleur Modèle ?

Dans les tâches réelles avec des données réelles, il peut être difficile de comprendre quel algorithme utiliser et si les résultats sont suffisamment bons. Pour déterminer cela, plusieurs techniques sont utilisées :

Validation relative des clusters, qui évalue la structure de regroupement en variant différentes valeurs de paramètres pour le même algorithme (par exemple : variation du nombre de clusters k pour K-means, linkage pour agglomératif, eps et min_samples pour DBSCAN, etc.) ;
Validation interne et externe des clusters signifie que nous utilisons des métriques internes et externes pour estimer la qualité du regroupement ;
Règle empirique : un groupe stable doit être préservé lors du changement de méthode de regroupement. Par exemple, si les résultats obtenus en utilisant la méthode agglomérative et la méthode K-means coïncident à plus de 70 %, alors l'hypothèse de stabilité est acceptée ;
Utilisation de méthodes de rééchantillonnage pour évaluer la stabilité de la division en clusters :
- si la division est stable à travers différents sous-échantillons du jeu de données original ;
- si la division est stable après que certains échantillons ont été supprimés du jeu de données original ;
- si la division est stable après avoir changé l'ordre des éléments.
Essayez d'interpréter les résultats du regroupement en termes de domaine : est-il possible d'expliquer les résultats du regroupement et y a-t-il une logique en eux.

Remarque

Dans le contexte de l'analyse de données, le domaine fait référence au champ ou à l'industrie spécifique auquel les données appartiennent ou sont utilisées. Des exemples de domaines incluent la santé, la finance, le marketing, le transport, et bien d'autres.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Validation relative des clusters, qui évalue la structure de regroupement en variant différentes valeurs de paramètres pour le même algorithme (par exemple : variation du nombre de clusters k pour K-means, linkage pour agglomératif, eps et min_samples pour DBSCAN, etc.) ;
Validation interne et externe des clusters signifie que nous utilisons des métriques internes et externes pour estimer la qualité du regroupement ;
Règle empirique : un groupe stable doit être préservé lors du changement de méthode de regroupement. Par exemple, si les résultats obtenus en utilisant la méthode agglomérative et la méthode K-means coïncident à plus de 70 %, alors l'hypothèse de stabilité est acceptée ;
Utilisation de méthodes de rééchantillonnage pour évaluer la stabilité de la division en clusters :
- si la division est stable à travers différents sous-échantillons du jeu de données original ;
- si la division est stable après que certains échantillons ont été supprimés du jeu de données original ;
- si la division est stable après avoir changé l'ordre des éléments.
Essayez d'interpréter les résultats du regroupement en termes de domaine : est-il possible d'expliquer les résultats du regroupement et y a-t-il une logique en eux.

Remarque

Dans le contexte de l'analyse de données, le domaine fait référence au champ ou à l'industrie spécifique auquel les données appartiennent ou sont utilisées. Des exemples de domaines incluent la santé, la finance, le marketing, le transport, et bien d'autres.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 3