Résumé de la Modélisation
Vous savez désormais comment construire un modèle, utiliser des pipelines et ajuster des hyperparamètres. Vous avez également appris deux méthodes d'évaluation : la séparation train-test et la validation croisée.
L'étape suivante consiste à combiner l'évaluation et l'ajustement à l'aide de GridSearchCV ou RandomizedSearchCV.
Comme notre jeu de données est très petit, nous utiliserons le GridSearchCV, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV.
Puisque la validation croisée est plus stable qu'une simple séparation train-test, l'objectif est d'obtenir le meilleur score de validation croisée.
GridSearchCV explore les hyperparamètres et identifie ceux qui maximisent ce score. Le meilleur score est stocké dans .best_score_.
Les hyperparamètres qui fonctionnent le mieux pour un ensemble de données peuvent ne pas se généraliser lors de l'arrivée de nouvelles données.
Ainsi, .best_score_ peut être supérieur à la performance du modèle sur des données totalement inédites.
Flux de travail courant : division en ensembles d'entraînement et de test ; exécution de la validation croisée sur l'ensemble d'entraînement pour ajuster le modèle ; puis évaluation du modèle optimisé sur l'ensemble de test afin de mesurer la performance en conditions réelles.
Résumé :
- Prétraitement des données ;
- Division en ensembles d'entraînement et de test ;
- Utilisation de la validation croisée sur l'ensemble d'entraînement pour trouver la meilleure configuration ;
- Évaluation sur l'ensemble de test.
La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.
La validation croisée n’est pas toujours la meilleure option. Pour les grands ensembles de données, le calcul des scores de validation croisée devient coûteux, tandis qu’une séparation train-test devient plus stable grâce à la taille importante du jeu de test.
Les grands ensembles de données sont souvent divisés en ensembles de formation, de validation et de test. Les hyperparamètres sont choisis en fonction des performances sur l’ensemble de validation. Enfin, le modèle sélectionné est évalué sur l’ensemble de test afin de vérifier sa capacité de généralisation.
Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Résumé de la Modélisation
Glissez pour afficher le menu
Vous savez désormais comment construire un modèle, utiliser des pipelines et ajuster des hyperparamètres. Vous avez également appris deux méthodes d'évaluation : la séparation train-test et la validation croisée.
L'étape suivante consiste à combiner l'évaluation et l'ajustement à l'aide de GridSearchCV ou RandomizedSearchCV.
Comme notre jeu de données est très petit, nous utiliserons le GridSearchCV, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV.
Puisque la validation croisée est plus stable qu'une simple séparation train-test, l'objectif est d'obtenir le meilleur score de validation croisée.
GridSearchCV explore les hyperparamètres et identifie ceux qui maximisent ce score. Le meilleur score est stocké dans .best_score_.
Les hyperparamètres qui fonctionnent le mieux pour un ensemble de données peuvent ne pas se généraliser lors de l'arrivée de nouvelles données.
Ainsi, .best_score_ peut être supérieur à la performance du modèle sur des données totalement inédites.
Flux de travail courant : division en ensembles d'entraînement et de test ; exécution de la validation croisée sur l'ensemble d'entraînement pour ajuster le modèle ; puis évaluation du modèle optimisé sur l'ensemble de test afin de mesurer la performance en conditions réelles.
Résumé :
- Prétraitement des données ;
- Division en ensembles d'entraînement et de test ;
- Utilisation de la validation croisée sur l'ensemble d'entraînement pour trouver la meilleure configuration ;
- Évaluation sur l'ensemble de test.
La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.
La validation croisée n’est pas toujours la meilleure option. Pour les grands ensembles de données, le calcul des scores de validation croisée devient coûteux, tandis qu’une séparation train-test devient plus stable grâce à la taille importante du jeu de test.
Les grands ensembles de données sont souvent divisés en ensembles de formation, de validation et de test. Les hyperparamètres sont choisis en fonction des performances sur l’ensemble de validation. Enfin, le modèle sélectionné est évalué sur l’ensemble de test afin de vérifier sa capacité de généralisation.
Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.
Merci pour vos commentaires !