Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Résumé de la Modélisation | Modélisation
Introduction à l'Apprentissage Automatique avec Python

Résumé de la Modélisation

Glissez pour afficher le menu

Vous savez maintenant comment construire un modèle, utiliser des pipelines et ajuster les hyperparamètres. Vous avez également appris deux méthodes d'évaluation : la séparation train-test et la validation croisée. L'étape suivante consiste à combiner l'évaluation et l'ajustement à l'aide de GridSearchCV ou RandomizedSearchCV.

Note
Remarque

Comme notre jeu de données est très petit, nous utiliserons le GridSearchCV, mais tout ce qui est dit ci-dessous s'applique également à un RandomizedSearchCV.

Puisque la validation croisée est plus stable qu'une simple séparation train-test, l'objectif est d'obtenir le meilleur score de validation croisée. GridSearchCV explore les hyperparamètres et trouve ceux qui maximisent ce score. Le meilleur score est stocké dans .best_score_.

Note
Remarque

Les hyperparamètres qui fonctionnent le mieux pour un ensemble de données peuvent ne pas se généraliser lorsque de nouvelles données arrivent. Ainsi, .best_score_ peut être supérieur à la performance du modèle sur des données totalement inédites.

Flux de travail courant : division en ensembles d'entraînement et de test ; exécution de la validation croisée sur l'ensemble d'entraînement pour ajuster le modèle ; puis évaluation du modèle optimisé sur l'ensemble de test pour mesurer la performance en conditions réelles.

Séparation entraînement-test

Pour résumer :

  1. Prétraitement des données ;
  2. Séparation en ensembles d'entraînement et de test ;
  3. Utilisation de la validation croisée sur l'ensemble d'entraînement pour trouver la meilleure configuration ;
  4. Évaluation sur l'ensemble de test.
Note
Approfondir

La troisième étape implique généralement de tester plusieurs algorithmes et d'ajuster leurs hyperparamètres afin d'identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.

La validation croisée n'est pas toujours la meilleure option. Pour les grands ensembles de données, le calcul des scores de validation croisée devient coûteux, tandis qu'une séparation entraînement-test devient plus stable grâce à la taille importante de l'ensemble de test.

Les grands ensembles de données sont souvent divisés en ensembles de formation, de validation et de test. Les hyperparamètres sont choisis en fonction des performances sur l’ensemble de validation. Enfin, le modèle sélectionné est évalué sur l’ensemble de test afin de vérifier sa capacité de généralisation.

Séparation entraînement-test-validation

Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l’évaluation dans le prochain chapitre.

question mark

Pourquoi la validation croisée est-elle particulièrement précieuse pour l'ajustement des hyperparamètres dans les petits ensembles de données, contrairement aux grands ensembles où la séparation entraînement-test peut être privilégiée ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 9

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 4. Chapitre 9
some-alt