Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Résumé de la Modélisation | Modélisation
Introduction à l'Apprentissage Automatique avec Python

bookRésumé de la Modélisation

Vous savez désormais comment construire un modèle, utiliser des pipelines et ajuster des hyperparamètres. Vous avez également appris deux méthodes d'évaluation : la séparation train-test et la validation croisée. L'étape suivante consiste à combiner l'évaluation et l'ajustement à l'aide de GridSearchCV ou RandomizedSearchCV.

Note
Remarque

Comme notre jeu de données est très petit, nous utiliserons le GridSearchCV, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV.

Puisque la validation croisée est plus stable qu'une simple séparation train-test, l'objectif est d'obtenir le meilleur score de validation croisée. GridSearchCV explore les hyperparamètres et identifie ceux qui maximisent ce score. Le meilleur score est stocké dans .best_score_.

Note
Remarque

Les hyperparamètres qui fonctionnent le mieux pour un ensemble de données peuvent ne pas se généraliser lors de l'arrivée de nouvelles données. Ainsi, .best_score_ peut être supérieur à la performance du modèle sur des données totalement inédites.

Flux de travail courant : division en ensembles d'entraînement et de test ; exécution de la validation croisée sur l'ensemble d'entraînement pour ajuster le modèle ; puis évaluation du modèle optimisé sur l'ensemble de test afin de mesurer la performance en conditions réelles.

Résumé :

  1. Prétraitement des données ;
  2. Division en ensembles d'entraînement et de test ;
  3. Utilisation de la validation croisée sur l'ensemble d'entraînement pour trouver la meilleure configuration ;
  4. Évaluation sur l'ensemble de test.
Note
Approfondir

La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.

La validation croisée n’est pas toujours la meilleure option. Pour les grands ensembles de données, le calcul des scores de validation croisée devient coûteux, tandis qu’une séparation train-test devient plus stable grâce à la taille importante du jeu de test.

Les grands ensembles de données sont souvent divisés en ensembles de formation, de validation et de test. Les hyperparamètres sont choisis en fonction des performances sur l’ensemble de validation. Enfin, le modèle sélectionné est évalué sur l’ensemble de test afin de vérifier sa capacité de généralisation.

Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.

question mark

Pourquoi la validation croisée est-elle particulièrement précieuse pour l’ajustement des hyperparamètres dans les petits jeux de données, contrairement aux jeux de données plus volumineux où des séparations train-test pourraient être préférées ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 9

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

bookRésumé de la Modélisation

Glissez pour afficher le menu

Vous savez désormais comment construire un modèle, utiliser des pipelines et ajuster des hyperparamètres. Vous avez également appris deux méthodes d'évaluation : la séparation train-test et la validation croisée. L'étape suivante consiste à combiner l'évaluation et l'ajustement à l'aide de GridSearchCV ou RandomizedSearchCV.

Note
Remarque

Comme notre jeu de données est très petit, nous utiliserons le GridSearchCV, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV.

Puisque la validation croisée est plus stable qu'une simple séparation train-test, l'objectif est d'obtenir le meilleur score de validation croisée. GridSearchCV explore les hyperparamètres et identifie ceux qui maximisent ce score. Le meilleur score est stocké dans .best_score_.

Note
Remarque

Les hyperparamètres qui fonctionnent le mieux pour un ensemble de données peuvent ne pas se généraliser lors de l'arrivée de nouvelles données. Ainsi, .best_score_ peut être supérieur à la performance du modèle sur des données totalement inédites.

Flux de travail courant : division en ensembles d'entraînement et de test ; exécution de la validation croisée sur l'ensemble d'entraînement pour ajuster le modèle ; puis évaluation du modèle optimisé sur l'ensemble de test afin de mesurer la performance en conditions réelles.

Résumé :

  1. Prétraitement des données ;
  2. Division en ensembles d'entraînement et de test ;
  3. Utilisation de la validation croisée sur l'ensemble d'entraînement pour trouver la meilleure configuration ;
  4. Évaluation sur l'ensemble de test.
Note
Approfondir

La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.

La validation croisée n’est pas toujours la meilleure option. Pour les grands ensembles de données, le calcul des scores de validation croisée devient coûteux, tandis qu’une séparation train-test devient plus stable grâce à la taille importante du jeu de test.

Les grands ensembles de données sont souvent divisés en ensembles de formation, de validation et de test. Les hyperparamètres sont choisis en fonction des performances sur l’ensemble de validation. Enfin, le modèle sélectionné est évalué sur l’ensemble de test afin de vérifier sa capacité de généralisation.

Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.

question mark

Pourquoi la validation croisée est-elle particulièrement précieuse pour l’ajustement des hyperparamètres dans les petits jeux de données, contrairement aux jeux de données plus volumineux où des séparations train-test pourraient être préférées ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 9
some-alt