Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Surapprentissage et Régularisation | Section
Fondamentaux de l'apprentissage supervisé

bookSurapprentissage et Régularisation

Comme démontré dans le chapitre précédent, l’utilisation de PolynomialFeatures permet de créer une frontière de décision complexe. Les caractéristiques polynomiales de degré deux peuvent même produire les frontières illustrées dans l’image ci-dessous :

Et il ne s’agit que d’un degré deux. Un degré supérieur peut générer des formes encore plus complexes. Cependant, cela pose un problème. La frontière de décision construite par la régression logistique peut devenir trop complexe, ce qui entraîne un surapprentissage du modèle.

Le surapprentissage correspond à une situation où le modèle, au lieu d’apprendre des tendances générales dans les données, construit une frontière de décision très complexe pour traiter chaque instance d’entraînement. Toutefois, il n’offre pas de bonnes performances sur des données jamais vues auparavant, alors que la capacité à bien généraliser sur des données inconnues est un objectif fondamental d’un modèle d’apprentissage automatique.

La régularisation permet de résoudre le problème du surapprentissage. En réalité, la régularisation l2 est utilisée par défaut dans la classe LogisticRegression. Cependant, il est nécessaire de configurer l’intensité de la régularisation appliquée au modèle. Ce paramètre est contrôlé par le paramètre C :

carousel-imgcarousel-imgcarousel-img
  • valeur de C plus grande - régularisation plus faible, surapprentissage accru ;
  • valeur de C plus faible - régularisation plus forte, surapprentissage réduit (mais risque de sous-apprentissage).

Les valeurs de C qui produisent un bon modèle dépendent du jeu de données ; il est donc préférable de les sélectionner à l'aide de GridSearchCV.

Note
Note

Lors de l'utilisation de la régression logistique avec régularisation, il est essentiel de mettre à l'échelle vos données. La régularisation pénalise les grands coefficients, et sans mise à l'échelle, les variables avec de grandes valeurs peuvent fausser les résultats. En réalité, la mise à l'échelle est presque toujours nécessaire - même lorsque la régularisation n'est pas utilisée.

La classe LogisticRegression inclut la régularisation par défaut, il convient donc soit de supprimer la régularisation (en définissant penalty=None), soit de mettre à l'échelle les données (par exemple, en utilisant StandardScaler).

Note
Remarque

Si vous utilisez à la fois PolynomialFeatures et StandardScaler, assurez-vous d'appliquer StandardScaler après la génération des caractéristiques polynomiales. Mettre à l'échelle les données avant l'expansion polynomiale peut fausser les caractéristiques résultantes, car des opérations telles que l'élévation au carré ou la multiplication de valeurs déjà standardisées peuvent conduire à des distributions non naturelles.

1. Choisissez l'affirmation INCORRECTE.

2. Quel est l'ordre correct pour prétraiter les données

question mark

Choisissez l'affirmation INCORRECTE.

Select the correct answer

question mark

Quel est l'ordre correct pour prétraiter les données

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 25

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

bookSurapprentissage et Régularisation

Glissez pour afficher le menu

Comme démontré dans le chapitre précédent, l’utilisation de PolynomialFeatures permet de créer une frontière de décision complexe. Les caractéristiques polynomiales de degré deux peuvent même produire les frontières illustrées dans l’image ci-dessous :

Et il ne s’agit que d’un degré deux. Un degré supérieur peut générer des formes encore plus complexes. Cependant, cela pose un problème. La frontière de décision construite par la régression logistique peut devenir trop complexe, ce qui entraîne un surapprentissage du modèle.

Le surapprentissage correspond à une situation où le modèle, au lieu d’apprendre des tendances générales dans les données, construit une frontière de décision très complexe pour traiter chaque instance d’entraînement. Toutefois, il n’offre pas de bonnes performances sur des données jamais vues auparavant, alors que la capacité à bien généraliser sur des données inconnues est un objectif fondamental d’un modèle d’apprentissage automatique.

La régularisation permet de résoudre le problème du surapprentissage. En réalité, la régularisation l2 est utilisée par défaut dans la classe LogisticRegression. Cependant, il est nécessaire de configurer l’intensité de la régularisation appliquée au modèle. Ce paramètre est contrôlé par le paramètre C :

carousel-imgcarousel-imgcarousel-img
  • valeur de C plus grande - régularisation plus faible, surapprentissage accru ;
  • valeur de C plus faible - régularisation plus forte, surapprentissage réduit (mais risque de sous-apprentissage).

Les valeurs de C qui produisent un bon modèle dépendent du jeu de données ; il est donc préférable de les sélectionner à l'aide de GridSearchCV.

Note
Note

Lors de l'utilisation de la régression logistique avec régularisation, il est essentiel de mettre à l'échelle vos données. La régularisation pénalise les grands coefficients, et sans mise à l'échelle, les variables avec de grandes valeurs peuvent fausser les résultats. En réalité, la mise à l'échelle est presque toujours nécessaire - même lorsque la régularisation n'est pas utilisée.

La classe LogisticRegression inclut la régularisation par défaut, il convient donc soit de supprimer la régularisation (en définissant penalty=None), soit de mettre à l'échelle les données (par exemple, en utilisant StandardScaler).

Note
Remarque

Si vous utilisez à la fois PolynomialFeatures et StandardScaler, assurez-vous d'appliquer StandardScaler après la génération des caractéristiques polynomiales. Mettre à l'échelle les données avant l'expansion polynomiale peut fausser les caractéristiques résultantes, car des opérations telles que l'élévation au carré ou la multiplication de valeurs déjà standardisées peuvent conduire à des distributions non naturelles.

1. Choisissez l'affirmation INCORRECTE.

2. Quel est l'ordre correct pour prétraiter les données

question mark

Choisissez l'affirmation INCORRECTE.

Select the correct answer

question mark

Quel est l'ordre correct pour prétraiter les données

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 25
some-alt