Apprendre Surapprentissage et Régularisation

Comme démontré dans le chapitre précédent, l’utilisation de PolynomialFeatures permet de créer une frontière de décision complexe. Les caractéristiques polynomiales de degré deux peuvent même produire les frontières illustrées dans l’image ci-dessous :

Et il ne s’agit que d’un degré deux. Un degré supérieur peut générer des formes encore plus complexes. Cependant, cela pose un problème. La frontière de décision construite par la régression logistique peut devenir trop compliquée, ce qui entraîne un surapprentissage du modèle.

Le surapprentissage survient lorsque le modèle, au lieu d’apprendre des tendances générales dans les données, construit une frontière de décision très complexe pour traiter chaque instance d’entraînement. Pourtant, il n’offre pas de bonnes performances sur des données jamais vues auparavant, alors que la capacité à bien généraliser sur des données inconnues est un objectif fondamental d’un modèle d’apprentissage automatique.

La régularisation permet de résoudre le problème du surapprentissage. En réalité, la régularisation l2 est utilisée par défaut dans la classe LogisticRegression. Cependant, il est nécessaire de configurer l’intensité de la régularisation appliquée au modèle. Ce paramètre est contrôlé par le paramètre C :

valeur de C plus grande - régularisation plus faible, surapprentissage accru ;
valeur de C plus faible - régularisation plus forte, moins de surapprentissage (mais risque de sous-apprentissage).

Les valeurs de C qui donneront un bon modèle dépendent du jeu de données, il est donc préférable de les choisir à l'aide de GridSearchCV.

Remarque

Lors de l'utilisation de la régression logistique avec régularisation, il est essentiel de mettre à l'échelle vos données. La régularisation pénalise les grands coefficients, et sans mise à l'échelle, les variables avec des valeurs plus élevées peuvent fausser les résultats. En réalité, la mise à l'échelle est presque toujours nécessaire - même lorsque la régularisation n'est pas utilisée.

La classe LogisticRegression inclut la régularisation par défaut, il convient donc soit de supprimer la régularisation (en définissant penalty=None), soit de mettre à l'échelle les données (par exemple, en utilisant StandardScaler).

Remarque

Si vous utilisez à la fois PolynomialFeatures et StandardScaler, veillez à appliquer StandardScaler après la génération des caractéristiques polynomiales. Mettre à l'échelle les données avant l'expansion polynomiale peut fausser les caractéristiques résultantes, car des opérations telles que l'élévation au carré ou la multiplication de valeurs déjà standardisées peuvent conduire à des distributions non naturelles.

1. Choisir l'affirmation INCORRECTE.

2. Quel est l'ordre correct pour prétraiter les données

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 5

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to use GridSearchCV to find the best C value?

What is the difference between overfitting and underfitting?

How does regularization help prevent overfitting in logistic regression?

Awesome!

Completion rate improved to 4.17

Glissez pour afficher le menu

valeur de C plus grande - régularisation plus faible, surapprentissage accru ;
valeur de C plus faible - régularisation plus forte, moins de surapprentissage (mais risque de sous-apprentissage).

Les valeurs de C qui donneront un bon modèle dépendent du jeu de données, il est donc préférable de les choisir à l'aide de GridSearchCV.

Remarque

1. Choisir l'affirmation INCORRECTE.

2. Quel est l'ordre correct pour prétraiter les données

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 5