Surapprentissage et Régularisation
Comme démontré dans le chapitre précédent, l’utilisation de PolynomialFeatures permet de créer une frontière de décision complexe. Les caractéristiques polynomiales de degré deux peuvent même produire les frontières illustrées dans l’image ci-dessous :
Et il ne s’agit que d’un degré deux. Un degré supérieur peut générer des formes encore plus complexes. Cependant, cela pose un problème. La frontière de décision construite par la régression logistique peut devenir trop compliquée, ce qui entraîne un surapprentissage du modèle.
Le surapprentissage survient lorsque le modèle, au lieu d’apprendre des tendances générales dans les données, construit une frontière de décision très complexe pour traiter chaque instance d’entraînement. Pourtant, il n’offre pas de bonnes performances sur des données jamais vues auparavant, alors que la capacité à bien généraliser sur des données inconnues est un objectif fondamental d’un modèle d’apprentissage automatique.
La régularisation permet de résoudre le problème du surapprentissage. En réalité, la régularisation l2 est utilisée par défaut dans la classe LogisticRegression. Cependant, il est nécessaire de configurer l’intensité de la régularisation appliquée au modèle. Ce paramètre est contrôlé par le paramètre C :



- valeur de
Cplus grande - régularisation plus faible, surapprentissage accru ; - valeur de
Cplus faible - régularisation plus forte, moins de surapprentissage (mais risque de sous-apprentissage).
Les valeurs de C qui donneront un bon modèle dépendent du jeu de données, il est donc préférable de les choisir à l'aide de GridSearchCV.
Lors de l'utilisation de la régression logistique avec régularisation, il est essentiel de mettre à l'échelle vos données. La régularisation pénalise les grands coefficients, et sans mise à l'échelle, les variables avec des valeurs plus élevées peuvent fausser les résultats. En réalité, la mise à l'échelle est presque toujours nécessaire - même lorsque la régularisation n'est pas utilisée.
La classe LogisticRegression inclut la régularisation par défaut, il convient donc soit de supprimer la régularisation (en définissant penalty=None), soit de mettre à l'échelle les données (par exemple, en utilisant StandardScaler).
Si vous utilisez à la fois PolynomialFeatures et StandardScaler, veillez à appliquer StandardScaler après la génération des caractéristiques polynomiales. Mettre à l'échelle les données avant l'expansion polynomiale peut fausser les caractéristiques résultantes, car des opérations telles que l'élévation au carré ou la multiplication de valeurs déjà standardisées peuvent conduire à des distributions non naturelles.
1. Choisir l'affirmation INCORRECTE.
2. Quel est l'ordre correct pour prétraiter les données
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4.17
Surapprentissage et Régularisation
Glissez pour afficher le menu
Comme démontré dans le chapitre précédent, l’utilisation de PolynomialFeatures permet de créer une frontière de décision complexe. Les caractéristiques polynomiales de degré deux peuvent même produire les frontières illustrées dans l’image ci-dessous :
Et il ne s’agit que d’un degré deux. Un degré supérieur peut générer des formes encore plus complexes. Cependant, cela pose un problème. La frontière de décision construite par la régression logistique peut devenir trop compliquée, ce qui entraîne un surapprentissage du modèle.
Le surapprentissage survient lorsque le modèle, au lieu d’apprendre des tendances générales dans les données, construit une frontière de décision très complexe pour traiter chaque instance d’entraînement. Pourtant, il n’offre pas de bonnes performances sur des données jamais vues auparavant, alors que la capacité à bien généraliser sur des données inconnues est un objectif fondamental d’un modèle d’apprentissage automatique.
La régularisation permet de résoudre le problème du surapprentissage. En réalité, la régularisation l2 est utilisée par défaut dans la classe LogisticRegression. Cependant, il est nécessaire de configurer l’intensité de la régularisation appliquée au modèle. Ce paramètre est contrôlé par le paramètre C :



- valeur de
Cplus grande - régularisation plus faible, surapprentissage accru ; - valeur de
Cplus faible - régularisation plus forte, moins de surapprentissage (mais risque de sous-apprentissage).
Les valeurs de C qui donneront un bon modèle dépendent du jeu de données, il est donc préférable de les choisir à l'aide de GridSearchCV.
Lors de l'utilisation de la régression logistique avec régularisation, il est essentiel de mettre à l'échelle vos données. La régularisation pénalise les grands coefficients, et sans mise à l'échelle, les variables avec des valeurs plus élevées peuvent fausser les résultats. En réalité, la mise à l'échelle est presque toujours nécessaire - même lorsque la régularisation n'est pas utilisée.
La classe LogisticRegression inclut la régularisation par défaut, il convient donc soit de supprimer la régularisation (en définissant penalty=None), soit de mettre à l'échelle les données (par exemple, en utilisant StandardScaler).
Si vous utilisez à la fois PolynomialFeatures et StandardScaler, veillez à appliquer StandardScaler après la génération des caractéristiques polynomiales. Mettre à l'échelle les données avant l'expansion polynomiale peut fausser les caractéristiques résultantes, car des opérations telles que l'élévation au carré ou la multiplication de valeurs déjà standardisées peuvent conduire à des distributions non naturelles.
1. Choisir l'affirmation INCORRECTE.
2. Quel est l'ordre correct pour prétraiter les données
Merci pour vos commentaires !