Surapprentissage
Surapprentissage
Considérez les deux droites de régression ci-dessous. Laquelle est la meilleure ?
Les métriques suggèrent que le second modèle est meilleur, donc nous l'utilisons pour prédire X_new = [0.2, 0.5, 2.7]. Mais après avoir comparé les prédictions avec les valeurs réelles, le premier modèle donne de meilleurs résultats.
Cela se produit parce que le second modèle surapprend — il est trop complexe et correspond trop étroitement aux données d'entraînement, échouant à généraliser sur de nouveaux exemples.
Sous-ajustement
Sous-ajustement se produit lorsqu'un modèle est trop simple pour s'adapter même aux données d'entraînement, ce qui conduit également à de mauvaises prédictions sur des données non vues.
Il est donc possible d'essayer de déterminer visuellement si le modèle est en sous-ajustement ou en surajustement.
Comme il n'est pas possible de visualiser des modèles de haute dimension, une autre méthode est nécessaire pour détecter le surajustement ou le sous-ajustement.
Séparation entraînement-test
Pour estimer la performance sur des données non vues, le jeu de données est divisé en un ensemble d'entraînement et un ensemble de test avec des cibles connues.
L'entraînement est réalisé sur l'ensemble d'entraînement et les métriques sont calculées sur les ensembles d'entraînement et de test afin de comparer les performances.
La séparation doit être aléatoire. En général, 20 à 30 % des données sont attribuées à l'ensemble de test, et 70 à 80 % sont utilisées pour l'entraînement. Scikit-learn propose une méthode simple pour effectuer cette opération.
Par exemple, pour diviser l'ensemble d'entraînement en 70 % entraînement / 30 % test, vous pouvez utiliser le code suivant :
from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 5.26
Surapprentissage
Glissez pour afficher le menu
Surapprentissage
Considérez les deux droites de régression ci-dessous. Laquelle est la meilleure ?
Les métriques suggèrent que le second modèle est meilleur, donc nous l'utilisons pour prédire X_new = [0.2, 0.5, 2.7]. Mais après avoir comparé les prédictions avec les valeurs réelles, le premier modèle donne de meilleurs résultats.
Cela se produit parce que le second modèle surapprend — il est trop complexe et correspond trop étroitement aux données d'entraînement, échouant à généraliser sur de nouveaux exemples.
Sous-ajustement
Sous-ajustement se produit lorsqu'un modèle est trop simple pour s'adapter même aux données d'entraînement, ce qui conduit également à de mauvaises prédictions sur des données non vues.
Il est donc possible d'essayer de déterminer visuellement si le modèle est en sous-ajustement ou en surajustement.
Comme il n'est pas possible de visualiser des modèles de haute dimension, une autre méthode est nécessaire pour détecter le surajustement ou le sous-ajustement.
Séparation entraînement-test
Pour estimer la performance sur des données non vues, le jeu de données est divisé en un ensemble d'entraînement et un ensemble de test avec des cibles connues.
L'entraînement est réalisé sur l'ensemble d'entraînement et les métriques sont calculées sur les ensembles d'entraînement et de test afin de comparer les performances.
La séparation doit être aléatoire. En général, 20 à 30 % des données sont attribuées à l'ensemble de test, et 70 à 80 % sont utilisées pour l'entraînement. Scikit-learn propose une méthode simple pour effectuer cette opération.
Par exemple, pour diviser l'ensemble d'entraînement en 70 % entraînement / 30 % test, vous pouvez utiliser le code suivant :
from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
Merci pour vos commentaires !