Défi : Prédire les Prix à l'Aide de la Régression Polynomiale
Pour ce défi, il s'agit de construire la même régression polynomiale de degré 2 que dans le défi précédent. Cependant, il sera nécessaire de diviser l'ensemble en un ensemble d'entraînement et un ensemble de test afin de calculer la RMSE pour ces deux ensembles. Cette étape est indispensable pour évaluer si le modèle présente un surapprentissage ou un sous-apprentissage.
Voici un rappel de la fonction train_test_split()
à utiliser.
Et également un rappel de la fonction mean_squared_error()
nécessaire pour calculer la RMSE :
rmse = mean_squared_error(y_true, y_predicted, squared=False)
Swipe to start coding
- Assigner la DataFrame contenant uniquement la colonne
'age'
dedf
à la variableX
. - Prétraiter
X
à l'aide de la classePolynomialFeatures
. - Diviser l'ensemble de données en utilisant la fonction appropriée de
sklearn
. - Construire et entraîner un modèle sur l'ensemble d'entraînement.
- Prédire les cibles pour les ensembles d'entraînement et de test.
- Calculer la RMSE pour les ensembles d'entraînement et de test.
- Afficher le tableau récapitulatif.
Solution
Une fois la tâche terminée, il sera possible de constater que la RMSE du test est même inférieure à celle de l'entraînement. Habituellement, les modèles n'obtiennent pas de meilleurs résultats sur des instances non vues. Ici, la différence est minime et due au hasard. Notre jeu de données est relativement petit et, lors de la division, l'ensemble de test a reçu des points de données légèrement meilleurs (plus faciles à prédire).
Merci pour vos commentaires !