Modèles
Glissez pour afficher le menu
Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la modélisation.
Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.
.fit()
Une fois que les données sont prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d’un modèle est l’entraînement du modèle. Cela se fait à l’aide de la méthode .fit(X, y).
Pour l’apprentissage supervisé (régression, classification), .fit() nécessite à la fois X et y.
Pour l’apprentissage non supervisé (par exemple, le clustering), il suffit d’appeler .fit(X). Passer y ne provoque pas d’erreur — il est simplement ignoré.
Pendant l’entraînement, le modèle apprend les motifs nécessaires à la prédiction. Ce qu’il apprend et la durée de l’entraînement dépendent de l’algorithme utilisé. L’entraînement est souvent la partie la plus lente du machine learning, en particulier avec de grands ensembles de données.
.predict()
Après l'entraînement, utilisation de .predict() pour générer des prédictions :
model.fit(X, y)
y_pred = model.predict(X_new)
.score()
.score() évalue un modèle entraîné, généralement sur un jeu de test :
model.fit(X, y)
model.score(X_test, y_test)
Comparaison des prédictions avec les vraies cibles. Par défaut, la métrique est la précision pour la classification.
X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d'un modèle après l'entraînement. Elle contient les caractéristiques (données d'entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d'évaluer la capacité du modèle à prédire de nouvelles données non vues.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion