Modèles
Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la modélisation.
Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.
.fit()
Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela s'effectue à l'aide de .fit(X, y).
Pour entraîner un modèle réalisant une tâche d’apprentissage supervisé (par exemple, régression, classification), il est nécessaire de fournir à la méthode X à la fois y et .fit().
Pour une tâche d’apprentissage non supervisé (par exemple, clustering), aucune donnée étiquetée n’est requise, il suffit donc de passer uniquement la variable X, .fit(X). Toutefois, utiliser .fit(X, y) ne générera pas d’erreur. Le modèle va simplement ignorer la variable y.
Lors de l’entraînement, un modèle apprend tout ce qui est nécessaire pour effectuer des prédictions. Ce que le modèle apprend et la durée de l’entraînement dépendent de l’algorithme choisi. Pour chaque tâche, de nombreux modèles sont disponibles, reposant sur différents algorithmes. Certains s’entraînent plus lentement, d’autres plus rapidement.
Cependant, l’entraînement constitue généralement l’aspect le plus chronophage de l’apprentissage automatique. Si l’ensemble d’entraînement est volumineux, l’entraînement d’un modèle peut prendre des minutes, des heures, voire des jours.
.predict()
Une fois le modèle entraîné à l’aide de la méthode .fit(), il peut effectuer des prédictions. Prédire consiste simplement à appeler la méthode .predict() :
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
En général, il s’agit de prédire une cible pour de nouvelles instances, X_new.
.score()
La méthode .score() est utilisée pour mesurer la performance d’un modèle entraîné. Généralement, elle est calculée sur le jeu de test (les chapitres suivants expliqueront ce que c’est). Voici la syntaxe :
model.fit(X, y) # Training the model
model.score(X_test, y_test)
La méthode .score() nécessite les valeurs cibles réelles (y_test dans l’exemple). Elle calcule la prédiction pour les instances de X_test et compare cette prédiction avec la véritable cible (y_test) à l’aide d’une métrique. Par défaut, cette métrique est la précision pour la classification.
X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Modèles
Glissez pour afficher le menu
Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la modélisation.
Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.
.fit()
Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela s'effectue à l'aide de .fit(X, y).
Pour entraîner un modèle réalisant une tâche d’apprentissage supervisé (par exemple, régression, classification), il est nécessaire de fournir à la méthode X à la fois y et .fit().
Pour une tâche d’apprentissage non supervisé (par exemple, clustering), aucune donnée étiquetée n’est requise, il suffit donc de passer uniquement la variable X, .fit(X). Toutefois, utiliser .fit(X, y) ne générera pas d’erreur. Le modèle va simplement ignorer la variable y.
Lors de l’entraînement, un modèle apprend tout ce qui est nécessaire pour effectuer des prédictions. Ce que le modèle apprend et la durée de l’entraînement dépendent de l’algorithme choisi. Pour chaque tâche, de nombreux modèles sont disponibles, reposant sur différents algorithmes. Certains s’entraînent plus lentement, d’autres plus rapidement.
Cependant, l’entraînement constitue généralement l’aspect le plus chronophage de l’apprentissage automatique. Si l’ensemble d’entraînement est volumineux, l’entraînement d’un modèle peut prendre des minutes, des heures, voire des jours.
.predict()
Une fois le modèle entraîné à l’aide de la méthode .fit(), il peut effectuer des prédictions. Prédire consiste simplement à appeler la méthode .predict() :
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
En général, il s’agit de prédire une cible pour de nouvelles instances, X_new.
.score()
La méthode .score() est utilisée pour mesurer la performance d’un modèle entraîné. Généralement, elle est calculée sur le jeu de test (les chapitres suivants expliqueront ce que c’est). Voici la syntaxe :
model.fit(X, y) # Training the model
model.score(X_test, y_test)
La méthode .score() nécessite les valeurs cibles réelles (y_test dans l’exemple). Elle calcule la prédiction pour les instances de X_test et compare cette prédiction avec la véritable cible (y_test) à l’aide d’une métrique. Par défaut, cette métrique est la précision pour la classification.
X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.
Merci pour vos commentaires !