Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Modèles | Modélisation
Introduction à l'Apprentissage Automatique avec Python

bookModèles

Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela s'effectue à l'aide de .fit(X, y).

Note
Remarque

Pour entraîner un modèle réalisant une tâche d’apprentissage supervisé (par exemple, régression, classification), il est nécessaire de fournir à la méthode X à la fois y et .fit().

Pour une tâche d’apprentissage non supervisé (par exemple, clustering), aucune donnée étiquetée n’est requise, il suffit donc de passer uniquement la variable X, .fit(X). Toutefois, utiliser .fit(X, y) ne générera pas d’erreur. Le modèle va simplement ignorer la variable y.

Lors de l’entraînement, un modèle apprend tout ce qui est nécessaire pour effectuer des prédictions. Ce que le modèle apprend et la durée de l’entraînement dépendent de l’algorithme choisi. Pour chaque tâche, de nombreux modèles sont disponibles, reposant sur différents algorithmes. Certains s’entraînent plus lentement, d’autres plus rapidement.

Cependant, l’entraînement constitue généralement l’aspect le plus chronophage de l’apprentissage automatique. Si l’ensemble d’entraînement est volumineux, l’entraînement d’un modèle peut prendre des minutes, des heures, voire des jours.

.predict()

Une fois le modèle entraîné à l’aide de la méthode .fit(), il peut effectuer des prédictions. Prédire consiste simplement à appeler la méthode .predict() :

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

En général, il s’agit de prédire une cible pour de nouvelles instances, X_new.

.score()

La méthode .score() est utilisée pour mesurer la performance d’un modèle entraîné. Généralement, elle est calculée sur le jeu de test (les chapitres suivants expliqueront ce que c’est). Voici la syntaxe :

model.fit(X, y) # Training the model
model.score(X_test, y_test)

La méthode .score() nécessite les valeurs cibles réelles (y_test dans l’exemple). Elle calcule la prédiction pour les instances de X_test et compare cette prédiction avec la véritable cible (y_test) à l’aide d’une métrique. Par défaut, cette métrique est la précision pour la classification.

Note
Note

X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.13

bookModèles

Glissez pour afficher le menu

Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela s'effectue à l'aide de .fit(X, y).

Note
Remarque

Pour entraîner un modèle réalisant une tâche d’apprentissage supervisé (par exemple, régression, classification), il est nécessaire de fournir à la méthode X à la fois y et .fit().

Pour une tâche d’apprentissage non supervisé (par exemple, clustering), aucune donnée étiquetée n’est requise, il suffit donc de passer uniquement la variable X, .fit(X). Toutefois, utiliser .fit(X, y) ne générera pas d’erreur. Le modèle va simplement ignorer la variable y.

Lors de l’entraînement, un modèle apprend tout ce qui est nécessaire pour effectuer des prédictions. Ce que le modèle apprend et la durée de l’entraînement dépendent de l’algorithme choisi. Pour chaque tâche, de nombreux modèles sont disponibles, reposant sur différents algorithmes. Certains s’entraînent plus lentement, d’autres plus rapidement.

Cependant, l’entraînement constitue généralement l’aspect le plus chronophage de l’apprentissage automatique. Si l’ensemble d’entraînement est volumineux, l’entraînement d’un modèle peut prendre des minutes, des heures, voire des jours.

.predict()

Une fois le modèle entraîné à l’aide de la méthode .fit(), il peut effectuer des prédictions. Prédire consiste simplement à appeler la méthode .predict() :

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

En général, il s’agit de prédire une cible pour de nouvelles instances, X_new.

.score()

La méthode .score() est utilisée pour mesurer la performance d’un modèle entraîné. Généralement, elle est calculée sur le jeu de test (les chapitres suivants expliqueront ce que c’est). Voici la syntaxe :

model.fit(X, y) # Training the model
model.score(X_test, y_test)

La méthode .score() nécessite les valeurs cibles réelles (y_test dans l’exemple). Elle calcule la prédiction pour les instances de X_test et compare cette prédiction avec la véritable cible (y_test) à l’aide d’une métrique. Par défaut, cette métrique est la précision pour la classification.

Note
Note

X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1
some-alt