Summary  
This chapter explains how to use an estimator’s `.fit()`, `.predict()`, and `.score()` methods to train a model, generate predictions, and evaluate its performance.  

General domain of usage  
Supervised machine learning

Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la **modélisation**.


Un **modèle** dans Scikit-learn est un **estimateur** qui fournit les méthodes `.predict()` et `.score()`, ainsi que `.fit()` héritée de tous les estimateurs.


## .fit() 

Une fois que les données sont prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d’un modèle est **l’entraînement du modèle**. Cela se fait à l’aide de la méthode `.fit(X, y)`.

Pour **l’apprentissage supervisé** (régression, classification), `.fit()` nécessite à la fois `X` et `y`.
Pour **l’apprentissage non supervisé** (par exemple, le clustering), il suffit d’appeler `.fit(X)`. Passer `y` ne provoque pas d’erreur — il est simplement ignoré.

Remarque

Pendant l’entraînement, le modèle **apprend** les motifs nécessaires à la prédiction. Ce qu’il apprend et la durée de l’entraînement dépendent de l’algorithme utilisé. L’entraînement est souvent la **partie la plus lente** du machine learning, en particulier avec de grands ensembles de données.

## .predict()

Après l'entraînement, utilisation de `.predict()` pour générer des prédictions :

```python
model.fit(X, y)
y_pred = model.predict(X_new)
```

## .score()

`.score()` évalue un modèle entraîné, généralement sur un **jeu de test** :

```python
model.fit(X, y)
model.score(X_test, y_test)
```

Comparaison des prédictions avec les vraies cibles. Par défaut, la métrique est la **précision** pour la classification.

`X_test` fait référence à la sous-partie du jeu de données, appelée **jeu de test**, utilisée pour évaluer la performance d'un modèle après l'entraînement. Elle contient les **caractéristiques** (données d'entrée). `y_test` est la sous-partie correspondante des **vraies étiquettes** pour `X_test`. Ensemble, ils permettent d'évaluer la capacité du modèle à prédire de nouvelles données non vues.

L'apprentissage automatique est désormais utilisé partout. Vous souhaitez l'apprendre vous-même ? Ce cours constitue une introduction au monde de l'apprentissage automatique afin de vous permettre d'acquérir les concepts de base, de travailler avec Scikit-learn – la bibliothèque la plus populaire pour le ML – et de réaliser votre premier projet d'apprentissage automatique.
Ce cours s'adresse aux étudiants ayant des connaissances de base en Python, Pandas et Numpy.

Découvrez les concepts de l'apprentissage automatique et le flux de travail d'un projet ML.

Le prétraitement est probablement l’étape la plus importante d’un projet ML. Ce chapitre couvre les étapes de prétraitement nécessaires pour presque tout jeu de données.

Un pipeline est une méthode élégante pour combiner toutes les étapes de prétraitement ainsi qu’un modèle. Les pipelines facilitent grandement l’entraînement et l’utilisation d’un modèle.

La modélisation est l'étape la plus intéressante d'un projet ML. Apprenons à construire, ajuster et évaluer le modèle !

Modèles

.fit()

.predict()

.score()