Summary  
This chapter demonstrates how to append a final estimator to a preprocessing pipeline—allowing preprocessing and prediction in one call—and explains why using .transform() (rather than .fit_transform() on new data) is critical for consistent feature encoding.  

General domain of usage  
Machine learning predictive modeling

`Pipeline` werd eerder gebruikt voor **preprocessing**, maar het echte doel is om preprocessing te koppelen aan een **eindvoorspeller**. De laatste stap in een pipeline kan elke estimator zijn (meestal een model) die voorspellingen genereert.

Bij het aanroepen van `.fit()` voert elke transformer `.fit_transform()` uit.
Bij het aanroepen van `.predict()` gebruikt de pipeline `.transform()` voordat de gegevens naar de eindschatter worden gestuurd.
Dit is vereist omdat **nieuwe gegevens exact hetzelfde moeten worden getransformeerd als de trainingsgegevens**.

Opmerking

## Waarom `.transform()`?

Het gebruik van `.fit_transform()` op nieuwe gegevens kan coderingen wijzigen (bijvoorbeeld in `OneHotEncoder`), wat leidt tot niet-overeenkomende kolommen en onbetrouwbare voorspellingen.
`.transform()` garandeert **consistente preprocessing**, negeert onbekende categorieën en behoudt dezelfde kolomvolgorde.

Hier ziet u hoe één-hot gecodeerde trainingsgegevens eruitzien:

Hier zijn de nieuwe instanties om te voorspellen:

Als `.fit_transform()` zou worden toegepast op **nieuwe instanties**, kan de `OneHotEncoder` kolommen in een andere volgorde genereren of zelfs nieuwe toevoegen. Hierdoor zou de nieuwe data **inconsistent met de trainingsset** worden getransformeerd, waardoor voorspellingen **onbetrouwbaar** worden.


Het gebruik van `.transform()` zorgt er echter voor dat de nieuwe data **exact hetzelfde wordt gecodeerd als de trainingsdata**, waarbij categorieën die tijdens de training niet zijn gezien, worden genegeerd:

## De Finale Estimator Toevoegen

Voeg het model eenvoudig toe als de **laatste stap** van de pipeline:

```python
pipe = make_pipeline(
    ct,
    SimpleImputer(strategy='most_frequent'),
    StandardScaler(),
    KNeighborsClassifier()
)
pipe.fit(X, y)
pipe.predict(X_new)
```

Hierdoor kan de volledige workflow—preprocessing + voorspelling—met één aanroep worden uitgevoerd.

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Eindschatter

Waarom .transform()?

De Finale Estimator Toevoegen

Waarom `.transform()`?