Summary
This chapter explains how to use a pipeline to chain preprocessing steps with a final estimator and why applying .transform (rather than .fit_transform) on new data ensures consistent feature encoding. It also shows how to include a model as the last pipeline step so that fitting and predicting can be done in a single call.

General domain of usage
Machine learning model development

`Pipeline` werd eerder gebruikt voor **preprocessing**, maar het echte doel is om preprocessing te koppelen aan een **eindvoorspeller**. De laatste stap in een pipeline kan elke estimator zijn (meestal een model) die voorspellingen genereert.

Bij het aanroepen van `.fit()` voert elke transformer `.fit_transform()` uit.
Bij het aanroepen van `.predict()` gebruikt de pipeline `.transform()` voordat de gegevens naar de eindschatter worden gestuurd.
Dit is vereist omdat **nieuwe gegevens exact hetzelfde moeten worden getransformeerd als de trainingsgegevens**.

Opmerking

## Waarom `.transform()`?

Het gebruik van `.fit_transform()` op nieuwe gegevens kan coderingen wijzigen (bijvoorbeeld in `OneHotEncoder`), waardoor kolommen niet overeenkomen en voorspellingen onbetrouwbaar worden.
`.transform()` garandeert **consistente preprocessing**, negeert onbekende categorieën en behoudt dezelfde kolomvolgorde.

Hier ziet u hoe één-hot gecodeerde trainingsgegevens eruitzien:

Hier zijn de nieuwe instanties om te voorspellen:

Als `.fit_transform()` zou worden toegepast op **nieuwe instanties**, kan de `OneHotEncoder` kolommen in een andere volgorde genereren of zelfs nieuwe toevoegen. Hierdoor zou de nieuwe data **inconsistent met de trainingsset** worden getransformeerd, waardoor voorspellingen **onbetrouwbaar** worden.


Het gebruik van `.transform()` zorgt er echter voor dat de nieuwe data **exact hetzelfde wordt gecodeerd als de trainingsdata**, waarbij categorieën die tijdens de training niet zijn gezien, worden genegeerd:

## De Finale Estimator Toevoegen

Voeg het model eenvoudig toe als de **laatste stap** van de pipeline:

```python
pipe = make_pipeline(
    ct,
    SimpleImputer(strategy='most_frequent'),
    StandardScaler(),
    KNeighborsClassifier()
)
pipe.fit(X, y)
pipe.predict(X_new)
```

Hierdoor kan de volledige workflow—preprocessing + voorspelling—met één aanroep worden uitgevoerd.

Welke uitspraken over de finale estimator en preprocessing in een pipeline zijn correct?

Beheers de basisprincipes van Machine Learning en de Scikit-learn-bibliotheek. Verken de volledige ML-werkstroom, van het omgaan met ontbrekende waarden en het coderen van categorische gegevens tot het schalen van kenmerken. Bouw efficiënte, lekvrije gegevensvoorverwerkingspijplijnen met behulp van ColumnTransformer. Zet ruwe datasets om in modelklare structuren en implementeer robuuste voorspellende pijplijnen.

Definitieve Estimator

Waarom .transform()?

De Finale Estimator Toevoegen

Waarom `.transform()`?