Summary
This chapter explains how to use a pipeline to chain preprocessing steps with a final estimator and why applying .transform (rather than .fit_transform) on new data ensures consistent feature encoding. It also shows how to include a model as the last pipeline step so that fitting and predicting can be done in a single call.

General domain of usage
Machine learning model development

`Pipeline` ble tidligere brukt til **forbehandling**, men dens egentlige formål er å kjede forbehandling sammen med en **sluttprediktor**. Det siste steget i en pipeline kan være hvilken som helst estimator (vanligvis en modell) som produserer prediksjoner.

Når man kaller `.fit()`, kjører hver transformer `.fit_transform()`.
Når man kaller `.predict()`, bruker pipelinen `.transform()` før data sendes til sluttestimatoren.
Dette er nødvendig fordi **nye data må transformeres på nøyaktig samme måte som treningsdataene**.

Merk

## Hvorfor `.transform()`?

Å bruke `.fit_transform()` på nye data kan endre kodinger (for eksempel i `OneHotEncoder`), noe som kan føre til feil kolonner og upålitelige prediksjoner.
`.transform()` garanterer **konsistent forbehandling**, ignorerer ukjente kategorier og beholder samme kolonnerekkefølge.

Her er de nye instansene som skal predikeres:

Hvis `.fit_transform()` ble brukt på **nye instanser**, kunne `OneHotEncoder` generere kolonner i en annen rekkefølge eller til og med introdusere nye. Dette ville ført til at de nye dataene ble transformert **inkonsistent med treningssettet**, noe som gjør prediksjonene **upålitelige**.


Ved å bruke `.transform()` sikres det at de nye dataene kodes **nøyaktig som treningsdataene**, og kategorier som ikke ble sett under trening ignoreres:

## Legge til den endelige estimatoren

Legg ganske enkelt til modellen som det **siste steget** i pipelinen:

```python
pipe = make_pipeline(
    ct,
    SimpleImputer(strategy='most_frequent'),
    StandardScaler(),
    KNeighborsClassifier()
)
pipe.fit(X, y)
pipe.predict(X_new)
```

Dette gjør at hele arbeidsflyten—preprosessering + prediksjon—kan kjøres med ett kall.

Hvilke påstander om den endelige estimatoren og preprosessering i en pipeline er korrekte?

Behersk grunnleggende prinsipper for maskinlæring og Scikit-learn-biblioteket. Utforsk hele arbeidsflyten for maskinlæring, fra håndtering av manglende verdier og koding av kategoriske data til skalering av variabler. Bygg effektive og lekkasjesikre dataprosesseringspipelines ved bruk av ColumnTransformer. Gjør rå datasett om til modelleringsklare strukturer og implementer robuste prediktive pipelines.

Sluttestimator

Hvorfor .transform()?

Legge til den endelige estimatoren

Hvorfor `.transform()`?