Summary  
This chapter demonstrates how to append a final estimator to a preprocessing pipeline—allowing preprocessing and prediction in one call—and explains why using .transform() (rather than .fit_transform() on new data) is critical for consistent feature encoding.  

General domain of usage  
Machine learning predictive modeling

`Pipeline` blev tidligere brugt til **forbehandling**, men dens egentlige formål er at kæde forbehandling sammen med en **endelig prædiktor**. Det sidste trin i en pipeline kan være enhver estimator (typisk en model), der genererer forudsigelser.

Ved kald af `.fit()` udfører hver transformer `.fit_transform()`.
Ved kald af `.predict()` anvender pipelinen `.transform()` før data sendes til den endelige estimator.
Dette er nødvendigt, fordi **nye data skal transformeres nøjagtigt som træningsdataene**.

Bemærk

## Hvorfor `.transform()`?

Brug af `.fit_transform()` på nye data kan ændre kodninger (f.eks. i `OneHotEncoder`), hvilket kan skabe uoverensstemmende kolonner og upålidelige forudsigelser.
`.transform()` garanterer **konsekvent forbehandling**, ignorerer ukendte kategorier og bevarer samme kolonnerækkefølge.

Sådan ser one-hot kodede træningsdata ud:

Her er de nye instanser, der skal forudsiges:

Hvis `.fit_transform()` blev anvendt på **nye instanser**, kunne `OneHotEncoder` generere kolonner i en anden rækkefølge eller endda tilføje nye. Dette ville medføre, at de nye data blev transformeret **inkonsistent med træningssættet**, hvilket gør forudsigelser **upålidelige**.


Dog der sikrer brugen af `.transform()`, at de nye data bliver kodet **præcis som træningsdataene**, og ignorerer kategorier, der ikke blev set under træningen:

## Tilføjelse af den endelige estimator

Tilføj blot modellen som **sidste trin** i pipelinen:

```python
pipe = make_pipeline(
    ct,
    SimpleImputer(strategy='most_frequent'),
    StandardScaler(),
    KNeighborsClassifier()
)
pipe.fit(X, y)
pipe.predict(X_new)
```

Dette gør det muligt at køre hele arbejdsgangen—præprocessering + forudsigelse—med ét kald.

Maskinlæring anvendes nu overalt. Vil du lære det selv? Dette kursus er en introduktion til maskinlæringens verden, hvor du lærer grundlæggende begreber, arbejder med Scikit-learn – det mest populære bibliotek til ML – og bygger dit første maskinlæringsprojekt.
Dette kursus er tiltænkt studerende med grundlæggende kendskab til Python, Pandas og Numpy.

Lær om maskinlæringskoncepter og arbejdsgangen i et ML-projekt.

Forbehandling er sandsynligvis den vigtigste fase i et ML-projekt. Dette kapitel dækker de forbehandlingsskridt, der er nødvendige for næsten ethvert datasæt.

En pipeline er en elegant måde at kombinere alle forbehandlingsskridt samt en model. Pipelines gør det meget nemmere at træne og anvende en model.

Modellering er den mest underholdende fase i et ML-projekt. Lad os lære at opbygge, finjustere og evaluere modellen!

Endelig Estimator

Hvorfor .transform()?

Tilføjelse af den endelige estimator

Hvorfor `.transform()`?