Summary  
This chapter demonstrates how to append a final estimator to a preprocessing pipeline—allowing preprocessing and prediction in one call—and explains why using .transform() (rather than .fit_transform() on new data) is critical for consistent feature encoding.  

General domain of usage  
Machine learning predictive modeling

`Pipeline`-luokkaa käytettiin aiemmin **esikäsittelyyn**, mutta sen todellinen tarkoitus on ketjuttaa esikäsittely **lopulliseen ennustajaan**. Putken viimeinen vaihe voi olla mikä tahansa estimaattori (yleensä malli), joka tuottaa ennusteita.

Kun kutsutaan `.fit()`, jokainen muunnin suorittaa `.fit_transform()`.
Kun kutsutaan `.predict()`, pipeline käyttää `.transform()` ennen kuin se välittää datan lopulliselle estimaattorille.
Tämä on välttämätöntä, koska **uusi data täytyy muuntaa täsmälleen samalla tavalla kuin koulutusdata**.

Huomio

## Miksi `.transform()`?

`.fit_transform()`-metodin käyttäminen uudelle datalle voisi muuttaa koodauksia (esim. `OneHotEncoder`), mikä johtaisi yhteensopimattomiin sarakkeisiin ja epäluotettaviin ennusteisiin.
`.transform()` takaa **yhtenäisen esikäsittelyn**, ohittaa tuntemattomat kategoriat ja säilyttää saman sarakejärjestyksen.

Tältä näyttää one-hot-koodattu koulutusdata:

Tässä ovat uudet ennustettavat havainnot:

Jos `.fit_transform()` sovellettaisiin **uusiin havaintoihin**, `OneHotEncoder` voisi luoda sarakkeet eri järjestyksessä tai jopa lisätä uusia. Tämä johtaisi siihen, että uusi data muunnettaisiin **epäjohdonmukaisesti koulutusdatan kanssa**, mikä tekisi ennusteista **epäluotettavia**.


Kuitenkin käyttämällä `.transform()` varmistetaan, että uusi data koodataan **täsmälleen samalla tavalla kuin koulutusdata**, eikä koulutuksessa näkymättömiä kategorioita huomioida:

## Lopullisen estimaattorin lisääminen

Lisää malli yksinkertaisesti putkiston **viimeiseksi vaiheeksi**:

```python
pipe = make_pipeline(
    ct,
    SimpleImputer(strategy='most_frequent'),
    StandardScaler(),
    KNeighborsClassifier()
)
pipe.fit(X, y)
pipe.predict(X_new)
```

Tämän avulla koko työnkulku—esikäsittely + ennustus—voidaan suorittaa yhdellä kutsulla.

Koneoppimista käytetään nykyään kaikkialla. Haluatko oppia sen itse? Tämä kurssi on johdatus koneoppimisen maailmaan, jossa opit peruskäsitteet, työskentelet Scikit-learnin – suosituimman ML-kirjaston – kanssa ja rakennat ensimmäisen koneoppimisprojektisi.
Kurssi on tarkoitettu opiskelijoille, joilla on perustiedot Pythonista, Pandasista ja Numpysta.

Koneoppimisen käsitteiden ja ML-projektin työnkulun oppiminen.

Esikäsittely on todennäköisesti tärkein vaihe ML-projektissa. Tämä luku käsittelee esikäsittelyvaiheet, joita tarvitaan lähes kaikissa aineistoissa.

Putkisto on kätevä tapa yhdistää kaikki esikäsittelyvaiheet sekä malli. Putkistot helpottavat huomattavasti mallin kouluttamista ja käyttöä.

Mallintaminen on ML-projektin viihdyttävin vaihe. Opitaan rakentamaan, hienosäätämään ja arvioimaan mallia!

Lopullinen Estimaattori

Miksi .transform()?

Lopullisen estimaattorin lisääminen

Miksi `.transform()`?