Summary
This chapter explains how to use a pipeline to chain preprocessing steps with a final estimator and why applying .transform (rather than .fit_transform) on new data ensures consistent feature encoding. It also shows how to include a model as the last pipeline step so that fitting and predicting can be done in a single call.

General domain of usage
Machine learning model development

`Pipeline`-luokkaa käytettiin aiemmin **esikäsittelyyn**, mutta sen todellinen tarkoitus on ketjuttaa esikäsittely **lopulliseen ennustajaan**. Putken viimeinen vaihe voi olla mikä tahansa estimaattori (yleensä malli), joka tuottaa ennusteita.

Kun kutsutaan `.fit()`, jokainen muunnin suorittaa `.fit_transform()`.
Kun kutsutaan `.predict()`, pipeline käyttää `.transform()` ennen kuin se välittää datan lopulliselle estimaattorille.
Tämä on välttämätöntä, koska **uusi data täytyy muuntaa täsmälleen samalla tavalla kuin koulutusdata**.

Huomio

## Miksi `.transform()`?

Uuden datan käsittely `.fit_transform()`-metodilla voisi muuttaa koodauksia (esim. `OneHotEncoder`), mikä johtaisi yhteensopimattomiin sarakkeisiin ja epäluotettaviin ennusteisiin.
`.transform()` takaa **yhtenäisen esikäsittelyn**, ohittaa tuntemattomat kategoriat ja säilyttää saman sarakejärjestyksen.

Tältä näyttää one-hot-koodattu koulutusdata:

Tässä ovat uudet ennustettavat havainnot:

Jos `.fit_transform()` sovellettaisiin **uusiin havaintoihin**, `OneHotEncoder` voisi luoda sarakkeet eri järjestyksessä tai jopa lisätä uusia. Tämä johtaisi siihen, että uusi data muunnettaisiin **eri tavalla kuin koulutusdata**, mikä tekisi ennusteista **epäluotettavia**.


Kuitenkin käyttämällä `.transform()`-metodia varmistetaan, että uusi data koodataan **täsmälleen samalla tavalla kuin koulutusdata**, eikä koulutuksessa näkymättömiä kategorioita huomioida:

## Lopullisen estimaattorin lisääminen

Lisää malli yksinkertaisesti **putken viimeiseksi vaiheeksi**:

```python
pipe = make_pipeline(
    ct,
    SimpleImputer(strategy='most_frequent'),
    StandardScaler(),
    KNeighborsClassifier()
)
pipe.fit(X, y)
pipe.predict(X_new)
```

Tämä mahdollistaa koko työnkulun—esikäsittely + ennustus—suorittamisen yhdellä kutsulla.

Mitkä väittämät lopullisesta estimaattorista ja esikäsittelystä putkessa ovat oikein?

Hallitse koneoppimisen perusteet ja Scikit-learn-kirjaston käyttö. Tutustu koko koneoppimisen työnkulkuun puuttuvien arvojen käsittelystä ja kategoristen tietojen koodauksesta piirteiden skaalaamiseen. Rakenna tehokkaita ja tietovuodoilta suojattuja esikäsittelyputkia käyttämällä ColumnTransformer-luokkaa. Muunna raakadatat mallivalmiiksi rakenteiksi ja toteuta vankkoja ennustavia putkia.

Lopullinen Estimaattori

Miksi .transform()?

Lopullisen estimaattorin lisääminen

Miksi `.transform()`?