Summary
This chapter covers data preprocessing techniques using pandas, including handling missing values, encoding categorical variables, and preparing features for consistent scaling.

General domain of usage
Machine learning

Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil **penguin dataset** bli brukt, med oppgaven å forutsi arten til en pingvin.


Det finnes tre mulige alternativer, ofte omtalt som **klasser** innen maskinlæring:

Egenskapene er: `'island'`, `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` og `'sex'`.

Datasettet er lagret i filen `penguins.csv`. Det kan lastes inn fra en lenke med funksjonen `pd.read_csv()` for å undersøke innholdet:


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Dette datasettet har flere utfordringer som må håndteres:

* Manglende data;
* Kategoriske variabler;
* Ulike skalaer på egenskaper.


## Manglende data

De fleste ML-algoritmer kan ikke behandle manglende verdier direkte, så disse må håndteres før trening. Manglende verdier kan enten **fjernes** eller **imputeres** (erstattes med alternative verdier).

I `pandas` representeres tomme celler som `NaN`. Mange ML-modeller vil gi en feil hvis datasettet inneholder selv én `NaN`.


## Kategoriske data

Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.


Kategoriske data må **kodes** til numerisk form.


## Ulike skalaer

`'culmen_depth_mm'`-verdier varierer fra 13.1 til 21.5, mens `'body_mass_g'`-verdier varierer fra 2700 til 6300. På grunn av dette kan noen ML-modeller vurdere `'body_mass_g'`-egenskapen som **mye viktigere** enn `'culmen_depth_mm'`.

**Skalering** løser dette problemet. Dette vil bli gjennomgått i senere kapitler.

Maskinlæring brukes nå overalt. Vil du lære det selv? Dette kurset er en introduksjon til maskinlæring hvor du lærer grunnleggende konsepter, arbeider med Scikit-learn – det mest populære biblioteket for ML, og bygger ditt første maskinlæringsprosjekt.
Kurset er beregnet på studenter med grunnleggende kunnskaper i Python, Pandas og Numpy.

Lær om maskinlæringskonsepter og arbeidsflyten i et ML-prosjekt.

Forbehandling er sannsynligvis den viktigste fasen i et ML-prosjekt. Dette kapittelet dekker forbehandlingsstegene som trengs for nesten alle datasett.

En pipeline er en ryddig måte å kombinere alle forhåndsprosesseringssteg samt en modell. Pipeliner gjør det mye enklere å trene og bruke en modell.

Modellering er den mest spennende fasen i et ML-prosjekt. La oss lære å bygge, finjustere og evaluere modellen!

Bli Kjent Med Datasettet

Manglende data

Kategoriske data

Ulike skalaer