Summary
This chapter covers data preprocessing techniques using pandas, including handling missing values, encoding categorical variables, and preparing features for consistent scaling.

General domain of usage
Machine learning

Påbegynd forbehandling ved at udforske datasættet. Gennem dette kursus vil **penguin-datasættet** blive brugt, med opgaven at forudsige arten af en pingvin.


Der er tre mulige muligheder, ofte omtalt som **klasser** i maskinlæring:

Egenskaberne er: `'island'`, `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` og `'sex'`.

Datasættet er gemt i filen `penguins.csv`. Det kan indlæses fra et link med funktionen `pd.read_csv()` for at undersøge indholdet:


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Dette datasæt præsenterer flere udfordringer, der skal håndteres:

* Manglende data;
* Kategoriske variabler;
* Forskellige skalaer for features.


## Manglende data

De fleste ML-algoritmer kan ikke behandle manglende værdier direkte, så disse skal håndteres før træning. Manglende værdier kan enten **fjernes** eller **imputeres** (erstattes med erstatningsværdier).

I `pandas` repræsenteres tomme celler som `NaN`. Mange ML-modeller vil give en fejl, hvis datasættet indeholder blot én `NaN`.


## Kategoriske data

Datasættet indeholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.


Kategoriske data skal **kodes** til numerisk form.


## Forskellige skalaer

`'culmen_depth_mm'` værdier spænder fra 13.1 til 21.5, mens `'body_mass_g'` værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte `'body_mass_g'`-egenskaben som **meget vigtigere** end `'culmen_depth_mm'`.

**Skalering** løser dette problem. Det vil blive gennemgået i senere kapitler.

Maskinlæring anvendes nu overalt. Vil du lære det selv? Dette kursus er en introduktion til maskinlæringens verden, hvor du lærer grundlæggende begreber, arbejder med Scikit-learn – det mest populære bibliotek til ML – og bygger dit første maskinlæringsprojekt.
Dette kursus er tiltænkt studerende med grundlæggende kendskab til Python, Pandas og Numpy.

Lær om maskinlæringskoncepter og arbejdsgangen i et ML-projekt.

Forbehandling er sandsynligvis den vigtigste fase i et ML-projekt. Dette kapitel dækker de forbehandlingsskridt, der er nødvendige for næsten ethvert datasæt.

En pipeline er en elegant måde at kombinere alle forbehandlingsskridt samt en model. Pipelines gør det meget nemmere at træne og anvende en model.

Modellering er den mest underholdende fase i et ML-projekt. Lad os lære at opbygge, finjustere og evaluere modellen!

Bliv Fortrolig med Datasættet

Manglende data

Kategoriske data

Forskellige skalaer