Summary
This chapter covers data preprocessing techniques using pandas, including handling missing values, encoding categorical variables, and preparing features for consistent scaling.

General domain of usage
Machine learning

Börja förbehandlingen genom att utforska datasettet. Under denna kurs kommer **penguindatasettet** att användas, med uppgiften att förutsäga arten av en pingvin.


Det finns tre möjliga alternativ, ofta kallade **klasser** inom maskininlärning:

Funktionerna är: `'island'`, `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` och `'sex'`.

Datasettet är lagrat i filen `penguins.csv`. Det kan laddas från en länk med funktionen `pd.read_csv()` för att undersöka dess innehåll:


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Denna datamängd har flera problem som behöver åtgärdas:

* Saknade data;
* Kategoriska variabler;
* Olika skalor för variabler.


## Saknade data

De flesta ML-algoritmer kan inte hantera saknade värden direkt, så dessa måste åtgärdas innan träning. Saknade värden kan antingen **tas bort** eller **imputeras** (ersättas med ersättningsvärden).

I `pandas` representeras tomma celler som `NaN`. Många ML-modeller kommer att ge ett fel om datamängden innehåller ens ett enda `NaN`.


## Kategoriska data

Datasettet innehåller kategoriska variabler, vilka maskininlärningsmodeller inte kan bearbeta direkt.


Kategoriska data måste **kodas** till numerisk form.


## Olika skalor

Värdena för `'culmen_depth_mm'` sträcker sig från 13.1 till 21.5, medan värdena för `'body_mass_g'` sträcker sig från 2700 till 6300. På grund av detta kan vissa ML-modeller betrakta egenskapen `'body_mass_g'` som **mycket viktigare** än `'culmen_depth_mm'`.

**Skalning** löser detta problem. Det kommer att behandlas i senare kapitel.

Maskininlärning används nu överallt. Vill du lära dig det själv? Denna kurs är en introduktion till maskininlärningens värld där du får lära dig grundläggande begrepp, arbeta med scikit-learn – det mest populära biblioteket för ML, och bygga ditt första maskininlärningsprojekt.
Kursen är avsedd för studenter med grundläggande kunskaper i Python, Pandas och Numpy.

Lär dig maskininlärningskoncept och arbetsflödet för ML-projekt.

Förbehandling är troligen det viktigaste steget i ett ML-projekt. Detta kapitel behandlar de förbehandlingssteg som krävs för nästan alla datamängder.

En pipeline är ett smidigt sätt att kombinera alla förbehandlingssteg samt en modell. Pipelines gör det mycket enklare att träna och använda en modell.

Modellering är det mest underhållande steget i ett ML-projekt. Lär dig att bygga, finjustera och utvärdera modellen!

Att Bekanta Sig Med Dataset

Saknade data

Kategoriska data

Olika skalor