Summary
This chapter demonstrates how to load a dataset with pandas, use printing to inspect its contents, and perform essential data preprocessing steps: handling missing values, encoding categorical variables, and addressing feature scale differences.

General domain of usage
Machine learning

Begin met het verkennen van de dataset als onderdeel van de preprocessing. In deze cursus wordt de **penguin dataset** gebruikt, met als doel het voorspellen van de soort van een pinguïn.


Er zijn drie mogelijke opties, die in machine learning vaak **klassen** worden genoemd:

De kenmerken zijn: `'island'`, `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` en `'sex'`.

De dataset is opgeslagen in het bestand `penguins.csv`. Deze kan worden geladen via een link met de functie `pd.read_csv()` om de inhoud te bekijken:


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Deze dataset bevat verschillende problemen die moeten worden aangepakt:

* Ontbrekende gegevens;
* Categorische variabelen;
* Verschillende schaalniveaus van kenmerken.


## Ontbrekende gegevens

De meeste ML-algoritmen kunnen ontbrekende waarden niet direct verwerken, dus deze moeten worden aangepakt voordat het model getraind wordt. Ontbrekende waarden kunnen **verwijderd** of **geïmputeerd** (vervangen door vervangende waarden) worden.

In `pandas` worden lege cellen weergegeven als `NaN`. Veel ML-modellen zullen een foutmelding geven als de dataset zelfs maar één `NaN` bevat.


## Categorische gegevens

De dataset bevat categorische variabelen, die machine learning-modellen niet direct kunnen verwerken.


Categorische gegevens moeten worden **gecodeerd** naar numerieke vorm.


## Verschillende schalen

De waarden van `'culmen_depth_mm'` variëren van 13.1 tot 21.5, terwijl de waarden van `'body_mass_g'` variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap `'body_mass_g'` **veel belangrijker** vinden dan `'culmen_depth_mm'`.

**Schaalverdeling** lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.

Beheers de basisprincipes van Machine Learning en de Scikit-learn-bibliotheek. Verken de volledige ML-werkstroom, van het omgaan met ontbrekende waarden en het coderen van categorische gegevens tot het schalen van kenmerken. Bouw efficiënte, lekvrije gegevensvoorverwerkingspijplijnen met behulp van ColumnTransformer. Zet ruwe datasets om in modelklare structuren en implementeer robuuste voorspellende pijplijnen.

Kennismaken Met De Dataset

Ontbrekende gegevens

Categorische gegevens

Verschillende schalen