Kennismaken met de Dataset
Laten we beginnen met het verkennen van de dataset voor het preprocessen. Gedurende de cursus gebruiken we de penguin dataset. De opdracht is het voorspellen van een pinguïnsoort.
Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:
De kenmerken zijn: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
en 'sex'
.
De gegevens bevinden zich in het bestand penguins.csv
. We laden dit bestand vanaf een link met de functie pd.read_csv()
en bekijken de inhoud:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Bij het bekijken van deze dataset kunnen we al enkele problemen identificeren die opgelost moeten worden. Deze zijn:
- Ontbrekende gegevens;
- Categorievariabelen;
- Verschillende schalen.
Ontbrekende gegevens
De meeste ML-algoritmen kunnen niet automatisch omgaan met ontbrekende waarden, dus moeten we deze verwijderen (of vervangen door bepaalde waarden, wat imputatie wordt genoemd) voordat we de trainingsset aan een model aanbieden.
pandas
vult lege cellen van de tabel met NaN
. De meeste ML-modellen zullen een foutmelding geven als er ten minste één NaN
in de gegevens aanwezig is.
Categorische gegevens
De gegevens bevatten categorische gegevens, waarvan we al weten dat deze niet verwerkt kunnen worden door machine learning-modellen.
Daarom moeten we categorische gegevens omzetten naar numerieke waarden.
Verschillende schalen
'culmen_depth_mm'
-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'
-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g'
als veel belangrijker beschouwen dan 'culmen_depth_mm'
.
Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Kennismaken met de Dataset
Veeg om het menu te tonen
Laten we beginnen met het verkennen van de dataset voor het preprocessen. Gedurende de cursus gebruiken we de penguin dataset. De opdracht is het voorspellen van een pinguïnsoort.
Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:
De kenmerken zijn: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
en 'sex'
.
De gegevens bevinden zich in het bestand penguins.csv
. We laden dit bestand vanaf een link met de functie pd.read_csv()
en bekijken de inhoud:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Bij het bekijken van deze dataset kunnen we al enkele problemen identificeren die opgelost moeten worden. Deze zijn:
- Ontbrekende gegevens;
- Categorievariabelen;
- Verschillende schalen.
Ontbrekende gegevens
De meeste ML-algoritmen kunnen niet automatisch omgaan met ontbrekende waarden, dus moeten we deze verwijderen (of vervangen door bepaalde waarden, wat imputatie wordt genoemd) voordat we de trainingsset aan een model aanbieden.
pandas
vult lege cellen van de tabel met NaN
. De meeste ML-modellen zullen een foutmelding geven als er ten minste één NaN
in de gegevens aanwezig is.
Categorische gegevens
De gegevens bevatten categorische gegevens, waarvan we al weten dat deze niet verwerkt kunnen worden door machine learning-modellen.
Daarom moeten we categorische gegevens omzetten naar numerieke waarden.
Verschillende schalen
'culmen_depth_mm'
-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'
-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g'
als veel belangrijker beschouwen dan 'culmen_depth_mm'
.
Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.
Bedankt voor je feedback!