Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Kennismaken met de Dataset | Gegevens Preprocessen met Scikit-learn
ML Introductie Met Scikit-learn

bookKennismaken met de Dataset

Laten we beginnen met het verkennen van de dataset voor het preprocessen. Gedurende de cursus gebruiken we de penguin dataset. De opdracht is het voorspellen van een pinguïnsoort.

Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:

De kenmerken zijn: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' en 'sex'.

De gegevens bevinden zich in het bestand penguins.csv. We laden dit bestand vanaf een link met de functie pd.read_csv() en bekijken de inhoud:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Bij het bekijken van deze dataset kunnen we al enkele problemen identificeren die opgelost moeten worden. Deze zijn:

  • Ontbrekende gegevens;
  • Categorievariabelen;
  • Verschillende schalen.

Ontbrekende gegevens

De meeste ML-algoritmen kunnen niet automatisch omgaan met ontbrekende waarden, dus moeten we deze verwijderen (of vervangen door bepaalde waarden, wat imputatie wordt genoemd) voordat we de trainingsset aan een model aanbieden.

pandas vult lege cellen van de tabel met NaN. De meeste ML-modellen zullen een foutmelding geven als er ten minste één NaN in de gegevens aanwezig is.

Categorische gegevens

De gegevens bevatten categorische gegevens, waarvan we al weten dat deze niet verwerkt kunnen worden door machine learning-modellen.

Daarom moeten we categorische gegevens omzetten naar numerieke waarden.

Verschillende schalen

'culmen_depth_mm'-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g' als veel belangrijker beschouwen dan 'culmen_depth_mm'.

Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.

question-icon

Koppel het probleem aan een manier om het op te lossen.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 3.13

bookKennismaken met de Dataset

Veeg om het menu te tonen

Laten we beginnen met het verkennen van de dataset voor het preprocessen. Gedurende de cursus gebruiken we de penguin dataset. De opdracht is het voorspellen van een pinguïnsoort.

Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:

De kenmerken zijn: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' en 'sex'.

De gegevens bevinden zich in het bestand penguins.csv. We laden dit bestand vanaf een link met de functie pd.read_csv() en bekijken de inhoud:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Bij het bekijken van deze dataset kunnen we al enkele problemen identificeren die opgelost moeten worden. Deze zijn:

  • Ontbrekende gegevens;
  • Categorievariabelen;
  • Verschillende schalen.

Ontbrekende gegevens

De meeste ML-algoritmen kunnen niet automatisch omgaan met ontbrekende waarden, dus moeten we deze verwijderen (of vervangen door bepaalde waarden, wat imputatie wordt genoemd) voordat we de trainingsset aan een model aanbieden.

pandas vult lege cellen van de tabel met NaN. De meeste ML-modellen zullen een foutmelding geven als er ten minste één NaN in de gegevens aanwezig is.

Categorische gegevens

De gegevens bevatten categorische gegevens, waarvan we al weten dat deze niet verwerkt kunnen worden door machine learning-modellen.

Daarom moeten we categorische gegevens omzetten naar numerieke waarden.

Verschillende schalen

'culmen_depth_mm'-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g' als veel belangrijker beschouwen dan 'culmen_depth_mm'.

Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.

question-icon

Koppel het probleem aan een manier om het op te lossen.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2
some-alt