Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Kennismaken Met De Dataset | Gegevens Preprocessen Met Scikit-learn
ML-Introductie Met Scikit-Learn

bookKennismaken Met De Dataset

Begin met het verkennen van de dataset voor het preprocessen. In deze cursus wordt de penguin dataset gebruikt, met als doel het voorspellen van de soort van een pinguïn.

Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:

De kenmerken zijn: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' en 'sex'.

De dataset is opgeslagen in het bestand penguins.csv. Deze kan worden geladen via een link met de functie pd.read_csv() om de inhoud te bekijken:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Deze dataset bevat verschillende problemen die moeten worden aangepakt:

  • Ontbrekende gegevens;
  • Categorische variabelen;
  • Verschillende schaalniveaus van kenmerken.

Ontbrekende gegevens

De meeste ML-algoritmen kunnen ontbrekende waarden niet direct verwerken, dus deze moeten worden aangepakt voordat met trainen wordt begonnen. Ontbrekende waarden kunnen worden verwijderd of geïmputeerd (vervangen door alternatieve waarden).

In pandas worden lege cellen weergegeven als NaN. Veel ML-modellen zullen een foutmelding geven als de dataset zelfs maar één NaN bevat.

Categorische gegevens

De dataset bevat categorische variabelen, die niet direct door machine learning-modellen kunnen worden verwerkt.

Categorische gegevens moeten worden gecodeerd naar numerieke vorm.

Verschillende schalen

'culmen_depth_mm'-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g' als veel belangrijker beschouwen dan 'culmen_depth_mm'.

Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.

question-icon

Koppel het probleem aan een manier om het op te lossen.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 3.13

bookKennismaken Met De Dataset

Veeg om het menu te tonen

Begin met het verkennen van de dataset voor het preprocessen. In deze cursus wordt de penguin dataset gebruikt, met als doel het voorspellen van de soort van een pinguïn.

Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:

De kenmerken zijn: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' en 'sex'.

De dataset is opgeslagen in het bestand penguins.csv. Deze kan worden geladen via een link met de functie pd.read_csv() om de inhoud te bekijken:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Deze dataset bevat verschillende problemen die moeten worden aangepakt:

  • Ontbrekende gegevens;
  • Categorische variabelen;
  • Verschillende schaalniveaus van kenmerken.

Ontbrekende gegevens

De meeste ML-algoritmen kunnen ontbrekende waarden niet direct verwerken, dus deze moeten worden aangepakt voordat met trainen wordt begonnen. Ontbrekende waarden kunnen worden verwijderd of geïmputeerd (vervangen door alternatieve waarden).

In pandas worden lege cellen weergegeven als NaN. Veel ML-modellen zullen een foutmelding geven als de dataset zelfs maar één NaN bevat.

Categorische gegevens

De dataset bevat categorische variabelen, die niet direct door machine learning-modellen kunnen worden verwerkt.

Categorische gegevens moeten worden gecodeerd naar numerieke vorm.

Verschillende schalen

'culmen_depth_mm'-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g' als veel belangrijker beschouwen dan 'culmen_depth_mm'.

Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.

question-icon

Koppel het probleem aan een manier om het op te lossen.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 2
some-alt