Kennismaken Met De Dataset
Begin met het verkennen van de dataset voor het preprocessen. In deze cursus wordt de pinguïn-dataset gebruikt, met als doel het voorspellen van de soort van een pinguïn.
Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:
De kenmerken zijn: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
en 'sex'
.
De dataset is opgeslagen in het bestand penguins.csv
. Deze kan worden geladen vanaf een link met de functie pd.read_csv()
om de inhoud te bekijken:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Deze dataset bevat verschillende problemen die moeten worden aangepakt:
- Ontbrekende gegevens;
- Categorische variabelen;
- Verschillende schaalniveaus van kenmerken.
Ontbrekende gegevens
De meeste ML-algoritmen kunnen niet direct omgaan met ontbrekende waarden, dus deze moeten vóór het trainen worden aangepakt. Ontbrekende waarden kunnen worden verwijderd of geïmpteerd (vervangen door vervangende waarden).
In pandas
worden lege cellen weergegeven als NaN
. Veel ML-modellen zullen een foutmelding geven als de dataset zelfs maar één NaN
bevat.
Categorische gegevens
De dataset bevat categorische variabelen, die machine learning-modellen niet direct kunnen verwerken.
Categorische gegevens moeten worden gecodeerd naar numerieke vorm.
Verschillende schalen
'culmen_depth_mm'
-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'
-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g'
als veel belangrijker beschouwen dan 'culmen_depth_mm'
.
Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
What are the three classes of penguins in the dataset?
How do I handle missing data in the penguin dataset?
Can you explain how to encode categorical variables for machine learning?
Awesome!
Completion rate improved to 3.13
Kennismaken Met De Dataset
Veeg om het menu te tonen
Begin met het verkennen van de dataset voor het preprocessen. In deze cursus wordt de pinguïn-dataset gebruikt, met als doel het voorspellen van de soort van een pinguïn.
Er zijn drie mogelijke opties, die in machine learning vaak klassen worden genoemd:
De kenmerken zijn: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
en 'sex'
.
De dataset is opgeslagen in het bestand penguins.csv
. Deze kan worden geladen vanaf een link met de functie pd.read_csv()
om de inhoud te bekijken:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Deze dataset bevat verschillende problemen die moeten worden aangepakt:
- Ontbrekende gegevens;
- Categorische variabelen;
- Verschillende schaalniveaus van kenmerken.
Ontbrekende gegevens
De meeste ML-algoritmen kunnen niet direct omgaan met ontbrekende waarden, dus deze moeten vóór het trainen worden aangepakt. Ontbrekende waarden kunnen worden verwijderd of geïmpteerd (vervangen door vervangende waarden).
In pandas
worden lege cellen weergegeven als NaN
. Veel ML-modellen zullen een foutmelding geven als de dataset zelfs maar één NaN
bevat.
Categorische gegevens
De dataset bevat categorische variabelen, die machine learning-modellen niet direct kunnen verwerken.
Categorische gegevens moeten worden gecodeerd naar numerieke vorm.
Verschillende schalen
'culmen_depth_mm'
-waarden variëren van 13.1 tot 21.5, terwijl 'body_mass_g'
-waarden variëren van 2700 tot 6300. Hierdoor kunnen sommige ML-modellen de eigenschap 'body_mass_g'
als veel belangrijker beschouwen dan 'culmen_depth_mm'
.
Schalen lost dit probleem op. Dit wordt behandeld in latere hoofdstukken.
Bedankt voor je feedback!