Uitdaging: Alles Samenbrengen
In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.





Swipe to start coding
Je krijgt een dataset met pinguïns. Het doel is om een machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model, waarbij je op de juiste manier omgaat met codering, ontbrekende waarden en parameteroptimalisatie.
- Codeer de doelvariabele met
LabelEncoder
. - Splits de dataset in trainings- en testsets met
test_size=0.33
. - Maak een ColumnTransformer (
ct
) die alleen de kolommen'island'
en'sex'
codeert met een geschikte encoder voor nominale data (OneHotEncoder
) en de overige kolommen ongemoeid laat. - Definieer een parameterrooster (
param_grid
) met de volgende waarden voorn_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Maak een
GridSearchCV
-object metKNeighborsClassifier
als basisestimator enparam_grid
als parameters. - Bouw een pijplijn bestaande uit:
- de
ColumnTransformer
(ct
); - een
SimpleImputer
(strategie ='most_frequent'
); - een
StandardScaler
; - en de
GridSearchCV
als laatste stap.
- Train de pijplijn met de trainingsdata (
X_train
,y_train
). - Evalueer het model op de testdata door de
.score(X_test, y_test)
af te drukken. - Voorspel op de testset en druk de eerste 5 gedecodeerde voorspellingen af met
label_enc.inverse_transform()
. - Druk tot slot de beste estimator af die door
GridSearchCV
is gevonden.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you provide the dataset we'll be working with?
What type of model should I use for this challenge?
Could you outline the specific steps involved in the workflow?
Awesome!
Completion rate improved to 3.13
Uitdaging: Alles Samenbrengen
Veeg om het menu te tonen
In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.





Swipe to start coding
Je krijgt een dataset met pinguïns. Het doel is om een machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model, waarbij je op de juiste manier omgaat met codering, ontbrekende waarden en parameteroptimalisatie.
- Codeer de doelvariabele met
LabelEncoder
. - Splits de dataset in trainings- en testsets met
test_size=0.33
. - Maak een ColumnTransformer (
ct
) die alleen de kolommen'island'
en'sex'
codeert met een geschikte encoder voor nominale data (OneHotEncoder
) en de overige kolommen ongemoeid laat. - Definieer een parameterrooster (
param_grid
) met de volgende waarden voorn_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Maak een
GridSearchCV
-object metKNeighborsClassifier
als basisestimator enparam_grid
als parameters. - Bouw een pijplijn bestaande uit:
- de
ColumnTransformer
(ct
); - een
SimpleImputer
(strategie ='most_frequent'
); - een
StandardScaler
; - en de
GridSearchCV
als laatste stap.
- Train de pijplijn met de trainingsdata (
X_train
,y_train
). - Evalueer het model op de testdata door de
.score(X_test, y_test)
af te drukken. - Voorspel op de testset en druk de eerste 5 gedecodeerde voorspellingen af met
label_enc.inverse_transform()
. - Druk tot slot de beste estimator af die door
GridSearchCV
is gevonden.
Oplossing
Bedankt voor je feedback!
single