Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitdaging: Alles Samenbrengen | Modelleren
ML-Introductie met Scikit-learn

bookUitdaging: Alles Samenbrengen

In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.

carousel-imgcarousel-imgcarousel-imgcarousel-imgcarousel-img
Taak

Swipe to start coding

Je krijgt een dataset met pinguïns. Het doel is om een machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model, waarbij je op de juiste manier omgaat met codering, ontbrekende waarden en parameteroptimalisatie.

  1. Codeer de doelvariabele met LabelEncoder.
  2. Splits de dataset in trainings- en testsets met test_size=0.33.
  3. Maak een ColumnTransformer (ct) die alleen de kolommen 'island' en 'sex' codeert met een geschikte encoder voor nominale data (OneHotEncoder) en de overige kolommen ongemoeid laat.
  4. Definieer een parameterrooster (param_grid) met de volgende waarden voor n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25].
  5. Maak een GridSearchCV-object met KNeighborsClassifier als basisestimator en param_grid als parameters.
  6. Bouw een pijplijn bestaande uit:
  • de ColumnTransformer (ct);
  • een SimpleImputer (strategie = 'most_frequent');
  • een StandardScaler;
  • en de GridSearchCV als laatste stap.
  1. Train de pijplijn met de trainingsdata (X_train, y_train).
  2. Evalueer het model op de testdata door de .score(X_test, y_test) af te drukken.
  3. Voorspel op de testset en druk de eerste 5 gedecodeerde voorspellingen af met label_enc.inverse_transform().
  4. Druk tot slot de beste estimator af die door GridSearchCV is gevonden.

Oplossing

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 10
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you provide the dataset we'll be working with?

What type of model should I use for this challenge?

Could you outline the specific steps involved in the workflow?

close

Awesome!

Completion rate improved to 3.13

bookUitdaging: Alles Samenbrengen

Veeg om het menu te tonen

In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.

carousel-imgcarousel-imgcarousel-imgcarousel-imgcarousel-img
Taak

Swipe to start coding

Je krijgt een dataset met pinguïns. Het doel is om een machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model, waarbij je op de juiste manier omgaat met codering, ontbrekende waarden en parameteroptimalisatie.

  1. Codeer de doelvariabele met LabelEncoder.
  2. Splits de dataset in trainings- en testsets met test_size=0.33.
  3. Maak een ColumnTransformer (ct) die alleen de kolommen 'island' en 'sex' codeert met een geschikte encoder voor nominale data (OneHotEncoder) en de overige kolommen ongemoeid laat.
  4. Definieer een parameterrooster (param_grid) met de volgende waarden voor n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25].
  5. Maak een GridSearchCV-object met KNeighborsClassifier als basisestimator en param_grid als parameters.
  6. Bouw een pijplijn bestaande uit:
  • de ColumnTransformer (ct);
  • een SimpleImputer (strategie = 'most_frequent');
  • een StandardScaler;
  • en de GridSearchCV als laatste stap.
  1. Train de pijplijn met de trainingsdata (X_train, y_train).
  2. Evalueer het model op de testdata door de .score(X_test, y_test) af te drukken.
  3. Voorspel op de testset en druk de eerste 5 gedecodeerde voorspellingen af met label_enc.inverse_transform().
  4. Druk tot slot de beste estimator af die door GridSearchCV is gevonden.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 10
single

single

some-alt