Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Udfordring: At Samle Det Hele | Modellering
ML Introduktion med Scikit-learn

bookUdfordring: At Samle Det Hele

I denne udfordring anvendes hele arbejdsgangen, der er lært i kurset — fra datapreprocessering over træning til modelevaluering.

Opgave

Swipe to start coding

Du får et datasæt med pingviner. Dit mål er at opbygge en maskinlæringspipeline, der klassificerer pingvinarter ved hjælp af en K-Nearest Neighbors (KNN)-model, samtidig med at du håndterer kodning, manglende værdier og parameteroptimering korrekt.

  1. Kod målvariablen ved hjælp af LabelEncoder.
  2. Opdel datasættet i trænings- og testdatasæt med test_size=0.33.
  3. Opret en ColumnTransformer (ct), der kun koder kolonnerne 'island' og 'sex' med en passende encoder til nominale data (OneHotEncoder) og lader de øvrige kolonner være uændrede.
  4. Definér et parametergrid (param_grid), der inkluderer følgende værdier for n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25].
  5. Opret et GridSearchCV-objekt med KNeighborsClassifier som grundmodel og param_grid som dets parametre.
  6. Byg en pipeline bestående af:
  • ColumnTransformer (ct);
  • en SimpleImputer (strategi = 'most_frequent');
  • en StandardScaler;
  • og GridSearchCV som sidste trin.
  1. Træn pipelinen ved hjælp af træningsdataene (X_train, y_train).
  2. Evaluer modellen på testdataene ved at udskrive dens .score(X_test, y_test).
  3. Forudsig på testdatasættet og udskriv de første 5 dekodede forudsigelser ved hjælp af label_enc.inverse_transform().
  4. Til sidst udskrives den bedste estimator, som GridSearchCV har fundet.

Løsning

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 10
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

close

Awesome!

Completion rate improved to 3.13

bookUdfordring: At Samle Det Hele

Stryg for at vise menuen

I denne udfordring anvendes hele arbejdsgangen, der er lært i kurset — fra datapreprocessering over træning til modelevaluering.

Opgave

Swipe to start coding

Du får et datasæt med pingviner. Dit mål er at opbygge en maskinlæringspipeline, der klassificerer pingvinarter ved hjælp af en K-Nearest Neighbors (KNN)-model, samtidig med at du håndterer kodning, manglende værdier og parameteroptimering korrekt.

  1. Kod målvariablen ved hjælp af LabelEncoder.
  2. Opdel datasættet i trænings- og testdatasæt med test_size=0.33.
  3. Opret en ColumnTransformer (ct), der kun koder kolonnerne 'island' og 'sex' med en passende encoder til nominale data (OneHotEncoder) og lader de øvrige kolonner være uændrede.
  4. Definér et parametergrid (param_grid), der inkluderer følgende værdier for n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25].
  5. Opret et GridSearchCV-objekt med KNeighborsClassifier som grundmodel og param_grid som dets parametre.
  6. Byg en pipeline bestående af:
  • ColumnTransformer (ct);
  • en SimpleImputer (strategi = 'most_frequent');
  • en StandardScaler;
  • og GridSearchCV som sidste trin.
  1. Træn pipelinen ved hjælp af træningsdataene (X_train, y_train).
  2. Evaluer modellen på testdataene ved at udskrive dens .score(X_test, y_test).
  3. Forudsig på testdatasættet og udskriv de første 5 dekodede forudsigelser ved hjælp af label_enc.inverse_transform().
  4. Til sidst udskrives den bedste estimator, som GridSearchCV har fundet.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 10
single

single

some-alt