Udfordring: Samle Det Hele
I denne udfordring anvendes hele arbejdsgangen, der er gennemgået i kurset — fra datapreprocessering over træning til modelevaluering.
Swipe to start coding
Du arbejder med et datasæt over pingviner. Dit mål er at opbygge en komplet maskinlæringspipeline, der klassificerer pingvinarter ved hjælp af en K-Nearest Neighbors (KNN)-model. Pipenlinen skal håndtere kategorisk kodning, manglende værdier, feature-skalering og parameter-tuning.
- Kod målvariablen
yved hjælp af klassenLabelEncoder. - Opdel datasættet i trænings- og testdatasæt med
train_test_split()ogtest_size=0.33. - Opret en
ColumnTransformermed navnetct, der anvender enOneHotEncoderpå kolonnerne'island'og'sex', mens alle andre kolonner forbliver uændrede (remainder='passthrough'). - Definér et parameterrum
param_grid, der indeholder følgende værdier forn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], samt inkluderer'weights'('uniform','distance') og'p'(1,2). - Opret et
GridSearchCV-objekt medKNeighborsClassifier()som estimator ogparam_gridsom parameterrum. - Byg en pipeline, der indeholder følgende trin i rækkefølge:
ColumnTransformer(ct);- En
SimpleImputermed strategien sat til'most_frequent';- En
StandardScalertil feature-skalering; GridSearchCV-objektet som sidste trin.
- En
- Træn pipelinen på træningsdataene (
X_train,y_train) ved hjælp af.fit()-metoden. - Evaluer modellens præstation ved at udskrive testscoren med
.score(X_test, y_test). - Generér forudsigelser på testdataene og udskriv de første 5 dekodede klassenavne ved hjælp af
label_enc.inverse_transform(). - Udskriv den bedste estimator fundet af
GridSearchCVved hjælp af attributten.best_estimator_.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 3.13
Udfordring: Samle Det Hele
Stryg for at vise menuen
I denne udfordring anvendes hele arbejdsgangen, der er gennemgået i kurset — fra datapreprocessering over træning til modelevaluering.
Swipe to start coding
Du arbejder med et datasæt over pingviner. Dit mål er at opbygge en komplet maskinlæringspipeline, der klassificerer pingvinarter ved hjælp af en K-Nearest Neighbors (KNN)-model. Pipenlinen skal håndtere kategorisk kodning, manglende værdier, feature-skalering og parameter-tuning.
- Kod målvariablen
yved hjælp af klassenLabelEncoder. - Opdel datasættet i trænings- og testdatasæt med
train_test_split()ogtest_size=0.33. - Opret en
ColumnTransformermed navnetct, der anvender enOneHotEncoderpå kolonnerne'island'og'sex', mens alle andre kolonner forbliver uændrede (remainder='passthrough'). - Definér et parameterrum
param_grid, der indeholder følgende værdier forn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], samt inkluderer'weights'('uniform','distance') og'p'(1,2). - Opret et
GridSearchCV-objekt medKNeighborsClassifier()som estimator ogparam_gridsom parameterrum. - Byg en pipeline, der indeholder følgende trin i rækkefølge:
ColumnTransformer(ct);- En
SimpleImputermed strategien sat til'most_frequent';- En
StandardScalertil feature-skalering; GridSearchCV-objektet som sidste trin.
- En
- Træn pipelinen på træningsdataene (
X_train,y_train) ved hjælp af.fit()-metoden. - Evaluer modellens præstation ved at udskrive testscoren med
.score(X_test, y_test). - Generér forudsigelser på testdataene og udskriv de første 5 dekodede klassenavne ved hjælp af
label_enc.inverse_transform(). - Udskriv den bedste estimator fundet af
GridSearchCVved hjælp af attributten.best_estimator_.
Løsning
Tak for dine kommentarer!
single