Utfordring: Sette Alt Sammen
I denne utfordringen skal du anvende hele arbeidsflyten du har lært i kurset — fra dataprosessering via trening til modelevaluering.
Swipe to start coding
Du arbeider med et datasett over pingviner. Målet ditt er å bygge en komplett maskinlærings-pipeline som klassifiserer pingvinarter ved hjelp av en K-Nearest Neighbors (KNN)-modell. Pipelinen skal håndtere kategorisk koding, manglende verdier, skalering av variabler og parameterjustering.
- Kode målvariabelen
yved å bruke klassenLabelEncoder. - Del datasettet i trenings- og testsett med
train_test_split()ogtest_size=0.33. - Lag en
ColumnTransformerkaltctsom bruker enOneHotEncoderpå kolonnene'island'og'sex', og lar alle andre kolonner være uendret (remainder='passthrough'). - Definer et parametergrid
param_gridsom inneholder følgende verdier forn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], og inkluder'weights'('uniform','distance') og'p'(1,2). - Lag et
GridSearchCV-objekt medKNeighborsClassifier()som estimator ogparam_gridsom parametergrid. - Bygg en pipeline som inkluderer følgende steg i rekkefølge:
ColumnTransformer(ct);- En
SimpleImputermed strategi satt til'most_frequent'; - En
StandardScalerfor skalering av variabler;GridSearchCV-objektet som siste steg.
- Tren pipelinen på treningsdataene (
X_train,y_train) ved å bruke.fit()-metoden. - Evaluer modellens ytelse ved å skrive ut testscoren med
.score(X_test, y_test). - Generer prediksjoner på testdataene og skriv ut de første 5 dekodede klassenavnene ved å bruke
label_enc.inverse_transform(). - Skriv ut den beste estimatoren funnet av
GridSearchCVved å bruke attributtet.best_estimator_.
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Utfordring: Sette Alt Sammen
Sveip for å vise menyen
I denne utfordringen skal du anvende hele arbeidsflyten du har lært i kurset — fra dataprosessering via trening til modelevaluering.
Swipe to start coding
Du arbeider med et datasett over pingviner. Målet ditt er å bygge en komplett maskinlærings-pipeline som klassifiserer pingvinarter ved hjelp av en K-Nearest Neighbors (KNN)-modell. Pipelinen skal håndtere kategorisk koding, manglende verdier, skalering av variabler og parameterjustering.
- Kode målvariabelen
yved å bruke klassenLabelEncoder. - Del datasettet i trenings- og testsett med
train_test_split()ogtest_size=0.33. - Lag en
ColumnTransformerkaltctsom bruker enOneHotEncoderpå kolonnene'island'og'sex', og lar alle andre kolonner være uendret (remainder='passthrough'). - Definer et parametergrid
param_gridsom inneholder følgende verdier forn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], og inkluder'weights'('uniform','distance') og'p'(1,2). - Lag et
GridSearchCV-objekt medKNeighborsClassifier()som estimator ogparam_gridsom parametergrid. - Bygg en pipeline som inkluderer følgende steg i rekkefølge:
ColumnTransformer(ct);- En
SimpleImputermed strategi satt til'most_frequent'; - En
StandardScalerfor skalering av variabler;GridSearchCV-objektet som siste steg.
- Tren pipelinen på treningsdataene (
X_train,y_train) ved å bruke.fit()-metoden. - Evaluer modellens ytelse ved å skrive ut testscoren med
.score(X_test, y_test). - Generer prediksjoner på testdataene og skriv ut de første 5 dekodede klassenavnene ved å bruke
label_enc.inverse_transform(). - Skriv ut den beste estimatoren funnet av
GridSearchCVved å bruke attributtet.best_estimator_.
Løsning
Takk for tilbakemeldingene dine!
single