Utmaning: Sätta Ihop Allt
I denna utmaning tillämpar du hela arbetsflödet som du har lärt dig i kursen — från datapreprocessering till träning och modelevaluering.
Swipe to start coding
Du arbetar med en dataset av pingviner. Ditt mål är att bygga en komplett maskininlärningspipeline som klassificerar pingvinarter med hjälp av en K-Nearest Neighbors (KNN)-modell. Pipelinen ska hantera kategorisk kodning, saknade värden, skalning av variabler och parameteroptimering.
- Koda målvariabeln
ymed hjälp av klassenLabelEncoder. - Dela upp datasetet i tränings- och testmängder med
train_test_split()ochtest_size=0.33. - Skapa en
ColumnTransformermed namnetctsom applicerar enOneHotEncoderpå kolumnerna'island'och'sex', och lämnar övriga kolumner oförändrade (remainder='passthrough'). - Definiera ett parameternät
param_gridsom innehåller följande värden förn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], samt inkluderar'weights'('uniform','distance') och'p'(1,2). - Skapa ett
GridSearchCV-objekt medKNeighborsClassifier()som estimator ochparam_gridsom parameternät. - Bygg en pipeline som inkluderar följande steg i ordning:
ColumnTransformer(ct);- En
SimpleImputermed strategin satt till'most_frequent'; - En
StandardScalerför skalning av variabler;GridSearchCV-objektet som sista steg.
- Träna pipelinen på träningsdatan (
X_train,y_train) med.fit()-metoden. - Utvärdera modellens prestanda genom att skriva ut testresultatet med
.score(X_test, y_test). - Generera prediktioner på testdatan och skriv ut de första 5 avkodade klassnamnen med
label_enc.inverse_transform(). - Skriv ut den bästa estimatorn som hittats av
GridSearchCVmed attributet.best_estimator_.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 3.13
Utmaning: Sätta Ihop Allt
Svep för att visa menyn
I denna utmaning tillämpar du hela arbetsflödet som du har lärt dig i kursen — från datapreprocessering till träning och modelevaluering.
Swipe to start coding
Du arbetar med en dataset av pingviner. Ditt mål är att bygga en komplett maskininlärningspipeline som klassificerar pingvinarter med hjälp av en K-Nearest Neighbors (KNN)-modell. Pipelinen ska hantera kategorisk kodning, saknade värden, skalning av variabler och parameteroptimering.
- Koda målvariabeln
ymed hjälp av klassenLabelEncoder. - Dela upp datasetet i tränings- och testmängder med
train_test_split()ochtest_size=0.33. - Skapa en
ColumnTransformermed namnetctsom applicerar enOneHotEncoderpå kolumnerna'island'och'sex', och lämnar övriga kolumner oförändrade (remainder='passthrough'). - Definiera ett parameternät
param_gridsom innehåller följande värden förn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], samt inkluderar'weights'('uniform','distance') och'p'(1,2). - Skapa ett
GridSearchCV-objekt medKNeighborsClassifier()som estimator ochparam_gridsom parameternät. - Bygg en pipeline som inkluderar följande steg i ordning:
ColumnTransformer(ct);- En
SimpleImputermed strategin satt till'most_frequent'; - En
StandardScalerför skalning av variabler;GridSearchCV-objektet som sista steg.
- Träna pipelinen på träningsdatan (
X_train,y_train) med.fit()-metoden. - Utvärdera modellens prestanda genom att skriva ut testresultatet med
.score(X_test, y_test). - Generera prediktioner på testdatan och skriv ut de första 5 avkodade klassnamnen med
label_enc.inverse_transform(). - Skriv ut den bästa estimatorn som hittats av
GridSearchCVmed attributet.best_estimator_.
Lösning
Tack för dina kommentarer!
single