Sfida: Mettere Tutto Insieme
In questa sfida, applicare l'intero workflow appreso nel corso — dalla preprocessazione dei dati fino all'addestramento e alla valutazione del modello.
Swipe to start coding
Ti viene fornito un dataset di pinguini. L'obiettivo è costruire una pipeline di machine learning che classifichi le specie di pinguini utilizzando un modello K-Nearest Neighbors (KNN), gestendo correttamente la codifica, i valori mancanti e l'ottimizzazione dei parametri.
- Codifica la variabile target utilizzando
LabelEncoder
. - Dividi il dataset in set di addestramento e test con
test_size=0.33
. - Crea un ColumnTransformer (
ct
) che codifica solo le colonne'island'
e'sex'
utilizzando un encoder adatto per dati nominali (OneHotEncoder
) e lascia le altre colonne inalterate. - Definisci una griglia di parametri (
param_grid
) che includa i seguenti valori pern_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Crea un oggetto
GridSearchCV
conKNeighborsClassifier
come stimatore di base eparam_grid
come parametri. - Costruisci una pipeline composta da:
- il
ColumnTransformer
(ct
); - un
SimpleImputer
(strategy ='most_frequent'
); - uno
StandardScaler
; - e il
GridSearchCV
come passaggio finale.
- Allena la pipeline utilizzando i dati di addestramento (
X_train
,y_train
). - Valuta il modello sui dati di test stampando il suo
.score(X_test, y_test)
. - Predici sul set di test e stampa le prime 5 predizioni decodificate utilizzando
label_enc.inverse_transform()
. - Infine, stampa il miglior stimatore trovato da
GridSearchCV
.
Soluzione
Grazie per i tuoi commenti!
single
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 3.13
Sfida: Mettere Tutto Insieme
Scorri per mostrare il menu
In questa sfida, applicare l'intero workflow appreso nel corso — dalla preprocessazione dei dati fino all'addestramento e alla valutazione del modello.
Swipe to start coding
Ti viene fornito un dataset di pinguini. L'obiettivo è costruire una pipeline di machine learning che classifichi le specie di pinguini utilizzando un modello K-Nearest Neighbors (KNN), gestendo correttamente la codifica, i valori mancanti e l'ottimizzazione dei parametri.
- Codifica la variabile target utilizzando
LabelEncoder
. - Dividi il dataset in set di addestramento e test con
test_size=0.33
. - Crea un ColumnTransformer (
ct
) che codifica solo le colonne'island'
e'sex'
utilizzando un encoder adatto per dati nominali (OneHotEncoder
) e lascia le altre colonne inalterate. - Definisci una griglia di parametri (
param_grid
) che includa i seguenti valori pern_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Crea un oggetto
GridSearchCV
conKNeighborsClassifier
come stimatore di base eparam_grid
come parametri. - Costruisci una pipeline composta da:
- il
ColumnTransformer
(ct
); - un
SimpleImputer
(strategy ='most_frequent'
); - uno
StandardScaler
; - e il
GridSearchCV
come passaggio finale.
- Allena la pipeline utilizzando i dati di addestramento (
X_train
,y_train
). - Valuta il modello sui dati di test stampando il suo
.score(X_test, y_test)
. - Predici sul set di test e stampa le prime 5 predizioni decodificate utilizzando
label_enc.inverse_transform()
. - Infine, stampa il miglior stimatore trovato da
GridSearchCV
.
Soluzione
Grazie per i tuoi commenti!
single