Sfida: Mettere Tutto Insieme
In questa sfida, applicare l'intero workflow appreso nel corso — dalla preprocessazione dei dati fino all'addestramento e alla valutazione del modello.
Swipe to start coding
Stai lavorando con un dataset di pinguini. Il tuo obiettivo è costruire una pipeline completa di machine learning che classifichi le specie di pinguini utilizzando un modello K-Nearest Neighbors (KNN). La pipeline deve gestire la codifica delle variabili categoriche, i valori mancanti, la normalizzazione delle feature e l'ottimizzazione dei parametri.
- Codifica la variabile target
yutilizzando la classeLabelEncoder. - Suddividi il dataset in set di addestramento e di test utilizzando
train_test_split()contest_size=0.33. - Crea un
ColumnTransformerchiamatoctche applica unOneHotEncoderalle colonne'island'e'sex', lasciando invariate tutte le altre colonne (remainder='passthrough'). - Definisci una griglia di parametri
param_gridche contenga i seguenti valori pern_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], e includa'weights'('uniform','distance') e'p'(1,2). - Crea un oggetto
GridSearchCVutilizzandoKNeighborsClassifier()come stimatore eparam_gridcome griglia dei parametri. - Costruisci una pipeline che includa i seguenti passaggi nell'ordine:
- Il
ColumnTransformer(ct); - Un
SimpleImputercon la strategia impostata su'most_frequent'; - Uno
StandardScalerper la normalizzazione delle feature; - L'oggetto
GridSearchCVcome passaggio finale.
- Allena la pipeline sui dati di addestramento (
X_train,y_train) utilizzando il metodo.fit(). - Valuta le prestazioni del modello stampando il punteggio sul test set tramite
.score(X_test, y_test). - Genera le predizioni sui dati di test e stampa i primi 5 nomi di classe decodificati utilizzando
label_enc.inverse_transform(). - Stampa il miglior stimatore trovato da
GridSearchCVutilizzando l'attributo.best_estimator_.
Soluzione
Grazie per i tuoi commenti!
single
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Sfida: Mettere Tutto Insieme
Scorri per mostrare il menu
In questa sfida, applicare l'intero workflow appreso nel corso — dalla preprocessazione dei dati fino all'addestramento e alla valutazione del modello.
Swipe to start coding
Stai lavorando con un dataset di pinguini. Il tuo obiettivo è costruire una pipeline completa di machine learning che classifichi le specie di pinguini utilizzando un modello K-Nearest Neighbors (KNN). La pipeline deve gestire la codifica delle variabili categoriche, i valori mancanti, la normalizzazione delle feature e l'ottimizzazione dei parametri.
- Codifica la variabile target
yutilizzando la classeLabelEncoder. - Suddividi il dataset in set di addestramento e di test utilizzando
train_test_split()contest_size=0.33. - Crea un
ColumnTransformerchiamatoctche applica unOneHotEncoderalle colonne'island'e'sex', lasciando invariate tutte le altre colonne (remainder='passthrough'). - Definisci una griglia di parametri
param_gridche contenga i seguenti valori pern_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], e includa'weights'('uniform','distance') e'p'(1,2). - Crea un oggetto
GridSearchCVutilizzandoKNeighborsClassifier()come stimatore eparam_gridcome griglia dei parametri. - Costruisci una pipeline che includa i seguenti passaggi nell'ordine:
- Il
ColumnTransformer(ct); - Un
SimpleImputercon la strategia impostata su'most_frequent'; - Uno
StandardScalerper la normalizzazione delle feature; - L'oggetto
GridSearchCVcome passaggio finale.
- Allena la pipeline sui dati di addestramento (
X_train,y_train) utilizzando il metodo.fit(). - Valuta le prestazioni del modello stampando il punteggio sul test set tramite
.score(X_test, y_test). - Genera le predizioni sui dati di test e stampa i primi 5 nomi di classe decodificati utilizzando
label_enc.inverse_transform(). - Stampa il miglior stimatore trovato da
GridSearchCVutilizzando l'attributo.best_estimator_.
Soluzione
Grazie per i tuoi commenti!
single