Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Sfida: Mettere Tutto Insieme | Modellazione
Introduzione al ML con Scikit-Learn

bookSfida: Mettere Tutto Insieme

In questa sfida, applicare l'intero workflow appreso nel corso — dalla preprocessazione dei dati fino all'addestramento e alla valutazione del modello.

Compito

Swipe to start coding

Stai lavorando con un dataset di pinguini. Il tuo obiettivo è costruire una pipeline completa di machine learning che classifichi le specie di pinguini utilizzando un modello K-Nearest Neighbors (KNN). La pipeline deve gestire la codifica delle variabili categoriche, i valori mancanti, la normalizzazione delle feature e l'ottimizzazione dei parametri.

  1. Codifica la variabile target y utilizzando la classe LabelEncoder.
  2. Suddividi il dataset in set di addestramento e di test utilizzando train_test_split() con test_size=0.33.
  3. Crea un ColumnTransformer chiamato ct che applica un OneHotEncoder alle colonne 'island' e 'sex', lasciando invariate tutte le altre colonne (remainder='passthrough').
  4. Definisci una griglia di parametri param_grid che contenga i seguenti valori per n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], e includa 'weights' ('uniform', 'distance') e 'p' (1, 2).
  5. Crea un oggetto GridSearchCV utilizzando KNeighborsClassifier() come stimatore e param_grid come griglia dei parametri.
  6. Costruisci una pipeline che includa i seguenti passaggi nell'ordine:
  • Il ColumnTransformer (ct);
  • Un SimpleImputer con la strategia impostata su 'most_frequent';
  • Uno StandardScaler per la normalizzazione delle feature;
  • L'oggetto GridSearchCV come passaggio finale.
  1. Allena la pipeline sui dati di addestramento (X_train, y_train) utilizzando il metodo .fit().
  2. Valuta le prestazioni del modello stampando il punteggio sul test set tramite .score(X_test, y_test).
  3. Genera le predizioni sui dati di test e stampa i primi 5 nomi di classe decodificati utilizzando label_enc.inverse_transform().
  4. Stampa il miglior stimatore trovato da GridSearchCV utilizzando l'attributo .best_estimator_.

Soluzione

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 10
single

single

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the steps involved in the full workflow shown here?

What is the purpose of each tool or method depicted in the images?

Can you provide a summary of how these components work together in a machine learning project?

close

Awesome!

Completion rate improved to 3.13

bookSfida: Mettere Tutto Insieme

Scorri per mostrare il menu

In questa sfida, applicare l'intero workflow appreso nel corso — dalla preprocessazione dei dati fino all'addestramento e alla valutazione del modello.

Compito

Swipe to start coding

Stai lavorando con un dataset di pinguini. Il tuo obiettivo è costruire una pipeline completa di machine learning che classifichi le specie di pinguini utilizzando un modello K-Nearest Neighbors (KNN). La pipeline deve gestire la codifica delle variabili categoriche, i valori mancanti, la normalizzazione delle feature e l'ottimizzazione dei parametri.

  1. Codifica la variabile target y utilizzando la classe LabelEncoder.
  2. Suddividi il dataset in set di addestramento e di test utilizzando train_test_split() con test_size=0.33.
  3. Crea un ColumnTransformer chiamato ct che applica un OneHotEncoder alle colonne 'island' e 'sex', lasciando invariate tutte le altre colonne (remainder='passthrough').
  4. Definisci una griglia di parametri param_grid che contenga i seguenti valori per n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], e includa 'weights' ('uniform', 'distance') e 'p' (1, 2).
  5. Crea un oggetto GridSearchCV utilizzando KNeighborsClassifier() come stimatore e param_grid come griglia dei parametri.
  6. Costruisci una pipeline che includa i seguenti passaggi nell'ordine:
  • Il ColumnTransformer (ct);
  • Un SimpleImputer con la strategia impostata su 'most_frequent';
  • Uno StandardScaler per la normalizzazione delle feature;
  • L'oggetto GridSearchCV come passaggio finale.
  1. Allena la pipeline sui dati di addestramento (X_train, y_train) utilizzando il metodo .fit().
  2. Valuta le prestazioni del modello stampando il punteggio sul test set tramite .score(X_test, y_test).
  3. Genera le predizioni sui dati di test e stampa i primi 5 nomi di classe decodificati utilizzando label_enc.inverse_transform().
  4. Stampa il miglior stimatore trovato da GridSearchCV utilizzando l'attributo .best_estimator_.

Soluzione

Switch to desktopCambia al desktop per esercitarti nel mondo realeContinua da dove ti trovi utilizzando una delle opzioni seguenti
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 10
single

single

some-alt