Impara Flusso di lavoro del machine learning

Scorri per mostrare il menu

Analisi del flusso di lavoro necessario per sviluppare un progetto di machine learning di successo.

Passaggio 1. Ottenere i dati

Definizione del problema, scelta di una metrica di performance e determinazione di cosa costituisce un buon risultato. Raccolta dei dati necessari dalle fonti disponibili e conversione in un formato compatibile con Python. Se i dati sono già disponibili in un file CSV, è possibile iniziare subito la fase di pre-processing.

Esempio

Un ospedale raccoglie le cartelle cliniche e i dati demografici dei pazienti in un file CSV. L'obiettivo è prevedere i ricoveri ripetuti, puntando a una precisione superiore all'80%.

Passaggio 2. Preprocessare i dati

Questa fase comprende:

Pulizia dei dati: gestione dei valori mancanti e degli input non numerici;
EDA: analisi ed esplorazione visiva dei dati per comprendere le relazioni e individuare eventuali problemi;
Feature engineering: selezione o creazione di variabili che migliorano le prestazioni del modello.

Esempio

I valori mancanti (ad esempio, pressione sanguigna) vengono riempiti e le variabili categoriche (ad esempio, razza) vengono convertite in formato numerico.

Passaggio 3. Modellizzazione

Questa fase include:

Scelta di un modello in base al tipo di problema e agli esperimenti;
Ottimizzazione degli iperparametri per migliorare le prestazioni;
Valutazione del modello su dati non visti.

Approfondisci

Gli iperparametri sono come controlli regolabili che definiscono come il modello viene addestrato—ad esempio la durata dell'addestramento o la complessità del modello.

Esempio

Un modello di classificazione viene selezionato per prevedere la riammissione (sì/no). Dopo l'ottimizzazione, viene valutato su un set di validazione/test per valutare la generalizzazione.

Passaggio 4. Distribuzione

Quando un modello offre buone prestazioni, viene distribuito nei sistemi reali. Il modello deve essere monitorato, aggiornato con nuovi dati e migliorato nel tempo, spesso ricominciando il ciclo dal Passaggio 1.

Esempio

Il modello viene integrato nel sistema ospedaliero per segnalare i pazienti ad alto rischio al momento dell'ammissione, aiutando il personale ad agire tempestivamente.

Nota

Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere effettuate con scikit-learn. I prossimi capitoli introducono i flussi di lavoro di pre-elaborazione e le pipeline, seguiti dalla modellazione tramite k-nearest neighbors (KNeighborsClassifier), inclusi addestramento, ottimizzazione e valutazione.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti opzioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 1. Capitolo 5