Flusso di Lavoro del Machine Learning
Esaminiamo il flusso di lavoro necessario per sviluppare con successo un progetto di machine learning.
Passaggio 1. Ottenere i dati
Definizione del problema, scelta di una metrica di performance e determinazione di cosa costituisce un buon risultato. Successivamente, raccolta dei dati necessari dalle fonti disponibili e conversione in un formato pronto per Python. Se i dati sono già disponibili in un file CSV, la fase di pre-elaborazione può iniziare immediatamente.
Esempio
Un ospedale raccoglie le cartelle cliniche e i dati demografici dei pazienti in un file CSV. L'obiettivo è prevedere i ricoveri ripetuti, puntando a una precisione superiore all'80%.
Passaggio 2. Pre-elaborazione dei dati
Questa fase include:
- Pulizia dei dati: gestione dei valori mancanti e degli input non numerici;
- EDA: analisi ed esplorazione visiva dei dati per comprendere le relazioni e individuare eventuali problemi;
- Feature engineering: selezione o creazione di caratteristiche che migliorano le prestazioni del modello.
Esempio
I valori mancanti (ad esempio, pressione sanguigna) vengono riempiti e le caratteristiche categoriche (ad esempio, razza) vengono convertite in formato numerico.
Passaggio 3. Modellizzazione
Questa fase include:
- Scelta di un modello in base al tipo di problema e agli esperimenti;
- Ottimizzazione degli iperparametri per migliorare le prestazioni;
- Valutazione del modello su dati non visti.
Gli iperparametri sono come controlli regolabili che definiscono come il modello si allena—ad esempio la durata dell'addestramento o la complessità del modello.
Esempio
Un modello di classificazione viene selezionato per prevedere la riammissione (sì/no). Dopo l'ottimizzazione, viene valutato su un set di validazione/test per valutare la generalizzazione.
Passaggio 4. Distribuzione
Quando un modello offre buone prestazioni, viene distribuito nei sistemi reali. Il modello deve essere monitorato, aggiornato con nuovi dati e migliorato nel tempo, spesso ricominciando il ciclo dal Passaggio 1.
Esempio
Il modello viene integrato nel sistema ospedaliero per segnalare i pazienti ad alto rischio al momento dell'ammissione, aiutando il personale ad agire tempestivamente.
Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.
La pre-elaborazione dei dati e la modellazione possono essere effettuate con scikit-learn. I prossimi capitoli introducono i flussi di lavoro di pre-elaborazione e le pipeline, seguiti dalla modellazione tramite k-nearest neighbors (KNeighborsClassifier), inclusi addestramento, ottimizzazione e valutazione.
1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?
2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 3.13
Flusso di Lavoro del Machine Learning
Scorri per mostrare il menu
Esaminiamo il flusso di lavoro necessario per sviluppare con successo un progetto di machine learning.
Passaggio 1. Ottenere i dati
Definizione del problema, scelta di una metrica di performance e determinazione di cosa costituisce un buon risultato. Successivamente, raccolta dei dati necessari dalle fonti disponibili e conversione in un formato pronto per Python. Se i dati sono già disponibili in un file CSV, la fase di pre-elaborazione può iniziare immediatamente.
Esempio
Un ospedale raccoglie le cartelle cliniche e i dati demografici dei pazienti in un file CSV. L'obiettivo è prevedere i ricoveri ripetuti, puntando a una precisione superiore all'80%.
Passaggio 2. Pre-elaborazione dei dati
Questa fase include:
- Pulizia dei dati: gestione dei valori mancanti e degli input non numerici;
- EDA: analisi ed esplorazione visiva dei dati per comprendere le relazioni e individuare eventuali problemi;
- Feature engineering: selezione o creazione di caratteristiche che migliorano le prestazioni del modello.
Esempio
I valori mancanti (ad esempio, pressione sanguigna) vengono riempiti e le caratteristiche categoriche (ad esempio, razza) vengono convertite in formato numerico.
Passaggio 3. Modellizzazione
Questa fase include:
- Scelta di un modello in base al tipo di problema e agli esperimenti;
- Ottimizzazione degli iperparametri per migliorare le prestazioni;
- Valutazione del modello su dati non visti.
Gli iperparametri sono come controlli regolabili che definiscono come il modello si allena—ad esempio la durata dell'addestramento o la complessità del modello.
Esempio
Un modello di classificazione viene selezionato per prevedere la riammissione (sì/no). Dopo l'ottimizzazione, viene valutato su un set di validazione/test per valutare la generalizzazione.
Passaggio 4. Distribuzione
Quando un modello offre buone prestazioni, viene distribuito nei sistemi reali. Il modello deve essere monitorato, aggiornato con nuovi dati e migliorato nel tempo, spesso ricominciando il ciclo dal Passaggio 1.
Esempio
Il modello viene integrato nel sistema ospedaliero per segnalare i pazienti ad alto rischio al momento dell'ammissione, aiutando il personale ad agire tempestivamente.
Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.
La pre-elaborazione dei dati e la modellazione possono essere effettuate con scikit-learn. I prossimi capitoli introducono i flussi di lavoro di pre-elaborazione e le pipeline, seguiti dalla modellazione tramite k-nearest neighbors (KNeighborsClassifier), inclusi addestramento, ottimizzazione e valutazione.
1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?
2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?
Grazie per i tuoi commenti!