Flusso di Lavoro del Machine Learning
Analisi del flusso di lavoro necessario per sviluppare un progetto di machine learning di successo.
Passo 1. Ottenere i dati
Definizione del problema e identificazione dei dati necessari. Selezione di una metrica per valutare le prestazioni e determinazione del risultato considerato soddisfacente.
Raccolta dei dati, spesso da più fonti come database, e conversione in un formato adatto all'elaborazione in Python.
Se i dati sono già disponibili in un file .csv, è possibile iniziare subito la fase di pre-processing, saltando questo passaggio.
Esempio
Un ospedale fornisce registri storici dei pazienti dal proprio database insieme a informazioni demografiche provenienti da un database sanitario nazionale, compilati in un file CSV. Il compito è prevedere le riammissioni dei pazienti, con accuratezza superiore all'80% come metrica target per una prestazione soddisfacente.
Passo 2. Preprocessare i dati
Questa fase comprende:
- Pulizia dei dati: gestione dei valori mancanti, dati non numerici, ecc.;
- Analisi esplorativa dei dati (EDA): analisi e visualizzazione del dataset per individuare pattern e relazioni tra le variabili e, in generale, ottenere informazioni utili per migliorare il set di addestramento;
- Feature Engineering: selezione, trasformazione o creazione di nuove variabili sulla base delle informazioni ottenute dall'EDA per migliorare le prestazioni del modello.
Esempio
Nel dataset dell'ospedale, i valori mancanti per metriche chiave come la pressione sanguigna possono essere completati e le variabili categoriche come la razza possono essere convertite in codici numerici per l'analisi.
Passaggio 3. Modellizzazione
Questa fase include:
- Scelta del modello: selezione di uno o più modelli più adatti al problema, in base alle caratteristiche dell'algoritmo e ai risultati sperimentali;
- Ottimizzazione degli iperparametri: regolazione degli iperparametri per ottenere le migliori prestazioni possibili.
Considerare gli iperparametri come le manopole e i quadranti di una macchina che si possono regolare per controllarne il funzionamento. Nel machine learning, queste "manopole e quadranti" sono impostazioni (valori) che un data scientist regola prima di iniziare l'addestramento del modello. Ad esempio, gli iperparametri possono includere la durata dell'addestramento del modello o il livello di dettaglio dell'addestramento.
- Valutazione del modello: misurazione delle prestazioni su dati non visti.
Esempio
Viene selezionato un modello di classificazione per prevedere le riammissioni dei pazienti, adatto a risultati binari (riammesso o meno). I suoi iperparametri vengono ottimizzati per migliorare le prestazioni. Infine, la valutazione viene effettuata su un set di validazione o test separato per verificare quanto bene il modello generalizza oltre i dati di addestramento.
Passaggio 4. Distribuzione
Dopo aver ottenuto un modello ottimizzato con prestazioni soddisfacenti, il passo successivo è la distribuzione. Il modello distribuito deve essere costantemente monitorato, migliorato quando necessario e aggiornato con nuovi dati man mano che diventano disponibili. Questo processo spesso riporta al Passaggio 1.
Esempio
Una volta che il modello prevede accuratamente le riammissioni, viene integrato nel sistema di database dell'ospedale per avvisare il personale sui pazienti ad alto rischio al momento dell'ammissione, migliorando così la cura del paziente.
Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.
La pre-elaborazione dei dati e la modellazione possono essere eseguite con la libreria scikit-learn (importata come sklearn). I capitoli seguenti si concentrano sui passaggi base della pre-elaborazione e sulla costruzione delle pipeline. La fase di modellazione viene poi introdotta utilizzando l'algoritmo k-nearest neighbors (KNeighborsClassifier in sklearn) come esempio. Questo include la costruzione del modello, l'ottimizzazione degli iperparametri e la valutazione delle prestazioni.
1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?
2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 3.13
Flusso di Lavoro del Machine Learning
Scorri per mostrare il menu
Analisi del flusso di lavoro necessario per sviluppare un progetto di machine learning di successo.
Passo 1. Ottenere i dati
Definizione del problema e identificazione dei dati necessari. Selezione di una metrica per valutare le prestazioni e determinazione del risultato considerato soddisfacente.
Raccolta dei dati, spesso da più fonti come database, e conversione in un formato adatto all'elaborazione in Python.
Se i dati sono già disponibili in un file .csv, è possibile iniziare subito la fase di pre-processing, saltando questo passaggio.
Esempio
Un ospedale fornisce registri storici dei pazienti dal proprio database insieme a informazioni demografiche provenienti da un database sanitario nazionale, compilati in un file CSV. Il compito è prevedere le riammissioni dei pazienti, con accuratezza superiore all'80% come metrica target per una prestazione soddisfacente.
Passo 2. Preprocessare i dati
Questa fase comprende:
- Pulizia dei dati: gestione dei valori mancanti, dati non numerici, ecc.;
- Analisi esplorativa dei dati (EDA): analisi e visualizzazione del dataset per individuare pattern e relazioni tra le variabili e, in generale, ottenere informazioni utili per migliorare il set di addestramento;
- Feature Engineering: selezione, trasformazione o creazione di nuove variabili sulla base delle informazioni ottenute dall'EDA per migliorare le prestazioni del modello.
Esempio
Nel dataset dell'ospedale, i valori mancanti per metriche chiave come la pressione sanguigna possono essere completati e le variabili categoriche come la razza possono essere convertite in codici numerici per l'analisi.
Passaggio 3. Modellizzazione
Questa fase include:
- Scelta del modello: selezione di uno o più modelli più adatti al problema, in base alle caratteristiche dell'algoritmo e ai risultati sperimentali;
- Ottimizzazione degli iperparametri: regolazione degli iperparametri per ottenere le migliori prestazioni possibili.
Considerare gli iperparametri come le manopole e i quadranti di una macchina che si possono regolare per controllarne il funzionamento. Nel machine learning, queste "manopole e quadranti" sono impostazioni (valori) che un data scientist regola prima di iniziare l'addestramento del modello. Ad esempio, gli iperparametri possono includere la durata dell'addestramento del modello o il livello di dettaglio dell'addestramento.
- Valutazione del modello: misurazione delle prestazioni su dati non visti.
Esempio
Viene selezionato un modello di classificazione per prevedere le riammissioni dei pazienti, adatto a risultati binari (riammesso o meno). I suoi iperparametri vengono ottimizzati per migliorare le prestazioni. Infine, la valutazione viene effettuata su un set di validazione o test separato per verificare quanto bene il modello generalizza oltre i dati di addestramento.
Passaggio 4. Distribuzione
Dopo aver ottenuto un modello ottimizzato con prestazioni soddisfacenti, il passo successivo è la distribuzione. Il modello distribuito deve essere costantemente monitorato, migliorato quando necessario e aggiornato con nuovi dati man mano che diventano disponibili. Questo processo spesso riporta al Passaggio 1.
Esempio
Una volta che il modello prevede accuratamente le riammissioni, viene integrato nel sistema di database dell'ospedale per avvisare il personale sui pazienti ad alto rischio al momento dell'ammissione, migliorando così la cura del paziente.
Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.
La pre-elaborazione dei dati e la modellazione possono essere eseguite con la libreria scikit-learn (importata come sklearn). I capitoli seguenti si concentrano sui passaggi base della pre-elaborazione e sulla costruzione delle pipeline. La fase di modellazione viene poi introdotta utilizzando l'algoritmo k-nearest neighbors (KNeighborsClassifier in sklearn) come esempio. Questo include la costruzione del modello, l'ottimizzazione degli iperparametri e la valutazione delle prestazioni.
1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?
2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?
Grazie per i tuoi commenti!