Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Flusso di Lavoro del Machine Learning | Concetti di Machine Learning
Introduzione al ML con Scikit-Learn

bookFlusso di Lavoro del Machine Learning

Analisi del flusso di lavoro necessario per sviluppare un progetto di machine learning di successo.

Passo 1. Ottenere i dati

Definizione del problema e identificazione dei dati necessari. Selezione di una metrica per valutare le prestazioni e determinazione del risultato considerato soddisfacente.

Raccolta dei dati, spesso da più fonti come database, e conversione in un formato adatto all'elaborazione in Python.

Se i dati sono già disponibili in un file .csv, è possibile iniziare subito la fase di pre-processing, saltando questo passaggio.

Esempio

Un ospedale fornisce registri storici dei pazienti dal proprio database insieme a informazioni demografiche provenienti da un database sanitario nazionale, compilati in un file CSV. Il compito è prevedere le riammissioni dei pazienti, con accuratezza superiore all'80% come metrica target per una prestazione soddisfacente.

Passo 2. Preprocessare i dati

Questa fase comprende:

  • Pulizia dei dati: gestione dei valori mancanti, dati non numerici, ecc.;
  • Analisi esplorativa dei dati (EDA): analisi e visualizzazione del dataset per individuare pattern e relazioni tra le variabili e, in generale, ottenere informazioni utili per migliorare il set di addestramento;
  • Feature Engineering: selezione, trasformazione o creazione di nuove variabili sulla base delle informazioni ottenute dall'EDA per migliorare le prestazioni del modello.

Esempio

Nel dataset dell'ospedale, i valori mancanti per metriche chiave come la pressione sanguigna possono essere completati e le variabili categoriche come la razza possono essere convertite in codici numerici per l'analisi.

Passaggio 3. Modellizzazione

Questa fase include:

  • Scelta del modello: selezione di uno o più modelli più adatti al problema, in base alle caratteristiche dell'algoritmo e ai risultati sperimentali;
  • Ottimizzazione degli iperparametri: regolazione degli iperparametri per ottenere le migliori prestazioni possibili.
Note
Approfondisci

Considerare gli iperparametri come le manopole e i quadranti di una macchina che si possono regolare per controllarne il funzionamento. Nel machine learning, queste "manopole e quadranti" sono impostazioni (valori) che un data scientist regola prima di iniziare l'addestramento del modello. Ad esempio, gli iperparametri possono includere la durata dell'addestramento del modello o il livello di dettaglio dell'addestramento.

  • Valutazione del modello: misurazione delle prestazioni su dati non visti.

Esempio

Viene selezionato un modello di classificazione per prevedere le riammissioni dei pazienti, adatto a risultati binari (riammesso o meno). I suoi iperparametri vengono ottimizzati per migliorare le prestazioni. Infine, la valutazione viene effettuata su un set di validazione o test separato per verificare quanto bene il modello generalizza oltre i dati di addestramento.

Passaggio 4. Distribuzione

Dopo aver ottenuto un modello ottimizzato con prestazioni soddisfacenti, il passo successivo è la distribuzione. Il modello distribuito deve essere costantemente monitorato, migliorato quando necessario e aggiornato con nuovi dati man mano che diventano disponibili. Questo processo spesso riporta al Passaggio 1.

Esempio

Una volta che il modello prevede accuratamente le riammissioni, viene integrato nel sistema di database dell'ospedale per avvisare il personale sui pazienti ad alto rischio al momento dell'ammissione, migliorando così la cura del paziente.

Note
Nota

Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere eseguite con la libreria scikit-learn (importata come sklearn). I capitoli seguenti si concentrano sui passaggi base della pre-elaborazione e sulla costruzione delle pipeline. La fase di modellazione viene poi introdotta utilizzando l'algoritmo k-nearest neighbors (KNeighborsClassifier in sklearn) come esempio. Questo include la costruzione del modello, l'ottimizzazione degli iperparametri e la valutazione delle prestazioni.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

question mark

Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

Select the correct answer

question mark

Quale delle seguenti affermazioni descrive meglio l'importanza della fase "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 3.13

bookFlusso di Lavoro del Machine Learning

Scorri per mostrare il menu

Analisi del flusso di lavoro necessario per sviluppare un progetto di machine learning di successo.

Passo 1. Ottenere i dati

Definizione del problema e identificazione dei dati necessari. Selezione di una metrica per valutare le prestazioni e determinazione del risultato considerato soddisfacente.

Raccolta dei dati, spesso da più fonti come database, e conversione in un formato adatto all'elaborazione in Python.

Se i dati sono già disponibili in un file .csv, è possibile iniziare subito la fase di pre-processing, saltando questo passaggio.

Esempio

Un ospedale fornisce registri storici dei pazienti dal proprio database insieme a informazioni demografiche provenienti da un database sanitario nazionale, compilati in un file CSV. Il compito è prevedere le riammissioni dei pazienti, con accuratezza superiore all'80% come metrica target per una prestazione soddisfacente.

Passo 2. Preprocessare i dati

Questa fase comprende:

  • Pulizia dei dati: gestione dei valori mancanti, dati non numerici, ecc.;
  • Analisi esplorativa dei dati (EDA): analisi e visualizzazione del dataset per individuare pattern e relazioni tra le variabili e, in generale, ottenere informazioni utili per migliorare il set di addestramento;
  • Feature Engineering: selezione, trasformazione o creazione di nuove variabili sulla base delle informazioni ottenute dall'EDA per migliorare le prestazioni del modello.

Esempio

Nel dataset dell'ospedale, i valori mancanti per metriche chiave come la pressione sanguigna possono essere completati e le variabili categoriche come la razza possono essere convertite in codici numerici per l'analisi.

Passaggio 3. Modellizzazione

Questa fase include:

  • Scelta del modello: selezione di uno o più modelli più adatti al problema, in base alle caratteristiche dell'algoritmo e ai risultati sperimentali;
  • Ottimizzazione degli iperparametri: regolazione degli iperparametri per ottenere le migliori prestazioni possibili.
Note
Approfondisci

Considerare gli iperparametri come le manopole e i quadranti di una macchina che si possono regolare per controllarne il funzionamento. Nel machine learning, queste "manopole e quadranti" sono impostazioni (valori) che un data scientist regola prima di iniziare l'addestramento del modello. Ad esempio, gli iperparametri possono includere la durata dell'addestramento del modello o il livello di dettaglio dell'addestramento.

  • Valutazione del modello: misurazione delle prestazioni su dati non visti.

Esempio

Viene selezionato un modello di classificazione per prevedere le riammissioni dei pazienti, adatto a risultati binari (riammesso o meno). I suoi iperparametri vengono ottimizzati per migliorare le prestazioni. Infine, la valutazione viene effettuata su un set di validazione o test separato per verificare quanto bene il modello generalizza oltre i dati di addestramento.

Passaggio 4. Distribuzione

Dopo aver ottenuto un modello ottimizzato con prestazioni soddisfacenti, il passo successivo è la distribuzione. Il modello distribuito deve essere costantemente monitorato, migliorato quando necessario e aggiornato con nuovi dati man mano che diventano disponibili. Questo processo spesso riporta al Passaggio 1.

Esempio

Una volta che il modello prevede accuratamente le riammissioni, viene integrato nel sistema di database dell'ospedale per avvisare il personale sui pazienti ad alto rischio al momento dell'ammissione, migliorando così la cura del paziente.

Note
Nota

Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere eseguite con la libreria scikit-learn (importata come sklearn). I capitoli seguenti si concentrano sui passaggi base della pre-elaborazione e sulla costruzione delle pipeline. La fase di modellazione viene poi introdotta utilizzando l'algoritmo k-nearest neighbors (KNeighborsClassifier in sklearn) come esempio. Questo include la costruzione del modello, l'ottimizzazione degli iperparametri e la valutazione delle prestazioni.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

question mark

Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

Select the correct answer

question mark

Quale delle seguenti affermazioni descrive meglio l'importanza della fase "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5
some-alt