Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Flusso di lavoro del machine learning | Sezione
Practice
Projects
Quizzes & Challenges
Quiz
Challenges
/
Fondamenti di Machine Learning

bookFlusso di lavoro del machine learning

Analisi del flusso di lavoro necessario per sviluppare un progetto di machine learning di successo.

Passaggio 1. Ottenere i dati

Definizione del problema, scelta di una metrica di performance e determinazione di cosa costituisce un buon risultato. Raccolta dei dati necessari dalle fonti disponibili e conversione in un formato compatibile con Python. Se i dati sono già disponibili in un file CSV, è possibile iniziare subito la fase di pre-processing.

Esempio

Un ospedale raccoglie le cartelle cliniche e i dati demografici dei pazienti in un file CSV. L'obiettivo è prevedere i ricoveri ripetuti, puntando a una precisione superiore all'80%.

Passaggio 2. Preprocessare i dati

Questa fase comprende:

  • Pulizia dei dati: gestione dei valori mancanti e degli input non numerici;
  • EDA: analisi ed esplorazione visiva dei dati per comprendere le relazioni e individuare eventuali problemi;
  • Feature engineering: selezione o creazione di variabili che migliorano le prestazioni del modello.

Esempio

I valori mancanti (ad esempio, pressione sanguigna) vengono riempiti e le variabili categoriche (ad esempio, razza) vengono convertite in formato numerico.

Passaggio 3. Modellizzazione

Questa fase include:

  • Scelta di un modello in base al tipo di problema e agli esperimenti;
  • Ottimizzazione degli iperparametri per migliorare le prestazioni;
  • Valutazione del modello su dati non visti.
Note
Approfondisci

Gli iperparametri sono come controlli regolabili che definiscono come il modello viene addestrato—ad esempio la durata dell'addestramento o la complessità del modello.

Esempio

Un modello di classificazione viene selezionato per prevedere la riammissione (sì/no). Dopo l'ottimizzazione, viene valutato su un set di validazione/test per valutare la generalizzazione.

Passaggio 4. Distribuzione

Quando un modello offre buone prestazioni, viene distribuito nei sistemi reali. Il modello deve essere monitorato, aggiornato con nuovi dati e migliorato nel tempo, spesso ricominciando il ciclo dal Passaggio 1.

Esempio

Il modello viene integrato nel sistema ospedaliero per segnalare i pazienti ad alto rischio al momento dell'ammissione, aiutando il personale ad agire tempestivamente.

Note
Nota

Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere effettuate con scikit-learn. I prossimi capitoli introducono i flussi di lavoro di pre-elaborazione e le pipeline, seguiti dalla modellazione tramite k-nearest neighbors (KNeighborsClassifier), inclusi addestramento, ottimizzazione e valutazione.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti opzioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?

question mark

Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

Select the correct answer

question mark

Quale delle seguenti opzioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

bookFlusso di lavoro del machine learning

Scorri per mostrare il menu

Analisi del flusso di lavoro necessario per sviluppare un progetto di machine learning di successo.

Passaggio 1. Ottenere i dati

Definizione del problema, scelta di una metrica di performance e determinazione di cosa costituisce un buon risultato. Raccolta dei dati necessari dalle fonti disponibili e conversione in un formato compatibile con Python. Se i dati sono già disponibili in un file CSV, è possibile iniziare subito la fase di pre-processing.

Esempio

Un ospedale raccoglie le cartelle cliniche e i dati demografici dei pazienti in un file CSV. L'obiettivo è prevedere i ricoveri ripetuti, puntando a una precisione superiore all'80%.

Passaggio 2. Preprocessare i dati

Questa fase comprende:

  • Pulizia dei dati: gestione dei valori mancanti e degli input non numerici;
  • EDA: analisi ed esplorazione visiva dei dati per comprendere le relazioni e individuare eventuali problemi;
  • Feature engineering: selezione o creazione di variabili che migliorano le prestazioni del modello.

Esempio

I valori mancanti (ad esempio, pressione sanguigna) vengono riempiti e le variabili categoriche (ad esempio, razza) vengono convertite in formato numerico.

Passaggio 3. Modellizzazione

Questa fase include:

  • Scelta di un modello in base al tipo di problema e agli esperimenti;
  • Ottimizzazione degli iperparametri per migliorare le prestazioni;
  • Valutazione del modello su dati non visti.
Note
Approfondisci

Gli iperparametri sono come controlli regolabili che definiscono come il modello viene addestrato—ad esempio la durata dell'addestramento o la complessità del modello.

Esempio

Un modello di classificazione viene selezionato per prevedere la riammissione (sì/no). Dopo l'ottimizzazione, viene valutato su un set di validazione/test per valutare la generalizzazione.

Passaggio 4. Distribuzione

Quando un modello offre buone prestazioni, viene distribuito nei sistemi reali. Il modello deve essere monitorato, aggiornato con nuovi dati e migliorato nel tempo, spesso ricominciando il ciclo dal Passaggio 1.

Esempio

Il modello viene integrato nel sistema ospedaliero per segnalare i pazienti ad alto rischio al momento dell'ammissione, aiutando il personale ad agire tempestivamente.

Note
Nota

Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere effettuate con scikit-learn. I prossimi capitoli introducono i flussi di lavoro di pre-elaborazione e le pipeline, seguiti dalla modellazione tramite k-nearest neighbors (KNeighborsClassifier), inclusi addestramento, ottimizzazione e valutazione.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti opzioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?

question mark

Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

Select the correct answer

question mark

Quale delle seguenti opzioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5
some-alt