Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Riassunto | Confronto tra Modelli
Classificazione con Python

Riassunto

Scorri per mostrare il menu

In sintesi, sono stati trattati quattro algoritmi: k-NN, Regressione Logistica, Albero Decisionale e Random Forest. Ognuno presenta vantaggi e svantaggi specifici, discussi al termine delle rispettive sezioni.

La seguente visualizzazione mostra le prestazioni di ciascun algoritmo su diversi dataset sintetici:

compare models3

In questa visualizzazione, maggiore è l'intensità del colore, maggiore è la sicurezza del modello nelle sue previsioni.

Si nota che ogni dataset presenta un modello diverso che offre le migliori prestazioni. È difficile sapere in anticipo quale modello funzionerà meglio, quindi la strategia migliore è provarne diversi. Questo è il concetto alla base del Teorema No Free Lunch.

Tuttavia, in alcune situazioni, la conoscenza degli algoritmi può permettere di escludere alcuni modelli a priori se non sono adatti al compito.

Ad esempio, questo è il caso della Regressione Logistica (senza l'uso di PolynomialFeatures), che crea un confine decisionale lineare. Quindi, osservando la complessità del secondo dataset nell'immagine, si potrebbe prevedere in anticipo che non otterrà buoni risultati.

Un altro esempio: se il compito richiede una velocità di previsione estremamente elevata — come nel caso di previsioni in tempo reale in un'app — allora k-NN è una scelta poco adatta. Lo stesso vale per una Random Forest con molti alberi decisionali. È possibile ridurre il numero di alberi tramite il parametro n_estimators per migliorare la velocità, ma ciò potrebbe comportare prestazioni inferiori.

La seguente tabella aiuta a comprendere quali operazioni di preprocessing sono necessarie prima di addestrare ciascun modello e come le prestazioni del modello variano all'aumentare del numero di feature o di istanze:

  • n – numero di istanze (campioni);
  • m – numero di caratteristiche;
  • t – numero di alberi in una Random Forest;
  • k – numero di vicini in k-NN;
  • * La normalizzazione non è richiesta se penalty=None nella Regressione Logistica;
  • ** PolynomialFeatures aggiunge più caratteristiche, quindi il numero effettivo di caratteristiche m aumenta.
question mark

Quale modello utilizza più alberi decisionali per effettuare una previsione?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 4

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 5. Capitolo 4
some-alt