Impara Suddivisione Train-Test e Validazione Incrociata

Nei capitoli precedenti, abbiamo costruito i modelli e previsto nuovi valori. Tuttavia, non abbiamo idea di quanto bene il modello si comporti e se tali previsioni siano affidabili.

Suddivisione Train-Test

Per misurare le prestazioni del modello, è necessario un sottoinsieme di dati etichettati che il modello non ha mai visto. Pertanto, suddividiamo casualmente tutti i dati etichettati in training set e test set.

Questo è possibile utilizzando la funzione train_test_split() di sklearn.

Di solito, si suddivide il modello con circa 70-90% dei dati per il set di addestramento e 10-30% per il set di test.

Nota

Quando il tuo dataset contiene milioni di istanze, utilizzare solo alcune migliaia per il test è generalmente più che sufficiente. In questi casi, è possibile riservare anche meno del 10% dei dati per il test.

Ora è possibile addestrare il modello utilizzando il set di addestramento e valutarne l'accuratezza sul set di test.


              123456789101112131415161718192021
            
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

X = df.drop('StarWars6', axis=1)
y = df['StarWars6']

# Splitting the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

knn = KNeighborsClassifier(n_neighbors=3).fit(X_train_scaled, y_train)

# Printing the accuracy on the test set
print(knn.score(X_test_scaled, y_test))

Tuttavia, questo approccio presenta alcune criticità:

Non si utilizza tutto il set di dati disponibile per l'addestramento, il che potrebbe migliorare il modello;
Poiché la valutazione dell'accuratezza del modello avviene su una piccola porzione di dati (test set), questo valore di accuratezza può risultare inaffidabile su dataset di piccole dimensioni. È possibile eseguire più volte il codice sopra e osservare come l'accuratezza cambi ogni volta che viene campionato un nuovo test set.

Cross-Validation

La cross-validation è progettata per affrontare il problema dell'overfitting e garantire che il modello sia in grado di generalizzare correttamente su nuovi dati non visti. Si può considerare come un addestramento in aula per il modello — aiuta il modello ad apprendere in modo più bilanciato prima di affrontare il vero test finale.

L'idea consiste nel mescolare l'intero dataset e suddividerlo in n parti uguali, chiamate fold. Successivamente, il modello esegue n iterazioni. In ogni iterazione, n-1 fold vengono utilizzati per l'addestramento e 1 fold viene utilizzato per la validazione. In questo modo, ogni parte dei dati viene utilizzata una volta per la validazione e si ottiene una stima più affidabile delle prestazioni del modello.

Si ricorda che la cross-validation non sostituisce il test set. Dopo aver utilizzato la cross-validation per scegliere e ottimizzare il modello, è necessario valutarlo su un test set separato per ottenere una valutazione imparziale delle sue prestazioni nel mondo reale.

Nota

Una scelta comune per il numero di fold è 5. In questo caso, un fold verrà utilizzato come set di test, mentre i restanti 4 fold saranno utilizzati per l'addestramento.

Alleniamo cinque modelli con sottoinsiemi leggermente diversi. Per ciascun modello, calcoliamo la precisione sul set di test:

\text{accuracy} = \frac{\text{predicted correctly}}{\text{predicted correctly} + \text{predicted incorrectly}}

Una volta fatto ciò, possiamo calcolare la media di questi 5 valori di accuratezza, che sarà il nostro punteggio di accuratezza della cross-validation:

\text{accuracy}_{avg} = \frac{\text{accuracy}_1+\text{accuracy}_2+...+\text{accuracy}_5}{5}

È più affidabile perché abbiamo calcolato il punteggio di accuratezza utilizzando tutti i nostri dati - semplicemente suddivisi in modo diverso in cinque iterazioni.

Ora che conosciamo le prestazioni del modello, possiamo riaddestrarlo utilizzando l'intero dataset.

Fortunatamente, sklearn fornisce la funzione cross_val_score() per valutare il modello tramite validazione incrociata, quindi non è necessario implementarla manualmente:

Ecco un esempio di come utilizzare la validazione incrociata con un modello k-NN addestrato sul dataset delle valutazioni di Star Wars:


              12345678910111213141516171819
            
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import pandas as pd
from sklearn.model_selection import cross_val_score

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

X = df.drop('StarWars6', axis=1)
y = df['StarWars6']

scaler = StandardScaler()
X = scaler.fit_transform(X)

knn = KNeighborsClassifier(n_neighbors=3)

# Calculating the accuracy for each split
scores = cross_val_score(knn, X, y, cv=5)
print('Scores: ', scores)
print('Average score:', scores.mean())

Il punteggio utilizzato di default per la classificazione è accuracy.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 6

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the difference between train-test split and cross-validation?

How do I choose the right number of folds for cross-validation?

What are some common pitfalls when using cross-validation?

Scorri per mostrare il menu

Nei capitoli precedenti, abbiamo costruito i modelli e previsto nuovi valori. Tuttavia, non abbiamo idea di quanto bene il modello si comporti e se tali previsioni siano affidabili.

Suddivisione Train-Test

Questo è possibile utilizzando la funzione train_test_split() di sklearn.

Di solito, si suddivide il modello con circa 70-90% dei dati per il set di addestramento e 10-30% per il set di test.

Nota

Ora è possibile addestrare il modello utilizzando il set di addestramento e valutarne l'accuratezza sul set di test.


              123456789101112131415161718192021
            
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

X = df.drop('StarWars6', axis=1)
y = df['StarWars6']

# Splitting the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

knn = KNeighborsClassifier(n_neighbors=3).fit(X_train_scaled, y_train)

# Printing the accuracy on the test set
print(knn.score(X_test_scaled, y_test))

Tuttavia, questo approccio presenta alcune criticità:

Non si utilizza tutto il set di dati disponibile per l'addestramento, il che potrebbe migliorare il modello;
Poiché la valutazione dell'accuratezza del modello avviene su una piccola porzione di dati (test set), questo valore di accuratezza può risultare inaffidabile su dataset di piccole dimensioni. È possibile eseguire più volte il codice sopra e osservare come l'accuratezza cambi ogni volta che viene campionato un nuovo test set.

Cross-Validation

Nota

Una scelta comune per il numero di fold è 5. In questo caso, un fold verrà utilizzato come set di test, mentre i restanti 4 fold saranno utilizzati per l'addestramento.

Alleniamo cinque modelli con sottoinsiemi leggermente diversi. Per ciascun modello, calcoliamo la precisione sul set di test:

\text{accuracy} = \frac{\text{predicted correctly}}{\text{predicted correctly} + \text{predicted incorrectly}}

Una volta fatto ciò, possiamo calcolare la media di questi 5 valori di accuratezza, che sarà il nostro punteggio di accuratezza della cross-validation:

\text{accuracy}_{avg} = \frac{\text{accuracy}_1+\text{accuracy}_2+...+\text{accuracy}_5}{5}

È più affidabile perché abbiamo calcolato il punteggio di accuratezza utilizzando tutti i nostri dati - semplicemente suddivisi in modo diverso in cinque iterazioni.

Ora che conosciamo le prestazioni del modello, possiamo riaddestrarlo utilizzando l'intero dataset.

Fortunatamente, sklearn fornisce la funzione cross_val_score() per valutare il modello tramite validazione incrociata, quindi non è necessario implementarla manualmente:

Ecco un esempio di come utilizzare la validazione incrociata con un modello k-NN addestrato sul dataset delle valutazioni di Star Wars:


              12345678910111213141516171819
            
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import pandas as pd
from sklearn.model_selection import cross_val_score

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

X = df.drop('StarWars6', axis=1)
y = df['StarWars6']

scaler = StandardScaler()
X = scaler.fit_transform(X)

knn = KNeighborsClassifier(n_neighbors=3)

# Calculating the accuracy for each split
scores = cross_val_score(knn, X, y, cv=5)
print('Scores: ', scores)
print('Average score:', scores.mean())

Il punteggio utilizzato di default per la classificazione è accuracy.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 6