Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara R-Quadro | Scelta del Modello Migliore
Regressione Lineare con Python

bookR-Quadro

Cos'è R-quadro

Abbiamo già trattato MSE, RMSE e MAE. Questi aiutano a confrontare i modelli, ma un singolo punteggio è difficile da valutare senza contesto. Potresti non sapere se il valore è “sufficientemente buono” per il tuo dataset.

R-quadro risolve questo problema misurando quanta parte della varianza del target viene spiegata dal modello. Il suo valore varia da 0 a 1, rendendo l'interpretazione immediata.

Il problema è che non possiamo calcolare immediatamente la varianza spiegata. Tuttavia, possiamo calcolare la varianza non spiegata, quindi trasformeremo l'equazione sopra in:

Varianza Totale

La varianza totale è semplicemente la varianza del target, e possiamo calcolare la varianza del target utilizzando la formula della varianza campionaria dalla Statistica ( è la media del target):

Nell'esempio, le differenze tra i valori reali e la media del target (linee arancioni) vengono elevate al quadrato e sommate, poi divise per m−1, ottenendo una varianza totale di 11.07.

Varianza Non Spiegata

Successivamente si calcola la varianza che il modello non spiega. Se le previsioni fossero perfette, tutti i punti si troverebbero esattamente sulla retta di regressione. Si utilizza la stessa formula della varianza, ma si sostituisce con i valori previsti.

Ecco un esempio con visualizzazione:

Ora conosciamo tutto il necessario per calcolare il coefficiente di determinazione R-quadro:

Abbiamo ottenuto un valore R-quadro di 0,92, che è vicino a 1, quindi il modello è ottimo. Calcoleremo inoltre il coefficiente R-quadro per un altro modello.

Il valore R-quadro è più basso poiché il modello sottostima leggermente i dati.

R-quadro in Python

La classe sm.OLS calcola per noi il valore R-quadro. Possiamo trovarlo nella tabella summary() qui.

Il valore R-quadro varia da 0 a 1, e valori più alti sono preferibili (a meno che il modello non sia sovradattato). L'output summary() di sm.OLS include il punteggio R-quadro.

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 5.26

bookR-Quadro

Scorri per mostrare il menu

Cos'è R-quadro

Abbiamo già trattato MSE, RMSE e MAE. Questi aiutano a confrontare i modelli, ma un singolo punteggio è difficile da valutare senza contesto. Potresti non sapere se il valore è “sufficientemente buono” per il tuo dataset.

R-quadro risolve questo problema misurando quanta parte della varianza del target viene spiegata dal modello. Il suo valore varia da 0 a 1, rendendo l'interpretazione immediata.

Il problema è che non possiamo calcolare immediatamente la varianza spiegata. Tuttavia, possiamo calcolare la varianza non spiegata, quindi trasformeremo l'equazione sopra in:

Varianza Totale

La varianza totale è semplicemente la varianza del target, e possiamo calcolare la varianza del target utilizzando la formula della varianza campionaria dalla Statistica ( è la media del target):

Nell'esempio, le differenze tra i valori reali e la media del target (linee arancioni) vengono elevate al quadrato e sommate, poi divise per m−1, ottenendo una varianza totale di 11.07.

Varianza Non Spiegata

Successivamente si calcola la varianza che il modello non spiega. Se le previsioni fossero perfette, tutti i punti si troverebbero esattamente sulla retta di regressione. Si utilizza la stessa formula della varianza, ma si sostituisce con i valori previsti.

Ecco un esempio con visualizzazione:

Ora conosciamo tutto il necessario per calcolare il coefficiente di determinazione R-quadro:

Abbiamo ottenuto un valore R-quadro di 0,92, che è vicino a 1, quindi il modello è ottimo. Calcoleremo inoltre il coefficiente R-quadro per un altro modello.

Il valore R-quadro è più basso poiché il modello sottostima leggermente i dati.

R-quadro in Python

La classe sm.OLS calcola per noi il valore R-quadro. Possiamo trovarlo nella tabella summary() qui.

Il valore R-quadro varia da 0 a 1, e valori più alti sono preferibili (a meno che il modello non sia sovradattato). L'output summary() di sm.OLS include il punteggio R-quadro.

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 3
some-alt