Summary  
This chapter explains how to calculate and interpret R-squared, a metric that quantifies the proportion of a target variable’s variance explained by a model by comparing total variance to unexplained variance.  

General domain of usage  
Regression model evaluation in predictive modeling.

## Hva er R-kvadrat

Vi har allerede dekket MSE, RMSE og MAE. Disse hjelper med å sammenligne modeller, men en enkelt score er vanskelig å vurdere uten kontekst. Du vet kanskje ikke om verdien er "god nok" for datasettet ditt.

**R-kvadrat** løser dette ved å måle hvor mye av variansen i målet modellen forklarer. Verdien varierer fra 0 til 1, noe som gjør tolkningen enkel.

Problemet er at vi ikke kan beregne forklart varians direkte. Men vi kan beregne uforklart varians, så vi omformer ligningen ovenfor til:

## Total varians
Total varians er bare variansen til målet, og vi kan beregne variansen til målet ved å bruke formelen for utvalgsvarians fra statistikk (**ȳ** er gjennomsnittet til målet):

I eksempelet blir forskjellene mellom faktiske verdier og målets gjennomsnitt (oransje linjer) kvadrert og summert, deretter delt på **m−1**, noe som gir en total varians på 11.07.



## Uforklart varians

Deretter beregner vi variansen som modellen **ikke** forklarer. Hvis prediksjonene var perfekte, ville alle punktene ligget nøyaktig på regresjonslinjen. Vi bruker samme variansformel, men erstatter **ȳ** med predikerte verdier.

Nå vet vi alt som trengs for å beregne R-kvadrat:

Vi fikk en R-kvadrat-verdi på 0,92, som er nær 1, så vi har en god modell. Vi skal også beregne R-kvadrat for én modell til.

R-kvadrert er lavere siden modellen undertilpasser dataene noe.

## R-kvadrert i Python
`sm.OLS`-klassen beregner R-kvadrert for oss. Vi finner det i `summary()`-tabellen her.

R-kvadrert varierer fra 0 til 1, og høyere verdi er bedre (med mindre modellen overtilpasser). `summary()`-utdataene fra `sm.OLS` inkluderer R-kvadrert-verdi.


Lineær regresjon er et sentralt konsept innen prediktiv analyse. Det brukes mye av dataforskere, dataanalytikere og statistikere fordi det er enkelt å bygge og tolke, men samtidig kraftig nok for mange oppgaver.

La oss begynne med den enkleste lineære regresjonsmodellen! Du vil lære om konseptet bak lineær regresjon og hvordan lage prediksjoner i Python.

De fleste prediksjonsoppgaver i virkeligheten involverer mer enn én variabel. Du vil lære hvordan man håndterer lineær regresjon med flere variabler.

En rett linje beskriver ikke alltid dataene godt. La oss lære hvordan vi kan bygge en mer kompleks modell for prediksjon. Det er dette polynomisk regresjon er egnet for.

Nå som du vet hvordan du bygger flere lineære regresjonsmodeller, trenger du en metode for å velge den beste. Dette kan oppnås ved hjelp av målemetoder. Denne delen forklarer de mest brukte metodene og utfordringene du kan møte ved bruk av dem.