Kursinnhold
Lineær Regresjon med Python
Lineær Regresjon med Python
Finne Parameterne
Vi vet nå at lineær regresjon er en linje som passer best til dataene. Men hvordan kan du vite hvilken som er den riktige?
Du kan beregne forskjellen mellom den predikerte verdien og den faktiske målverdien for hvert datapunkt i treningssettet.
Disse forskjellene kalles residualer (eller feil). Målet er å gjøre residualene så små som mulig.
Ordinær minste kvadraters metode
Standardmetoden er ordinær minste kvadraters metode (OLS):
Ta hver residual, kvadrer den (hovedsakelig for å eliminere fortegnet til en residual), og summer alle sammen.
Dette kalles SSR (sum av kvadrerte residualer). Oppgaven er å finne parameterne som minimerer SSR.
Normal-likningen
Heldigvis trenger vi ikke å prøve alle linjene og beregne SSR for dem. Oppgaven med å minimere SSR har en matematisk løsning som ikke er særlig ressurskrevende å beregne.
Denne løsningen kalles Normal-likningen.
Denne likningen gir oss parameterne til en linje med minst mulig SSR.
Forsto du ikke helt hvordan det fungerer? Ingen grunn til bekymring! Dette er ganske avansert matematikk. Men du trenger ikke å regne ut parameterne for hånd. Mange biblioteker har allerede implementert lineær regresjon.
Quiz
1. Se bildet ovenfor. Hvilken regresjonslinje er best?
2. y_true - y_predicted
kalles
Takk for tilbakemeldingene dine!