Kursusindhold
Lineær Regression med Python
Lineær Regression med Python
Finding af Parametrene
Vi ved nu, at lineær regression blot er en linje, der bedst passer til dataene. Men hvordan kan du afgøre, hvilken der er den rigtige?
Du kan beregne forskellen mellem den forudsagte værdi og den faktiske målte værdi for hvert datapunkt i træningssættet.
Disse forskelle kaldes residualer (eller fejl). Målet er at gøre residualerne så små som muligt.
Ordinary Least Squares
Standardmetoden er Ordinary Least Squares (OLS):
Tag hver residual, kvadrér den (primært for at fjerne fortegnet på en residual), og summér dem alle.
Dette kaldes SSR (Sum of squared residuals). Opgaven er at finde de parametre, der minimerer SSR.
Normal Ligning
Heldigvis behøver vi ikke at afprøve alle linjer og beregne SSR for dem. Opgaven med at minimere SSR har en matematisk løsning, som ikke er særlig beregningstung.
Denne løsning kaldes Normal Ligning.
Denne ligning giver os parametrene for en linje med mindst SSR.
Forstod du ikke, hvordan det virker? Ingen grund til bekymring! Det er ret kompleks matematik. Men du behøver ikke selv at beregne parametrene. Mange biblioteker har allerede implementeret lineær regression.
Quiz
1. Overvej billedet ovenfor. Hvilken regressionslinje er bedst?
2. y_true - y_predicted
kaldes
Tak for dine kommentarer!