Cursusinhoud
Lineaire Regressie Met Python
Lineaire Regressie Met Python
Het Vinden van de Parameters
We weten nu dat lineaire regressie gewoon een lijn is die het beste bij de data past. Maar hoe bepaal je welke lijn de juiste is?
Je kunt het verschil berekenen tussen de voorspelde waarde en de werkelijke doelwaarde voor elk datapunt in de trainingsset.
Deze verschillen worden residuen (of fouten) genoemd. Het doel is om de residuen zo klein mogelijk te maken.
Ordinary Least Squares
De standaardmethode is de Ordinary Least Squares (OLS) methode:
Neem elk residu, kwadrateer het (voornamelijk om het teken van een residu te elimineren), en sommeer ze allemaal.
Dit wordt SSR (Sum of squared residuals) genoemd. De taak is om de parameters te vinden die de SSR minimaliseren.
Normale Vergelijking
Gelukkig hoeven we niet alle lijnen te proberen en de SSR voor elk te berekenen. De taak om de SSR te minimaliseren heeft een wiskundige oplossing die niet veel rekenkracht vereist.
Deze oplossing wordt de Normale Vergelijking genoemd.
Deze vergelijking geeft ons de parameters van een lijn met de kleinste SSR.
Begrijp je niet precies hoe het werkt? Geen zorgen! Het is vrij complexe wiskunde. Maar je hoeft de parameters niet zelf uit te rekenen. Veel bibliotheken hebben lineaire regressie al geïmplementeerd.
Quiz
1. Bekijk de bovenstaande afbeelding. Welke regressielijn is beter?
2. y_true - y_predicted
wordt genoemd
Bedankt voor je feedback!