Bestimmung der Parameter
Wir wissen nun, dass die Lineare Regression einfach eine Linie ist, die die Daten am besten beschreibt. Aber wie erkennt man, welche die richtige ist?
Man kann die Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Zielwert für jeden Datenpunkt im Trainingsdatensatz berechnen.
Diese Differenzen werden als Residuen (oder Fehler) bezeichnet. Das Ziel ist es, die Residuen so klein wie möglich zu halten.
Methode der kleinsten Quadrate
Der Standardansatz ist die Methode der kleinsten Quadrate (OLS):
Jedes Residuum wird quadriert (hauptsächlich, um das Vorzeichen zu eliminieren), und alle werden aufsummiert.
Dies wird als SSR (Summe der quadrierten Residuen) bezeichnet. Die Aufgabe besteht darin, die Parameter zu finden, die die SSR minimieren.
Normalengleichung
Glücklicherweise müssen wir nicht alle Geraden ausprobieren und deren SSR berechnen. Die Aufgabe, das SSR zu minimieren, hat eine mathematische Lösung, die nicht sehr rechenintensiv ist.
Diese Lösung wird als Normalengleichung bezeichnet.
Dabei gilt:
- β0,β1,…,βn – sind die Parameter des Modells;
- X – ist ein Array von Merkmalswerten aus dem Trainingsdatensatz;
- Xk – ist die elementweise Potenz $k$ des $X$-Arrays;
- ytrue – ist ein Array von Zielwerten aus dem Trainingsdatensatz.
Diese Gleichung liefert die Parameter einer Geraden mit dem geringsten SSR.
Nicht verstanden, wie das funktioniert? Kein Problem! Es handelt sich um ziemlich komplexe Mathematik. Die Parameter müssen jedoch nicht von Hand berechnet werden. Viele Bibliotheken haben die lineare Regression bereits implementiert.
Quiz
1. Betrachten Sie das obige Bild. Welche Regressionsgerade ist besser?
2. y_true - y_predicted wird genannt
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 3.33
Bestimmung der Parameter
Swipe um das Menü anzuzeigen
Wir wissen nun, dass die Lineare Regression einfach eine Linie ist, die die Daten am besten beschreibt. Aber wie erkennt man, welche die richtige ist?
Man kann die Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Zielwert für jeden Datenpunkt im Trainingsdatensatz berechnen.
Diese Differenzen werden als Residuen (oder Fehler) bezeichnet. Das Ziel ist es, die Residuen so klein wie möglich zu halten.
Methode der kleinsten Quadrate
Der Standardansatz ist die Methode der kleinsten Quadrate (OLS):
Jedes Residuum wird quadriert (hauptsächlich, um das Vorzeichen zu eliminieren), und alle werden aufsummiert.
Dies wird als SSR (Summe der quadrierten Residuen) bezeichnet. Die Aufgabe besteht darin, die Parameter zu finden, die die SSR minimieren.
Normalengleichung
Glücklicherweise müssen wir nicht alle Geraden ausprobieren und deren SSR berechnen. Die Aufgabe, das SSR zu minimieren, hat eine mathematische Lösung, die nicht sehr rechenintensiv ist.
Diese Lösung wird als Normalengleichung bezeichnet.
Dabei gilt:
- β0,β1,…,βn – sind die Parameter des Modells;
- X – ist ein Array von Merkmalswerten aus dem Trainingsdatensatz;
- Xk – ist die elementweise Potenz $k$ des $X$-Arrays;
- ytrue – ist ein Array von Zielwerten aus dem Trainingsdatensatz.
Diese Gleichung liefert die Parameter einer Geraden mit dem geringsten SSR.
Nicht verstanden, wie das funktioniert? Kein Problem! Es handelt sich um ziemlich komplexe Mathematik. Die Parameter müssen jedoch nicht von Hand berechnet werden. Viele Bibliotheken haben die lineare Regression bereits implementiert.
Quiz
1. Betrachten Sie das obige Bild. Welche Regressionsgerade ist besser?
2. y_true - y_predicted wird genannt
Danke für Ihr Feedback!