Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Bestimmung der Parameter | Abschnitt
Practice
Projects
Quizzes & Challenges
Quizze
Challenges
/
Grundlagen des Überwachten Lernens

bookBestimmung der Parameter

Wir wissen nun, dass die Lineare Regression einfach eine Linie ist, die die Daten am besten beschreibt. Aber wie erkennt man, welche die richtige ist?

Man kann die Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Zielwert für jeden Datenpunkt im Trainingsdatensatz berechnen.
Diese Differenzen werden als Residuen (oder Fehler) bezeichnet. Das Ziel ist es, die Residuen so klein wie möglich zu halten.

Methode der kleinsten Quadrate

Der Standardansatz ist die Methode der kleinsten Quadrate (OLS):
Jedes Residuum wird quadriert (hauptsächlich, um das Vorzeichen zu eliminieren), und alle werden aufsummiert.
Dies wird als SSR (Summe der quadrierten Residuen) bezeichnet. Die Aufgabe besteht darin, die Parameter zu finden, die die SSR minimieren.

Normalengleichung

Glücklicherweise müssen wir nicht alle Geraden ausprobieren und deren SSR berechnen. Die Aufgabe, das SSR zu minimieren, hat eine mathematische Lösung, die nicht sehr rechenintensiv ist.
Diese Lösung wird als Normalengleichung bezeichnet.

β=(β0β1βn)=(X~TX~)1X~Tytrue\vec{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \dots \\ \beta_n \end{pmatrix} = (\tilde{X}^T \tilde{X})^{-1} \tilde{X}^T y_{\text{true}}

Dabei gilt:

  • β0,β1,,βn\beta_0, \beta_1, \dots, \beta_n – sind die Parameter des Modells;
X~=(1XX2Xn);\tilde{X} = \begin{pmatrix} | & | & | & \dots & | \\ 1 & X & X^2 & \dots & X^n \\ | & | & | & \dots & | \end{pmatrix};
  • XX – ist ein Array von Merkmalswerten aus dem Trainingsdatensatz;
  • XkX^k – ist die elementweise Potenz $k$ des $X$-Arrays;
  • ytruey_{\text{true}} – ist ein Array von Zielwerten aus dem Trainingsdatensatz.

Diese Gleichung liefert die Parameter einer Geraden mit dem geringsten SSR.
Nicht verstanden, wie das funktioniert? Kein Problem! Es handelt sich um ziemlich komplexe Mathematik. Die Parameter müssen jedoch nicht von Hand berechnet werden. Viele Bibliotheken haben die lineare Regression bereits implementiert.

Quiz

1. Betrachten Sie das obige Bild. Welche Regressionsgerade ist besser?

2. y_true - y_predicted wird genannt

question mark

Betrachten Sie das obige Bild. Welche Regressionsgerade ist besser?

Select the correct answer

question mark

y_true - y_predicted wird genannt

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookBestimmung der Parameter

Swipe um das Menü anzuzeigen

Wir wissen nun, dass die Lineare Regression einfach eine Linie ist, die die Daten am besten beschreibt. Aber wie erkennt man, welche die richtige ist?

Man kann die Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Zielwert für jeden Datenpunkt im Trainingsdatensatz berechnen.
Diese Differenzen werden als Residuen (oder Fehler) bezeichnet. Das Ziel ist es, die Residuen so klein wie möglich zu halten.

Methode der kleinsten Quadrate

Der Standardansatz ist die Methode der kleinsten Quadrate (OLS):
Jedes Residuum wird quadriert (hauptsächlich, um das Vorzeichen zu eliminieren), und alle werden aufsummiert.
Dies wird als SSR (Summe der quadrierten Residuen) bezeichnet. Die Aufgabe besteht darin, die Parameter zu finden, die die SSR minimieren.

Normalengleichung

Glücklicherweise müssen wir nicht alle Geraden ausprobieren und deren SSR berechnen. Die Aufgabe, das SSR zu minimieren, hat eine mathematische Lösung, die nicht sehr rechenintensiv ist.
Diese Lösung wird als Normalengleichung bezeichnet.

β=(β0β1βn)=(X~TX~)1X~Tytrue\vec{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \dots \\ \beta_n \end{pmatrix} = (\tilde{X}^T \tilde{X})^{-1} \tilde{X}^T y_{\text{true}}

Dabei gilt:

  • β0,β1,,βn\beta_0, \beta_1, \dots, \beta_n – sind die Parameter des Modells;
X~=(1XX2Xn);\tilde{X} = \begin{pmatrix} | & | & | & \dots & | \\ 1 & X & X^2 & \dots & X^n \\ | & | & | & \dots & | \end{pmatrix};
  • XX – ist ein Array von Merkmalswerten aus dem Trainingsdatensatz;
  • XkX^k – ist die elementweise Potenz $k$ des $X$-Arrays;
  • ytruey_{\text{true}} – ist ein Array von Zielwerten aus dem Trainingsdatensatz.

Diese Gleichung liefert die Parameter einer Geraden mit dem geringsten SSR.
Nicht verstanden, wie das funktioniert? Kein Problem! Es handelt sich um ziemlich komplexe Mathematik. Die Parameter müssen jedoch nicht von Hand berechnet werden. Viele Bibliotheken haben die lineare Regression bereits implementiert.

Quiz

1. Betrachten Sie das obige Bild. Welche Regressionsgerade ist besser?

2. y_true - y_predicted wird genannt

question mark

Betrachten Sie das obige Bild. Welche Regressionsgerade ist besser?

Select the correct answer

question mark

y_true - y_predicted wird genannt

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 2
some-alt