R-Quadrat
Was ist R-Quadrat
MSE, RMSE und MAE wurden bereits behandelt. Sie helfen beim Vergleich von Modellen, aber ein einzelner Wert ist ohne Kontext schwer zu beurteilen. Es ist möglicherweise unklar, ob der Wert für den eigenen Datensatz „ausreichend gut“ ist.
R-Quadrat löst dieses Problem, indem es misst, wie viel der Varianz des Zielwerts das Modell erklärt. Der Wert liegt zwischen 0 und 1, was die Interpretation erleichtert.
Das Problem ist, dass wir die erklärte Varianz nicht direkt berechnen können. Allerdings können wir die unerklärte Varianz berechnen, daher transformieren wir die obige Gleichung zu:
Gesamtvarianz
Die Gesamtvarianz ist einfach die Varianz des Zielwerts. Wir können die Varianz des Zielwerts mit der Stichprobenvarianzformel aus der Statistik berechnen (ȳ ist der Mittelwert des Zielwerts):
Im Beispiel werden die Differenzen zwischen den tatsächlichen Werten und dem Mittelwert des Zielwerts (orange Linien) quadriert und aufsummiert, anschließend durch m−1 geteilt, was eine Gesamtvarianz von 11.07 ergibt.
Unerklärte Varianz
Als Nächstes berechnen wir die Varianz, die das Modell nicht erklärt. Wären die Vorhersagen perfekt, würden alle Punkte genau auf der Regressionsgeraden liegen. Wir verwenden die gleiche Varianzformel, ersetzen jedoch ȳ durch die vorhergesagten Werte.
Hier ist ein Beispiel mit Visualisierung:
Nun sind alle Voraussetzungen zur Berechnung des R-Quadrats bekannt:
Es wurde ein R-Quadrat-Wert von 0,92 erzielt, was nahe bei 1 liegt. Das Modell ist somit sehr gut. Zusätzlich wird das R-Quadrat für ein weiteres Modell berechnet.
Das R-Quadrat ist niedriger, da das Modell die Daten etwas unteranpasst.
R-Quadrat in Python
Die Klasse sm.OLS berechnet das R-Quadrat für uns. Wir finden es in der summary()-Tabelle hier.
Das R-Quadrat liegt zwischen 0 und 1, wobei höhere Werte besser sind (sofern das Modell nicht überanpasst). Die Ausgabe von summary() aus sm.OLS enthält den R-Quadrat-Wert.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain what a good R-squared value is?
How does R-squared compare to MSE, RMSE, and MAE?
Can you show how to interpret R-squared in real-world scenarios?
Awesome!
Completion rate improved to 5.26
R-Quadrat
Swipe um das Menü anzuzeigen
Was ist R-Quadrat
MSE, RMSE und MAE wurden bereits behandelt. Sie helfen beim Vergleich von Modellen, aber ein einzelner Wert ist ohne Kontext schwer zu beurteilen. Es ist möglicherweise unklar, ob der Wert für den eigenen Datensatz „ausreichend gut“ ist.
R-Quadrat löst dieses Problem, indem es misst, wie viel der Varianz des Zielwerts das Modell erklärt. Der Wert liegt zwischen 0 und 1, was die Interpretation erleichtert.
Das Problem ist, dass wir die erklärte Varianz nicht direkt berechnen können. Allerdings können wir die unerklärte Varianz berechnen, daher transformieren wir die obige Gleichung zu:
Gesamtvarianz
Die Gesamtvarianz ist einfach die Varianz des Zielwerts. Wir können die Varianz des Zielwerts mit der Stichprobenvarianzformel aus der Statistik berechnen (ȳ ist der Mittelwert des Zielwerts):
Im Beispiel werden die Differenzen zwischen den tatsächlichen Werten und dem Mittelwert des Zielwerts (orange Linien) quadriert und aufsummiert, anschließend durch m−1 geteilt, was eine Gesamtvarianz von 11.07 ergibt.
Unerklärte Varianz
Als Nächstes berechnen wir die Varianz, die das Modell nicht erklärt. Wären die Vorhersagen perfekt, würden alle Punkte genau auf der Regressionsgeraden liegen. Wir verwenden die gleiche Varianzformel, ersetzen jedoch ȳ durch die vorhergesagten Werte.
Hier ist ein Beispiel mit Visualisierung:
Nun sind alle Voraussetzungen zur Berechnung des R-Quadrats bekannt:
Es wurde ein R-Quadrat-Wert von 0,92 erzielt, was nahe bei 1 liegt. Das Modell ist somit sehr gut. Zusätzlich wird das R-Quadrat für ein weiteres Modell berechnet.
Das R-Quadrat ist niedriger, da das Modell die Daten etwas unteranpasst.
R-Quadrat in Python
Die Klasse sm.OLS berechnet das R-Quadrat für uns. Wir finden es in der summary()-Tabelle hier.
Das R-Quadrat liegt zwischen 0 und 1, wobei höhere Werte besser sind (sofern das Modell nicht überanpasst). Die Ausgabe von summary() aus sm.OLS enthält den R-Quadrat-Wert.
Danke für Ihr Feedback!