Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen R-Quadrat | Auswahl des Besten Modells
Lineare Regression mit Python

bookR-Quadrat

Was ist R-squared

Im Kapitel Metriken wurden einige der am häufigsten verwendeten Metriken für Regression behandelt. Dazu gehören MSE, RMSE und MAE. Diese eignen sich gut zum Vergleichen von Modellen, aber wenn nur ein Modell erstellt wird, ist oft unklar, ob der Wert für den eigenen Datensatz gut ist oder ob weitere Modelle ausprobiert werden sollten.

Glücklicherweise gibt es eine Metrik namens R-squared, die die Modellgüte auf einer Skala von 0 bis 1 misst. R-squared berechnet den Anteil der Varianz des Zielwerts, der durch das Modell erklärt wird.

Das Problem ist, dass die erklärte Varianz nicht direkt berechnet werden kann. Die unerklärte Varianz lässt sich jedoch berechnen, sodass die obige Gleichung umgestellt wird:

Gesamtvarianz

Die Gesamtvarianz entspricht einfach der Varianz des Zielwerts, und wir können die Varianz des Zielwerts mit der Formel der Stichprobenvarianz aus der Statistik berechnen ( ist der Mittelwert des Zielwerts):

Hier ist ein Beispiel mit Visualisierung. Die Unterschiede zwischen dem tatsächlichen Zielwert und dem Mittelwert des Ziels sind orange markiert. Wie bei der Berechnung des SSR nehmen wir die Länge jeder orangefarbenen Linie, quadrieren sie und addieren sie zur Summe, teilen das Ergebnis jedoch nun durch m-1. In diesem Beispiel ergibt sich eine Gesamtvarianz von 11,07.

Nicht erklärte Varianz

Nun müssen wir die vom Modell nicht erklärte Varianz berechnen. Wenn das Modell die gesamte Varianz erklärt hätte, lägen alle Punkte auf der erstellten Regressionslinie. Das ist jedoch selten der Fall, daher berechnen wir die Varianz des Zielwerts nun in Bezug auf die Regressionslinie anstelle des Mittelwerts. Wir verwenden dieselbe Formel, ersetzen jedoch durch die Vorhersagen des Modells.

Hier ist ein Beispiel mit Visualisierung:

Nun wissen wir alles, um das R-Quadrat zu berechnen:

Wir haben einen R-Quadrat-Wert von 0,92 erhalten, was nahe bei 1 liegt, daher haben wir ein sehr gutes Modell. Wir berechnen das R-Quadrat auch für ein weiteres Modell.

Das R-Quadrat ist niedriger, da das Modell die Daten etwas unteranpasst.

R-Quadrat in Python

Die Klasse sm.OLS berechnet das R-Quadrat für uns. Wir finden es in der summary()-Tabelle hier.

Zusammenfassend ist das R-Quadrat eine Metrik für eine Regression. Es kann Werte von 0 bis 1 annehmen. Im Gegensatz zu anderen Metriken wie MSE/MAE ist ein höherer Wert besser (sofern das Modell nicht überanpasst). Das R-Quadrat ist in der summary()-Tabelle der Klasse sm.OLS zu finden.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain what a good R-squared value is?

How does R-squared compare to other regression metrics like MSE or MAE?

Can R-squared ever be negative?

Awesome!

Completion rate improved to 5.26

bookR-Quadrat

Swipe um das Menü anzuzeigen

Was ist R-squared

Im Kapitel Metriken wurden einige der am häufigsten verwendeten Metriken für Regression behandelt. Dazu gehören MSE, RMSE und MAE. Diese eignen sich gut zum Vergleichen von Modellen, aber wenn nur ein Modell erstellt wird, ist oft unklar, ob der Wert für den eigenen Datensatz gut ist oder ob weitere Modelle ausprobiert werden sollten.

Glücklicherweise gibt es eine Metrik namens R-squared, die die Modellgüte auf einer Skala von 0 bis 1 misst. R-squared berechnet den Anteil der Varianz des Zielwerts, der durch das Modell erklärt wird.

Das Problem ist, dass die erklärte Varianz nicht direkt berechnet werden kann. Die unerklärte Varianz lässt sich jedoch berechnen, sodass die obige Gleichung umgestellt wird:

Gesamtvarianz

Die Gesamtvarianz entspricht einfach der Varianz des Zielwerts, und wir können die Varianz des Zielwerts mit der Formel der Stichprobenvarianz aus der Statistik berechnen ( ist der Mittelwert des Zielwerts):

Hier ist ein Beispiel mit Visualisierung. Die Unterschiede zwischen dem tatsächlichen Zielwert und dem Mittelwert des Ziels sind orange markiert. Wie bei der Berechnung des SSR nehmen wir die Länge jeder orangefarbenen Linie, quadrieren sie und addieren sie zur Summe, teilen das Ergebnis jedoch nun durch m-1. In diesem Beispiel ergibt sich eine Gesamtvarianz von 11,07.

Nicht erklärte Varianz

Nun müssen wir die vom Modell nicht erklärte Varianz berechnen. Wenn das Modell die gesamte Varianz erklärt hätte, lägen alle Punkte auf der erstellten Regressionslinie. Das ist jedoch selten der Fall, daher berechnen wir die Varianz des Zielwerts nun in Bezug auf die Regressionslinie anstelle des Mittelwerts. Wir verwenden dieselbe Formel, ersetzen jedoch durch die Vorhersagen des Modells.

Hier ist ein Beispiel mit Visualisierung:

Nun wissen wir alles, um das R-Quadrat zu berechnen:

Wir haben einen R-Quadrat-Wert von 0,92 erhalten, was nahe bei 1 liegt, daher haben wir ein sehr gutes Modell. Wir berechnen das R-Quadrat auch für ein weiteres Modell.

Das R-Quadrat ist niedriger, da das Modell die Daten etwas unteranpasst.

R-Quadrat in Python

Die Klasse sm.OLS berechnet das R-Quadrat für uns. Wir finden es in der summary()-Tabelle hier.

Zusammenfassend ist das R-Quadrat eine Metrik für eine Regression. Es kann Werte von 0 bis 1 annehmen. Im Gegensatz zu anderen Metriken wie MSE/MAE ist ein höherer Wert besser (sofern das Modell nicht überanpasst). Das R-Quadrat ist in der summary()-Tabelle der Klasse sm.OLS zu finden.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3
some-alt