Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen R-Quadrat | Das Beste Modell Auswählen
Lineare Regression mit Python
course content

Kursinhalt

Lineare Regression mit Python

Lineare Regression mit Python

1. Einfache Lineare Regression
2. Multiple Lineare Regression
3. Polynomiale Regression
4. Das Beste Modell Auswählen

book
R-Quadrat

Was ist R-Quadrat

Wir haben einige der am häufigsten verwendeten Metriken für Regression im Kapitel Metriken behandelt. Dazu gehören MSE, RMSE und MAE. Diese sind gut geeignet, um Modelle miteinander zu vergleichen, aber wenn Sie nur ein Modell erstellen, ist oft unklar, ob der Wert für Ihren Datensatz gut ist oder ob Sie weitere Modelle ausprobieren sollten.

Glücklicherweise gibt es eine Metrik namens R-Quadrat, die die Modellgüte auf einer Skala von 0 bis 1 misst. R-Quadrat berechnet den Anteil der Varianz des Zielwerts, der durch das Modell erklärt wird.

Das Problem ist, dass wir die erklärte Varianz nicht direkt berechnen können. Wir können jedoch die unerklärte Varianz berechnen, daher transformieren wir die obige Gleichung zu:

Gesamtvarianz

Die Gesamtvarianz ist einfach die Varianz des Zielwerts, und wir können die Varianz des Zielwerts mit der Stichprobenvarianzformel aus der Statistik berechnen ( ist der Mittelwert des Zielwerts):

Hier ist ein Beispiel mit Visualisierung. Die Differenzen zwischen dem tatsächlichen Zielwert und dem Mittelwert des Zielwerts sind orange markiert. Genau wie bei der Berechnung des SSR nehmen wir die Länge jeder orangen Linie, quadrieren sie und addieren sie zur Summe, aber jetzt teilen wir das Ergebnis zusätzlich durch m-1. Hier erhalten wir eine Gesamtvarianz von 11.07.

Unerklärte Varianz

Nun müssen wir die Varianz berechnen, die vom Modell nicht erklärt wird. Wenn das Modell die gesamte Varianz erklären würde, würden alle Punkte auf der erstellten Regressionslinie liegen. Das ist jedoch selten der Fall, daher möchten wir die Varianz des Zielwerts berechnen, diesmal jedoch in Bezug auf die Regressionslinie anstelle des Mittelwerts. Wir verwenden die gleiche Formel, ersetzen jedoch durch die Vorhersagen des Modells.

Hier ist ein Beispiel mit Visualisierung:

Nun wissen wir alles, um das R-Quadrat zu berechnen:

Wir haben einen R-Quadrat-Wert von 0,92 erhalten, was nahe bei 1 liegt, daher haben wir ein sehr gutes Modell. Wir berechnen das R-Quadrat auch für ein weiteres Modell.

Das R-Quadrat ist niedriger, da das Modell die Daten etwas unteranpasst.

R-Quadrat in Python

Die Klasse sm.OLS berechnet das R-Quadrat für uns. Wir finden es in der summary()-Tabelle hier.

Zusammengefasst ist das R-Quadrat eine Metrik für eine Regression. Es kann Werte von 0 bis 1 annehmen. Im Gegensatz zu anderen Metriken wie MSE/MAE ist ein höherer Wert besser (sofern das Modell nicht überanpasst). Das R-Quadrat findet sich in der summary()-Tabelle der Klasse sm.OLS.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Lineare Regression mit Python

Lineare Regression mit Python

1. Einfache Lineare Regression
2. Multiple Lineare Regression
3. Polynomiale Regression
4. Das Beste Modell Auswählen

book
R-Quadrat

Was ist R-Quadrat

Wir haben einige der am häufigsten verwendeten Metriken für Regression im Kapitel Metriken behandelt. Dazu gehören MSE, RMSE und MAE. Diese sind gut geeignet, um Modelle miteinander zu vergleichen, aber wenn Sie nur ein Modell erstellen, ist oft unklar, ob der Wert für Ihren Datensatz gut ist oder ob Sie weitere Modelle ausprobieren sollten.

Glücklicherweise gibt es eine Metrik namens R-Quadrat, die die Modellgüte auf einer Skala von 0 bis 1 misst. R-Quadrat berechnet den Anteil der Varianz des Zielwerts, der durch das Modell erklärt wird.

Das Problem ist, dass wir die erklärte Varianz nicht direkt berechnen können. Wir können jedoch die unerklärte Varianz berechnen, daher transformieren wir die obige Gleichung zu:

Gesamtvarianz

Die Gesamtvarianz ist einfach die Varianz des Zielwerts, und wir können die Varianz des Zielwerts mit der Stichprobenvarianzformel aus der Statistik berechnen ( ist der Mittelwert des Zielwerts):

Hier ist ein Beispiel mit Visualisierung. Die Differenzen zwischen dem tatsächlichen Zielwert und dem Mittelwert des Zielwerts sind orange markiert. Genau wie bei der Berechnung des SSR nehmen wir die Länge jeder orangen Linie, quadrieren sie und addieren sie zur Summe, aber jetzt teilen wir das Ergebnis zusätzlich durch m-1. Hier erhalten wir eine Gesamtvarianz von 11.07.

Unerklärte Varianz

Nun müssen wir die Varianz berechnen, die vom Modell nicht erklärt wird. Wenn das Modell die gesamte Varianz erklären würde, würden alle Punkte auf der erstellten Regressionslinie liegen. Das ist jedoch selten der Fall, daher möchten wir die Varianz des Zielwerts berechnen, diesmal jedoch in Bezug auf die Regressionslinie anstelle des Mittelwerts. Wir verwenden die gleiche Formel, ersetzen jedoch durch die Vorhersagen des Modells.

Hier ist ein Beispiel mit Visualisierung:

Nun wissen wir alles, um das R-Quadrat zu berechnen:

Wir haben einen R-Quadrat-Wert von 0,92 erhalten, was nahe bei 1 liegt, daher haben wir ein sehr gutes Modell. Wir berechnen das R-Quadrat auch für ein weiteres Modell.

Das R-Quadrat ist niedriger, da das Modell die Daten etwas unteranpasst.

R-Quadrat in Python

Die Klasse sm.OLS berechnet das R-Quadrat für uns. Wir finden es in der summary()-Tabelle hier.

Zusammengefasst ist das R-Quadrat eine Metrik für eine Regression. Es kann Werte von 0 bis 1 annehmen. Im Gegensatz zu anderen Metriken wie MSE/MAE ist ein höherer Wert besser (sofern das Modell nicht überanpasst). Das R-Quadrat findet sich in der summary()-Tabelle der Klasse sm.OLS.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3
some-alt