Summary  
This chapter explains how to calculate and interpret R-squared, a metric that quantifies the proportion of a target variable’s variance explained by a model by comparing total variance to unexplained variance.  

General domain of usage  
Regression model evaluation in predictive modeling.

## Was ist R-Quadrat

MSE, RMSE und MAE wurden bereits behandelt. Sie helfen beim Vergleich von Modellen, aber ein einzelner Wert ist ohne Kontext schwer zu beurteilen. Es ist möglicherweise unklar, ob der Wert für den eigenen Datensatz „ausreichend gut“ ist.

**R-Quadrat** löst dieses Problem, indem es misst, wie viel der Varianz des Zielwerts das Modell erklärt. Der Wert liegt zwischen 0 und 1, was die Interpretation erleichtert.

Das Problem ist, dass wir die erklärte Varianz nicht direkt berechnen können. Allerdings können wir die unerklärte Varianz berechnen, daher transformieren wir die obige Gleichung zu:

## Gesamtvarianz
Die Gesamtvarianz ist einfach die Varianz des Zielwerts. Wir können die Varianz des Zielwerts mit der Stichprobenvarianzformel aus der Statistik berechnen (**ȳ** ist der Mittelwert des Zielwerts):

Im Beispiel werden die Differenzen zwischen den tatsächlichen Werten und dem Mittelwert des Zielwerts (orange Linien) quadriert und aufsummiert, anschließend durch **m−1** geteilt, was eine Gesamtvarianz von 11.07 ergibt.



## Unerklärte Varianz

Als Nächstes berechnen wir die Varianz, die das Modell **nicht** erklärt. Wären die Vorhersagen perfekt, würden alle Punkte genau auf der Regressionsgeraden liegen. Wir verwenden die gleiche Varianzformel, ersetzen jedoch **ȳ** durch die vorhergesagten Werte.

Hier ist ein Beispiel mit Visualisierung:

Nun sind alle Voraussetzungen zur Berechnung des R-Quadrats bekannt:

Es wurde ein R-Quadrat-Wert von 0,92 erzielt, was nahe bei 1 liegt. Das Modell ist somit sehr gut. Zusätzlich wird das R-Quadrat für ein weiteres Modell berechnet.

Das R-Quadrat ist niedriger, da das Modell die Daten etwas unteranpasst.

## R-Quadrat in Python
Die Klasse `sm.OLS` berechnet das R-Quadrat für uns. Wir finden es in der `summary()`-Tabelle hier.

Das R-Quadrat liegt zwischen 0 und 1, wobei höhere Werte besser sind (sofern das Modell nicht überanpasst). Die Ausgabe von `summary()` aus `sm.OLS` enthält den R-Quadrat-Wert.


Lineare Regression ist ein zentrales Konzept in der prädiktiven Analytik. Sie wird von Data Scientists, Datenanalysten und Statistikern häufig verwendet, da sie einfach zu erstellen und zu interpretieren ist, aber dennoch für viele Aufgaben ausreichend leistungsfähig bleibt.

Beginnen wir mit dem einfachsten Modell der linearen Regression. Sie lernen das Konzept der linearen Regression kennen und erfahren, wie Vorhersagen in Python getroffen werden.

Die meisten Vorhersageaufgaben in der Praxis beinhalten mehr als ein Merkmal. Sie lernen, wie man lineare Regression mit mehreren Merkmalen anwendet.

Eine Gerade beschreibt die Daten nicht immer ausreichend. Lernen Sie, wie ein komplexeres Modell für Vorhersagen erstellt werden kann. Dafür eignet sich die polynomiale Regression.

Nachdem Sie nun wissen, wie man verschiedene lineare Regressionsmodelle erstellt, benötigen Sie eine Methode, um das beste auszuwählen. Dies ist mithilfe von Metriken möglich. In diesem Abschnitt werden die am häufigsten verwendeten Metriken sowie die Herausforderungen bei deren Anwendung erläutert.