Erstellung eines praxisnahen Regressionsmodells. Die Datei `houses_simple.csv` enthält Informationen über Immobilienpreise mit der Fläche als Merkmal.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
print(df.head())

Im nächsten Schritt erfolgt die Zuweisung von Variablen und die Visualisierung des Datensatzes:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
X = df['square_feet']
y = df['price']

plt.scatter(X, y, alpha=0.5)
plt.show()

Im Beispiel mit der Körpergröße einer Person war es viel einfacher, sich eine Linie vorzustellen, die gut zu den Daten passt.  

Aber jetzt weisen unsere Daten viel mehr Varianz auf, da das Ziel stark von vielen anderen Faktoren wie Alter, Lage, Innenausstattung usw. abhängt.  
Trotzdem besteht die Aufgabe darin, die Linie zu erstellen, die am besten zu den vorhandenen Daten passt; sie zeigt den Trend an. Dafür sollte die `OLS`-Klasse verwendet werden. Bald lernen wir, wie man weitere Merkmale hinzufügt, um die Vorhersage zu verbessern!

import unittest
import importlib
import numpy as np
import pandas as pd
import statsmodels.api as sm


# Helper for dynamic test names
def _dynamic_test(test_case, condition, ok_msg, fail_msg):
    if condition:
        test_case._testMethodName = ok_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    def test_y_is_price(self):
        import user_code

        condition = (
            hasattr(user_code, "y") and
            isinstance(user_code.y, pd.Series) and
            user_code.y.name == "price"
        )

        _dynamic_test(
            self,
            condition,
            "The `y` variable correctly contains the `price` column.",
            "Expected `y` to be assigned as df['price']."
        )

    def test_X_tilde_is_add_constant(self):
        import user_code

        condition = (
            hasattr(user_code, "X_tilde") and
            isinstance(user_code.X_tilde, pd.DataFrame) and
            "const" in user_code.X_tilde.columns
        )

        _dynamic_test(
            self,
            condition,
            "The `X_tilde` matrix is created using sm.add_constant.",
            "Expected `X_tilde` to contain a constant column (using sm.add_constant)."
        )

    def test_regression_model_is_ols(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = (
            hasattr(user_code, "regression_model") and
            isinstance(user_code.regression_model, RegressionResultsWrapper)
        )

        _dynamic_test(
            self,
            condition,
            "The model is an instance of OLS and is fitted.",
            "Expected `regression_model` to be a fitted OLS model."
        )

    def test_X_new_tilde_correct(self):
        import user_code

        condition = (
            hasattr(user_code, "X_new_tilde") and
            hasattr(user_code, "X_new") and
            isinstance(user_code.X_new_tilde, np.ndarray) and
            user_code.X_new_tilde.shape == (3, 2)  # 3 samples + constant
        )

        _dynamic_test(
            self,
            condition,
            "The `X_new_tilde` matrix is correctly created with a constant column.",
            "Expected `X_new_tilde` to be a 2-column array created using sm.add_constant."
        )

    def test_y_pred_is_correct_shape(self):
        import user_code
        import numpy as np

        condition = (
            hasattr(user_code, "y_pred") and
            isinstance(user_code.y_pred, np.ndarray) and
            user_code.y_pred.shape == (3,)
        )

        _dynamic_test(
            self,
            condition,
            "The `y_pred` array has the correct shape (3,).",
            "Expected `y_pred` to be a NumPy array with shape (3,)."
        )

    def test_predict_called(self):
        """
        Checks that the predictions are numbers and reasonable (not NaN or None).
        """
        import user_code
        import numpy as np

        try:
            preds = user_code.y_pred
            condition = (
                isinstance(preds, np.ndarray) and
                np.all(~np.isnan(preds)) and
                preds.size == 3
            )
        except Exception:
            condition = False

        _dynamic_test(
            self,
            condition,
            "The predictions are valid numeric outputs.",
            "Expected `y_pred` to contain valid numeric values."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Lineare Regression ist ein zentrales Konzept in der prädiktiven Analytik. Sie wird von Data Scientists, Datenanalysten und Statistikern häufig verwendet, da sie einfach zu erstellen und zu interpretieren ist, aber dennoch für viele Aufgaben ausreichend leistungsfähig bleibt.

Beginnen wir mit dem einfachsten Modell der linearen Regression. Sie lernen das Konzept der linearen Regression kennen und erfahren, wie Vorhersagen in Python getroffen werden.

Die meisten Vorhersageaufgaben in der Praxis beinhalten mehr als ein Merkmal. Sie lernen, wie man lineare Regression mit mehreren Merkmalen anwendet.

Eine Gerade beschreibt die Daten nicht immer ausreichend. Lernen Sie, wie ein komplexeres Modell für Vorhersagen erstellt werden kann. Dafür eignet sich die polynomiale Regression.

Nachdem Sie nun wissen, wie man verschiedene lineare Regressionsmodelle erstellt, benötigen Sie eine Methode, um das beste auszuwählen. Dies ist mithilfe von Metriken möglich. In diesem Abschnitt werden die am häufigsten verwendeten Metriken sowie die Herausforderungen bei deren Anwendung erläutert.

Herausforderung: Vorhersage von Hauspreisen

Lösung