Je gaat nu een regressiemodel bouwen met een praktijkvoorbeeld. Je hebt een bestand, `houses_simple.csv`, dat informatie bevat over huizenprijzen met de oppervlakte als kenmerk.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
print(df.head())

De volgende stap is het toewijzen van variabelen en het visualiseren van de dataset:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
X = df['square_feet']
y = df['price']

plt.scatter(X, y, alpha=0.5)
plt.show()

In het voorbeeld met de lengte van een persoon was het veel eenvoudiger om je een lijn voor te stellen die goed bij de gegevens past.  

Maar nu heeft onze data veel meer variatie, omdat de doelvariabele sterk afhankelijk is van veel andere factoren zoals leeftijd, locatie, interieur, enzovoort.  
Toch is de opdracht om de lijn te construeren die het beste bij de beschikbare gegevens past; deze zal de trend weergeven. De `OLS`-klasse moet hiervoor worden gebruikt. Binnenkort leren we hoe we meer kenmerken kunnen toevoegen, wat de voorspelling zal verbeteren!

import unittest
import importlib
import numpy as np
import pandas as pd
import statsmodels.api as sm


# Helper for dynamic test names
def _dynamic_test(test_case, condition, ok_msg, fail_msg):
    if condition:
        test_case._testMethodName = ok_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    def test_y_is_price(self):
        import user_code

        condition = (
            hasattr(user_code, "y") and
            isinstance(user_code.y, pd.Series) and
            user_code.y.name == "price"
        )

        _dynamic_test(
            self,
            condition,
            "The `y` variable correctly contains the `price` column.",
            "Expected `y` to be assigned as df['price']."
        )

    def test_X_tilde_is_add_constant(self):
        import user_code

        condition = (
            hasattr(user_code, "X_tilde") and
            isinstance(user_code.X_tilde, pd.DataFrame) and
            "const" in user_code.X_tilde.columns
        )

        _dynamic_test(
            self,
            condition,
            "The `X_tilde` matrix is created using sm.add_constant.",
            "Expected `X_tilde` to contain a constant column (using sm.add_constant)."
        )

    def test_regression_model_is_ols(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = (
            hasattr(user_code, "regression_model") and
            isinstance(user_code.regression_model, RegressionResultsWrapper)
        )

        _dynamic_test(
            self,
            condition,
            "The model is an instance of OLS and is fitted.",
            "Expected `regression_model` to be a fitted OLS model."
        )

    def test_X_new_tilde_correct(self):
        import user_code

        condition = (
            hasattr(user_code, "X_new_tilde") and
            hasattr(user_code, "X_new") and
            isinstance(user_code.X_new_tilde, np.ndarray) and
            user_code.X_new_tilde.shape == (3, 2)  # 3 samples + constant
        )

        _dynamic_test(
            self,
            condition,
            "The `X_new_tilde` matrix is correctly created with a constant column.",
            "Expected `X_new_tilde` to be a 2-column array created using sm.add_constant."
        )

    def test_y_pred_is_correct_shape(self):
        import user_code
        import numpy as np

        condition = (
            hasattr(user_code, "y_pred") and
            isinstance(user_code.y_pred, np.ndarray) and
            user_code.y_pred.shape == (3,)
        )

        _dynamic_test(
            self,
            condition,
            "The `y_pred` array has the correct shape (3,).",
            "Expected `y_pred` to be a NumPy array with shape (3,)."
        )

    def test_predict_called(self):
        """
        Checks that the predictions are numbers and reasonable (not NaN or None).
        """
        import user_code
        import numpy as np

        try:
            preds = user_code.y_pred
            condition = (
                isinstance(preds, np.ndarray) and
                np.all(~np.isnan(preds)) and
                preds.size == 3
            )
        except Exception:
            condition = False

        _dynamic_test(
            self,
            condition,
            "The predictions are valid numeric outputs.",
            "Expected `y_pred` to contain valid numeric values."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Lineaire regressie is een cruciaal concept binnen voorspellende analyse. Het wordt veel gebruikt door data scientists, data-analisten en statistici omdat het eenvoudig te bouwen en te interpreteren is, maar krachtig genoeg voor veel toepassingen.

Laten we beginnen met het eenvoudigste lineaire regressiemodel. U leert het concept achter lineaire regressie en hoe u voorspellingen kunt doen in Python.

De meeste voorspellingstaken in de praktijk omvatten meer dan één kenmerk. U leert hoe u lineaire regressie met meerdere kenmerken kunt toepassen.

Een rechte lijn beschrijft de data niet altijd goed. Laten we leren hoe we een complexer model voor voorspelling kunnen bouwen. Daarvoor is polynomiale regressie geschikt.

Nu je weet hoe je meerdere lineaire regressiemodellen kunt bouwen, heb je een methode nodig om het beste model te selecteren. Dit is mogelijk met behulp van metrische gegevens. In deze sectie worden de meest gebruikte metrische gegevens en de uitdagingen bij het gebruik ervan toegelicht.

Uitdaging: Het Voorspellen van Huizenprijzen

Uitdaging: Het Voorspellen van Huizenprijzen

Oplossing