Agora você irá construir um modelo de regressão com um exemplo do mundo real. Você possui um arquivo, `houses_simple.csv`, que contém informações sobre preços de casas com a área como uma das características.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
print(df.head())

O próximo passo é atribuir variáveis e visualizar o conjunto de dados:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
X = df['square_feet']
y = df['price']

plt.scatter(X, y, alpha=0.5)
plt.show()

No exemplo com a altura de uma pessoa, era muito mais fácil imaginar uma linha ajustando bem os dados.  

Mas agora nossos dados apresentam muito mais variância, já que o alvo depende fortemente de muitos outros fatores como idade, localização, interior, etc.  
De qualquer forma, a tarefa é construir a linha que melhor se ajusta aos dados que temos; ela mostrará a tendência. A classe `OLS` deve ser utilizada para isso. Em breve aprenderemos como adicionar mais variáveis, o que tornará a previsão melhor!

import unittest
import importlib
import numpy as np
import pandas as pd
import statsmodels.api as sm


# Helper for dynamic test names
def _dynamic_test(test_case, condition, ok_msg, fail_msg):
    if condition:
        test_case._testMethodName = ok_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    def test_y_is_price(self):
        import user_code

        condition = (
            hasattr(user_code, "y") and
            isinstance(user_code.y, pd.Series) and
            user_code.y.name == "price"
        )

        _dynamic_test(
            self,
            condition,
            "The `y` variable correctly contains the `price` column.",
            "Expected `y` to be assigned as df['price']."
        )

    def test_X_tilde_is_add_constant(self):
        import user_code

        condition = (
            hasattr(user_code, "X_tilde") and
            isinstance(user_code.X_tilde, pd.DataFrame) and
            "const" in user_code.X_tilde.columns
        )

        _dynamic_test(
            self,
            condition,
            "The `X_tilde` matrix is created using sm.add_constant.",
            "Expected `X_tilde` to contain a constant column (using sm.add_constant)."
        )

    def test_regression_model_is_ols(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = (
            hasattr(user_code, "regression_model") and
            isinstance(user_code.regression_model, RegressionResultsWrapper)
        )

        _dynamic_test(
            self,
            condition,
            "The model is an instance of OLS and is fitted.",
            "Expected `regression_model` to be a fitted OLS model."
        )

    def test_X_new_tilde_correct(self):
        import user_code

        condition = (
            hasattr(user_code, "X_new_tilde") and
            hasattr(user_code, "X_new") and
            isinstance(user_code.X_new_tilde, np.ndarray) and
            user_code.X_new_tilde.shape == (3, 2)  # 3 samples + constant
        )

        _dynamic_test(
            self,
            condition,
            "The `X_new_tilde` matrix is correctly created with a constant column.",
            "Expected `X_new_tilde` to be a 2-column array created using sm.add_constant."
        )

    def test_y_pred_is_correct_shape(self):
        import user_code
        import numpy as np

        condition = (
            hasattr(user_code, "y_pred") and
            isinstance(user_code.y_pred, np.ndarray) and
            user_code.y_pred.shape == (3,)
        )

        _dynamic_test(
            self,
            condition,
            "The `y_pred` array has the correct shape (3,).",
            "Expected `y_pred` to be a NumPy array with shape (3,)."
        )

    def test_predict_called(self):
        """
        Checks that the predictions are numbers and reasonable (not NaN or None).
        """
        import user_code
        import numpy as np

        try:
            preds = user_code.y_pred
            condition = (
                isinstance(preds, np.ndarray) and
                np.all(~np.isnan(preds)) and
                preds.size == 3
            )
        except Exception:
            condition = False

        _dynamic_test(
            self,
            condition,
            "The predictions are valid numeric outputs.",
            "Expected `y_pred` to contain valid numeric values."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

A Regressão Linear é um conceito fundamental em análise preditiva. É amplamente utilizada por cientistas de dados, analistas de dados e estatísticos, pois é fácil de construir e interpretar, mas poderosa o suficiente para diversas tarefas.

Vamos começar com o modelo mais simples de Regressão Linear! Você aprenderá o conceito por trás da Regressão Linear e como realizar previsões em Python.

A maioria das tarefas de previsão do mundo real envolve mais de uma variável. Você aprenderá como lidar com Regressão Linear com múltiplas variáveis.

Uma linha reta nem sempre descreve bem os dados. Vamos aprender como construir um modelo mais complexo para previsão! É para isso que a Regressão Polinomial é adequada.

Agora que você sabe como construir vários modelos de Regressão Linear, é necessário um método para escolher o melhor. Isso pode ser feito utilizando métricas. Esta seção explica as métricas mais utilizadas e as dificuldades que podem surgir ao utilizá-las.

Desafio: Previsão de Preços de Casas

Desafio: Previsão de Preços de Casas

Solução