Sfida: Previsione dei Prezzi delle Case
Ora costruirai un modello di regressione su un esempio reale. Hai a disposizione un file, houses_simple.csv
, che contiene informazioni sui prezzi delle case con la superficie come caratteristica.
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Il passo successivo consiste nell'assegnare le variabili e visualizzare il dataset:
import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
Nell'esempio relativo all'altezza di una persona, era molto più semplice immaginare una retta che si adattasse bene ai dati.
Tuttavia, ora i nostri dati presentano una varianza molto maggiore, poiché il target dipende fortemente da molti altri fattori come età, posizione, interni, ecc.
In ogni caso, l'obiettivo è costruire la retta che meglio si adatta ai dati disponibili; essa mostrerà la tendenza. Per questo scopo si dovrebbe utilizzare la classe OLS
. Presto impareremo come aggiungere ulteriori caratteristiche, il che renderà la previsione più accurata!
Swipe to start coding
- Assegnare la colonna
'price'
didf
ay
. - Creare la matrice
X_tilde
utilizzando la funzioneadd_constant()
distatsmodels
(importata comesm
). - Inizializzare l'oggetto
OLS
ed eseguire l'addestramento. - Preprocessare l'array
X_new
nello stesso modo diX
. - Predire il target per la matrice
X_new_tilde
.
Soluzione
Grazie per i tuoi commenti!