Utmaning: Förutsäga Huspriser
Du kommer nu att bygga en regressionsmodell för ett verkligt exempel. Du har en fil, houses_simple.csv
, som innehåller information om bostadspriser med dess yta som en egenskap.
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Nästa steg är att tilldela variabler och visualisera datasetet:
import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
I exemplet med en persons längd var det mycket lättare att föreställa sig en linje som passade data väl.
Men nu har våra data mycket större variation eftersom målet till stor del beror på många andra faktorer som ålder, plats, interiör osv.
Uppgiften är ändå att skapa den linje som bäst passar de data vi har; den kommer att visa trenden. Klassen OLS
ska användas för detta. Snart kommer vi att lära oss hur man lägger till fler variabler, vilket kommer att förbättra prediktionen!
Swipe to start coding
- Tilldela kolumnen
'price'
fråndf
tilly
. - Skapa matrisen
X_tilde
med hjälp av funktionenadd_constant()
frånstatsmodels
(importerad somsm
). - Initiera
OLS
-objektet och träna det. - Förbehandla arrayen
X_new
på samma sätt somX
. - Förutsäg målvärdet för matrisen
X_new_tilde
.
Lösning
Tack för dina kommentarer!