Udfordring: Forudsigelse af Huspriser
Du skal nu opbygge en regressionsmodel med et virkelighedsnært eksempel. Du har en fil, houses_simple.csv
, der indeholder information om boligpriser med areal som en egenskab.
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Næste trin er at tildele variabler og visualisere datasættet:
import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
I eksemplet med en persons højde var det meget lettere at forestille sig en linje, der passede godt til dataene.
Men nu har vores data meget mere variation, da målet i høj grad afhænger af mange andre faktorer som alder, beliggenhed, indretning osv.
Opgaven er dog stadig at konstruere den linje, der bedst passer til de data, vi har; den vil vise trenden. Klassen OLS
skal anvendes til dette. Snart lærer vi, hvordan vi kan tilføje flere funktioner, hvilket vil forbedre forudsigelsen!
Swipe to start coding
- Tildel kolonnen
'price'
fradf
tily
. - Opret matricen
X_tilde
ved hjælp af funktionenadd_constant()
frastatsmodels
(importeret somsm
). - Initialiser
OLS
-objektet og træn det. - Forbehandl arrayet
X_new
på samme måde somX
. - Forudsig målet for matricen
X_new_tilde
.
Løsning
Tak for dine kommentarer!