Utfordring: Prediksjon av Boligpriser
Du skal nå bygge en regresjonsmodell basert på et reelt eksempel. Du har en fil, houses_simple.csv
, som inneholder informasjon om boligpriser med areal som en egenskap.
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Neste steg er å tilordne variabler og visualisere datasettet:
import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
I eksempelet med en persons høyde var det mye enklere å forestille seg en linje som passet godt til dataene.
Men nå har dataene våre mye større variasjon siden målet i stor grad avhenger av mange andre faktorer som alder, beliggenhet, interiør osv.
Uansett er oppgaven å finne linjen som passer best til de dataene vi har; den vil vise trenden. OLS
-klassen skal brukes til dette. Snart skal vi lære hvordan vi kan legge til flere variabler, noe som vil forbedre prediksjonen!
Swipe to start coding
- Tildel kolonnen
'price'
fradf
tily
. - Opprett matrisen
X_tilde
ved å bruke funksjonenadd_constant()
frastatsmodels
(importert somsm
). - Initialiser
OLS
-objektet og tren det. - Forhåndsprosesser
X_new
-arrayet på samme måte somX
. - Prediker målet for
X_new_tilde
-matrisen.
Løsning
Takk for tilbakemeldingene dine!