Haaste: Asuntojen Hintojen Ennustaminen
Seuraavaksi rakennat esimerkin regressiomallista todellisessa tilanteessa. Käytössäsi on tiedosto houses_simple.csv
, joka sisältää tietoja asuntojen hinnoista sekä pinta-alasta ominaisuutena.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Seuraava vaihe on määrittää muuttujat ja visualisoida aineisto:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
Esimerkissä henkilön pituudesta oli paljon helpompi kuvitella viiva, joka sopii hyvin aineistoon.
Nyt kuitenkin datassamme on huomattavasti enemmän vaihtelua, koska kohdearvo riippuu monista muista tekijöistä, kuten iästä, sijainnista, sisustuksesta jne.
Tehtävänä on kuitenkin rakentaa viiva, joka parhaiten kuvaa käytettävissä olevaa dataa; se osoittaa trendin. Tätä varten tulisi käyttää OLS
-luokkaa. Pian opimme, miten lisäominaisuuksia voidaan ottaa mukaan, mikä parantaa ennustetta!
Swipe to start coding
- Aseta
'price'
-datandf
-sarake muuttujaany
. - Luo
X_tilde
-matriisi käyttämälläadd_constant()
-kirjaston (tuotu nimellästatsmodels
)sm
-funktiota. - Alusta
OLS
-olio ja kouluta se. - Esikäsittele
X_new
-taulukko samalla tavalla kuinX
. - Ennusta kohdearvo
X_new_tilde
-matriisille.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What is the OLS class and how do I use it for regression?
Can you explain why adding more features improves prediction?
What does the scatter plot tell us about the data?
Awesome!
Completion rate improved to 5.26
Haaste: Asuntojen Hintojen Ennustaminen
Pyyhkäise näyttääksesi valikon
Seuraavaksi rakennat esimerkin regressiomallista todellisessa tilanteessa. Käytössäsi on tiedosto houses_simple.csv
, joka sisältää tietoja asuntojen hinnoista sekä pinta-alasta ominaisuutena.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Seuraava vaihe on määrittää muuttujat ja visualisoida aineisto:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
Esimerkissä henkilön pituudesta oli paljon helpompi kuvitella viiva, joka sopii hyvin aineistoon.
Nyt kuitenkin datassamme on huomattavasti enemmän vaihtelua, koska kohdearvo riippuu monista muista tekijöistä, kuten iästä, sijainnista, sisustuksesta jne.
Tehtävänä on kuitenkin rakentaa viiva, joka parhaiten kuvaa käytettävissä olevaa dataa; se osoittaa trendin. Tätä varten tulisi käyttää OLS
-luokkaa. Pian opimme, miten lisäominaisuuksia voidaan ottaa mukaan, mikä parantaa ennustetta!
Swipe to start coding
- Aseta
'price'
-datandf
-sarake muuttujaany
. - Luo
X_tilde
-matriisi käyttämälläadd_constant()
-kirjaston (tuotu nimellästatsmodels
)sm
-funktiota. - Alusta
OLS
-olio ja kouluta se. - Esikäsittele
X_new
-taulukko samalla tavalla kuinX
. - Ennusta kohdearvo
X_new_tilde
-matriisille.
Ratkaisu
Kiitos palautteestasi!
single