Haaste: Asuntojen Hintojen Ennustaminen
Seuraavaksi rakennetaan käytännön esimerkki regressiomallista. Käytössäsi on tiedosto houses_simple.csv, joka sisältää tietoja asuntojen hinnoista sekä pinta-alasta ominaisuutena.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Seuraava vaihe on määrittää muuttujat ja visualisoida aineisto:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
Esimerkissä henkilön pituudesta oli paljon helpompi kuvitella viiva, joka sopii hyvin aineistoon.
Nyt kuitenkin datassamme on huomattavasti enemmän vaihtelua, koska kohde muuttuu monen muun tekijän, kuten iän, sijainnin, sisustuksen jne. mukaan.
Tehtävänä on kuitenkin rakentaa viiva, joka sopii parhaiten käytettävissä olevaan dataan; se näyttää trendin. Tätä varten tulisi käyttää OLS-luokkaa. Pian opimme, miten ominaisuuksia voidaan lisätä, mikä parantaa ennustetta!
Swipe to start coding
- Aseta
'price'-datandf-sarake muuttujaany. - Luo
X_tilde-matriisi käyttämälläadd_constant()-kirjaston (tuotu nimellästatsmodels)sm-funktiota. - Alusta
OLS-olio ja kouluta se. - Esikäsittele
X_new-taulukko samalla tavalla kuinX. - Ennusta kohdearvo
X_new_tilde-matriisille.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What is the OLS class and how do I use it for regression?
Can you explain why adding more features improves prediction?
What does the scatter plot tell us about the data?
Awesome!
Completion rate improved to 5.26
Haaste: Asuntojen Hintojen Ennustaminen
Pyyhkäise näyttääksesi valikon
Seuraavaksi rakennetaan käytännön esimerkki regressiomallista. Käytössäsi on tiedosto houses_simple.csv, joka sisältää tietoja asuntojen hinnoista sekä pinta-alasta ominaisuutena.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Seuraava vaihe on määrittää muuttujat ja visualisoida aineisto:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
Esimerkissä henkilön pituudesta oli paljon helpompi kuvitella viiva, joka sopii hyvin aineistoon.
Nyt kuitenkin datassamme on huomattavasti enemmän vaihtelua, koska kohde muuttuu monen muun tekijän, kuten iän, sijainnin, sisustuksen jne. mukaan.
Tehtävänä on kuitenkin rakentaa viiva, joka sopii parhaiten käytettävissä olevaan dataan; se näyttää trendin. Tätä varten tulisi käyttää OLS-luokkaa. Pian opimme, miten ominaisuuksia voidaan lisätä, mikä parantaa ennustetta!
Swipe to start coding
- Aseta
'price'-datandf-sarake muuttujaany. - Luo
X_tilde-matriisi käyttämälläadd_constant()-kirjaston (tuotu nimellästatsmodels)sm-funktiota. - Alusta
OLS-olio ja kouluta se. - Esikäsittele
X_new-taulukko samalla tavalla kuinX. - Ennusta kohdearvo
X_new_tilde-matriisille.
Ratkaisu
Kiitos palautteestasi!
single