Utmaning: Förutsäga Huspriser
Du kommer nu att bygga en regressionsmodell för ett verkligt exempel. Du har en fil, houses_simple.csv
, som innehåller information om bostadspriser med dess yta som en egenskap.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Nästa steg är att tilldela variabler och visualisera datasettet:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
I exemplet med en persons längd var det mycket lättare att föreställa sig en linje som passade datan väl.
Men nu har vår data mycket större variation eftersom målet till stor del beror på många andra faktorer som ålder, plats, interiör, etc.
Uppgiften är ändå att konstruera den linje som bäst passar den data vi har; den kommer att visa trenden. Klassen OLS
ska användas för detta. Snart kommer vi att lära oss hur man lägger till fler variabler, vilket kommer att förbättra prediktionen!
Swipe to start coding
- Tilldela kolumnen
'price'
fråndf
tilly
. - Skapa matrisen
X_tilde
med hjälp av funktionenadd_constant()
frånstatsmodels
(importerad somsm
). - Initiera
OLS
-objektet och träna det. - Förbehandla arrayen
X_new
på samma sätt somX
. - Prediktera målet för matrisen
X_new_tilde
.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
What is the OLS class and how do I use it for regression?
Can you explain why adding more features improves prediction?
What does the scatter plot tell us about the data?
Awesome!
Completion rate improved to 5.26
Utmaning: Förutsäga Huspriser
Svep för att visa menyn
Du kommer nu att bygga en regressionsmodell för ett verkligt exempel. Du har en fil, houses_simple.csv
, som innehåller information om bostadspriser med dess yta som en egenskap.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Nästa steg är att tilldela variabler och visualisera datasettet:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
I exemplet med en persons längd var det mycket lättare att föreställa sig en linje som passade datan väl.
Men nu har vår data mycket större variation eftersom målet till stor del beror på många andra faktorer som ålder, plats, interiör, etc.
Uppgiften är ändå att konstruera den linje som bäst passar den data vi har; den kommer att visa trenden. Klassen OLS
ska användas för detta. Snart kommer vi att lära oss hur man lägger till fler variabler, vilket kommer att förbättra prediktionen!
Swipe to start coding
- Tilldela kolumnen
'price'
fråndf
tilly
. - Skapa matrisen
X_tilde
med hjälp av funktionenadd_constant()
frånstatsmodels
(importerad somsm
). - Initiera
OLS
-objektet och träna det. - Förbehandla arrayen
X_new
på samma sätt somX
. - Prediktera målet för matrisen
X_new_tilde
.
Lösning
Tack för dina kommentarer!
single