Herausforderung: Vorhersage von Immobilienpreisen
Nun wird ein praxisnahes Regressionsmodell erstellt. Es steht eine Datei, houses_simple.csv, zur Verfügung, die Informationen über Immobilienpreise mit der Fläche als Merkmal enthält.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Im nächsten Schritt erfolgt die Zuweisung von Variablen und die Visualisierung des Datensatzes:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
Im Beispiel mit der Körpergröße einer Person war es viel einfacher, sich eine Linie vorzustellen, die die Daten gut abbildet.
Aber jetzt weisen unsere Daten viel mehr Varianz auf, da das Ziel stark von vielen anderen Faktoren wie Alter, Lage, Innenausstattung usw. abhängt.
Dennoch besteht die Aufgabe darin, die Linie zu bestimmen, die die vorhandenen Daten am besten beschreibt; sie zeigt den Trend an. Dafür sollte die OLS-Klasse verwendet werden. Bald lernen wir, wie man weitere Merkmale hinzufügt, um die Vorhersage zu verbessern!
Swipe to start coding
- Die Spalte
'price'ausdfalsyzuweisen. - Die Matrix
X_tildemit der Funktionadd_constant()ausstatsmodels(importiert alssm) erstellen. - Das
OLS-Objekt initialisieren und trainieren. - Das Array
X_newauf die gleiche Weise wieXvorverarbeiten. - Das Ziel für die Matrix
X_new_tildevorhersagen.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
What is the OLS class and how do I use it for regression?
Can you explain why adding more features improves prediction?
What does the scatter plot tell us about the data?
Großartig!
Completion Rate verbessert auf 5.26
Herausforderung: Vorhersage von Immobilienpreisen
Swipe um das Menü anzuzeigen
Nun wird ein praxisnahes Regressionsmodell erstellt. Es steht eine Datei, houses_simple.csv, zur Verfügung, die Informationen über Immobilienpreise mit der Fläche als Merkmal enthält.
1234import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') print(df.head())
Im nächsten Schritt erfolgt die Zuweisung von Variablen und die Visualisierung des Datensatzes:
123456789import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv') X = df['square_feet'] y = df['price'] plt.scatter(X, y, alpha=0.5) plt.show()
Im Beispiel mit der Körpergröße einer Person war es viel einfacher, sich eine Linie vorzustellen, die die Daten gut abbildet.
Aber jetzt weisen unsere Daten viel mehr Varianz auf, da das Ziel stark von vielen anderen Faktoren wie Alter, Lage, Innenausstattung usw. abhängt.
Dennoch besteht die Aufgabe darin, die Linie zu bestimmen, die die vorhandenen Daten am besten beschreibt; sie zeigt den Trend an. Dafür sollte die OLS-Klasse verwendet werden. Bald lernen wir, wie man weitere Merkmale hinzufügt, um die Vorhersage zu verbessern!
Swipe to start coding
- Die Spalte
'price'ausdfalsyzuweisen. - Die Matrix
X_tildemit der Funktionadd_constant()ausstatsmodels(importiert alssm) erstellen. - Das
OLS-Objekt initialisieren und trainieren. - Das Array
X_newauf die gleiche Weise wieXvorverarbeiten. - Das Ziel für die Matrix
X_new_tildevorhersagen.
Lösung
Danke für Ihr Feedback!
single