チャレンジ：住宅価格の予測

これから実際の回帰モデルを構築します。houses_simple.csv というファイルには、面積を特徴量とした住宅価格に関する情報が含まれています。


              1234
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
print(df.head())

次のステップは、変数の割り当てとデータセットの可視化です。


              123456789
            
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
X = df['square_feet']
y = df['price']

plt.scatter(X, y, alpha=0.5)
plt.show()

身長の例では、データに適した直線を想像するのははるかに簡単でした。

しかし、今回のデータは分散が大きく、ターゲットが年齢、場所、内装など多くの要素に大きく依存しています。それでも、与えられたデータに最も適した直線を作成することが課題です。この直線は傾向を示します。そのために OLS クラスを使用します。今後、特徴量を追加する方法を学び、予測精度が向上します。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 1. 章 5

single

メニューを表示するにはスワイプしてください

これから実際の回帰モデルを構築します。houses_simple.csv というファイルには、面積を特徴量とした住宅価格に関する情報が含まれています。


              1234
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
print(df.head())

次のステップは、変数の割り当てとデータセットの可視化です。


              123456789
            
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/houses_simple.csv')
X = df['square_feet']
y = df['price']

plt.scatter(X, y, alpha=0.5)
plt.show()

身長の例では、データに適した直線を想像するのははるかに簡単でした。

しかし、今回のデータは分散が大きく、ターゲットが年齢、場所、内装など多くの要素に大きく依存しています。それでも、与えられたデータに最も適した直線を作成することが課題です。この直線は傾向を示します。そのために OLS クラスを使用します。今後、特徴量を追加する方法を学び、予測精度が向上します。

タスク

スワイプしてコーディングを開始

'price'のdf列をyに代入。
X_tilde（add_constant()としてインポート）からstatsmodels関数を使い、sm行列を作成。
OLSオブジェクトを初期化し、学習を実行。
X_new配列もXと同様に前処理。
X_new_tilde行列でターゲット値を予測。

解答

実践的な練習のためにデスクトップに切り替える下記のオプションのいずれかを利用して、現在の場所から続行する

すべて明確でしたか？

フィードバックありがとうございます！

セクション 1. 章 5

single

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください