Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ トレーニングセット | 機械学習の概念
Pythonによる機械学習入門

トレーニングセット

メニューを表示するにはスワイプしてください

教師あり学習または教師なし学習では、トレーニングセットは通常、表形式で提示される。

例として、diabetes dataset(糖尿病データセット)があり、これはある人物が糖尿病かどうかを予測するために使用される。このデータセットには、年齢、ボディマス指数、血圧などのパラメータを持つ768人の女性の記録が含まれている。これらのパラメータは**特徴量(features)**と呼ばれる。

データセットには、人物が糖尿病かどうかを示す'Outcome'列も含まれている。これは**ターゲット変数(target)**である。

表の各行はインスタンス(instance)(**データポイント(data point)またはサンプル(sample)**とも呼ばれる)であり、1人の個人に関する情報を表している。

トレーニングセット

表(トレーニングセット)にはターゲット列が含まれており、これはラベル付きであることを意味する。

このトレーニングセットで機械学習モデルを学習させ、学習後は特徴量のみから他の人物(新しいインスタンス)が糖尿病かどうかを予測できるようになる。

新しいインスタンス
Note
注意

このトレーニングセットは、21歳以上の女性のみの情報を含むため、バイアスのあるデータセットの例です。そのため、モデルは男性や21歳未満の女性に対しては、これらのグループで学習されていないため、予測精度が低くなる可能性があります。

コーディング時には、特徴量のカラムを通常 X に、ターゲットのカラムを y に割り当てる。

特徴列とターゲット

新しいインスタンスの特徴は X_new として割り当てられる。

新しいインスタンス
question-icon

変数名と通常保持されるデータを対応させてください。

X –
y –

X_new –

クリックまたはドラッグ`n`ドロップして空欄を埋めてください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  3

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  3
some-alt