Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ トレーニングセット | 機械学習の概念
Pythonによる機械学習入門

bookトレーニングセット

メニューを表示するにはスワイプしてください

教師あり学習または教師なし学習では、トレーニングセットは通常、表形式で提示される。

例として、diabetes dataset(糖尿病データセット)があり、これは人が糖尿病かどうかを予測するために使用される。このデータセットには、年齢、ボディマス指数、血圧などのパラメータを持つ768人の女性の記録が含まれている。これらのパラメータは特徴量と呼ばれる。

データセットには、対象者が糖尿病かどうかを示す'Outcome'列も含まれている。これはターゲット変数である。

表の各行はインスタンスデータポイントまたはサンプルとも呼ばれる)であり、1人の個人に関する情報を表している。

この表(トレーニングセット)にはターゲット列が含まれており、ラベル付きであることを意味する。

このタスクでは、MLモデルをこのトレーニングセットで学習させ、学習後は特徴量のみから他の人(新しいインスタンス)が糖尿病かどうかを予測できるようになる。

Note
ノート

このトレーニングセットは、21歳以上の女性のみの情報を含むバイアスのあるデータセットの例である。そのため、モデルは男性や21歳未満の女性に対しては、十分に学習されていないため、予測精度が低下する可能性がある。

コーディング時には、特徴量の列は通常 X に、ターゲット列は y に割り当てられる。

新しいインスタンスの特徴量は X_new に割り当てられる。

question-icon

変数名と通常保持されるデータを対応させなさい。

X –
y –

X_new –

クリックまたはドラッグ`n`ドロップして空欄を埋めてください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  3

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  3
some-alt