トレーニングセット
メニューを表示するにはスワイプしてください
教師あり学習または教師なし学習では、トレーニングセットは通常、表形式で提示される。
例として、diabetes dataset(糖尿病データセット)があり、これはある人物が糖尿病かどうかを予測するために使用される。このデータセットには、年齢、ボディマス指数、血圧などのパラメータを持つ768人の女性の記録が含まれている。これらのパラメータは**特徴量(features)**と呼ばれる。
データセットには、人物が糖尿病かどうかを示す'Outcome'列も含まれている。これは**ターゲット変数(target)**である。
表の各行はインスタンス(instance)(**データポイント(data point)またはサンプル(sample)**とも呼ばれる)であり、1人の個人に関する情報を表している。
表(トレーニングセット)にはターゲット列が含まれており、これはラベル付きであることを意味する。
このトレーニングセットで機械学習モデルを学習させ、学習後は特徴量のみから他の人物(新しいインスタンス)が糖尿病かどうかを予測できるようになる。
注意
このトレーニングセットは、21歳以上の女性のみの情報を含むため、バイアスのあるデータセットの例です。そのため、モデルは男性や21歳未満の女性に対しては、これらのグループで学習されていないため、予測精度が低くなる可能性があります。
コーディング時には、特徴量のカラムを通常 X に、ターゲットのカラムを y に割り当てる。
新しいインスタンスの特徴は X_new として割り当てられる。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 1. 章 3
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 1. 章 3