学ぶトレーニングセット | 機械学習の概念

メニューを表示するにはスワイプしてください

教師あり学習または教師なし学習では、トレーニングセットは通常、表形式で提示される。

例として、diabetes dataset（糖尿病データセット）があり、これはある人物が糖尿病かどうかを予測するために使用される。このデータセットには、年齢、ボディマス指数、血圧などのパラメータを持つ768人の女性の記録が含まれている。これらのパラメータは**特徴量（features）**と呼ばれる。

データセットには、人物が糖尿病かどうかを示す'Outcome'列も含まれている。これは**ターゲット変数（target）**である。

表の各行はインスタンス（instance）（**データポイント（data point）またはサンプル（sample）**とも呼ばれる）であり、1人の個人に関する情報を表している。

表（トレーニングセット）にはターゲット列が含まれており、これはラベル付きであることを意味する。

このトレーニングセットで機械学習モデルを学習させ、学習後は特徴量のみから他の人物（新しいインスタンス）が糖尿病かどうかを予測できるようになる。

注意

このトレーニングセットは、21歳以上の女性のみの情報を含むため、バイアスのあるデータセットの例です。そのため、モデルは男性や21歳未満の女性に対しては、これらのグループで学習されていないため、予測精度が低くなる可能性があります。

コーディング時には、特徴量のカラムを通常 X に、ターゲットのカラムを y に割り当てる。

新しいインスタンスの特徴は X_new として割り当てられる。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 1. 章 3

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1. 章 3