データの種類
メニューを表示するにはスワイプしてください
トレーニングセット内の各列(特徴量)には、それぞれデータ型が関連付けられています。これらのデータ型は、数値型、カテゴリ型、および日付・時刻型に分類されます。
ほとんどの機械学習アルゴリズムは数値データでのみ良好に動作するため、カテゴリ型や日付・時刻型の値は数値に変換する必要があります。
日付や時刻の場合、タスクに応じて 'year'、'month' などの特徴量を抽出できます。これらはすでに数値型の値であるため、そのまま利用できます。
カテゴリカルデータは、扱うのがやや難しい。
カテゴリカルデータの種類
カテゴリカルデータは2種類に分類される:
-
順序データ(Ordinal data) は、カテゴリに自然な順序があるタイプのカテゴリカルデータ。例:教育レベル(小学校から博士号まで)、評価(非常に悪いから非常に良いまで)など。
-
名義データ(Nominal data) は、カテゴリに自然な順序がないタイプのカテゴリカルデータ。例:名前、性別、出身国など。
順序型データと名義型データを数値に変換するには異なる手法が必要であり、それぞれ別々に扱う必要がある。
さらに学ぶ
日付を数値に変換するより良い方法が存在するが、それはこの入門コースの範囲外である。例えば、'month' 特徴量のみを使用すると、12月が実際には1月に近いことを考慮できず、9月よりも近いことが反映されない。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 1. 章 4
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 1. 章 4