Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ データの種類 | 機械学習の概念
Pythonによる機械学習入門

データの種類

メニューを表示するにはスワイプしてください

トレーニングセット内の各列(特徴量)には、それぞれデータ型が関連付けられています。これらのデータ型は、数値型カテゴリ型、および日付・時刻型に分類されます。

データの種類

ほとんどの機械学習アルゴリズムは数値データでのみ良好に動作するため、カテゴリ型や日付・時刻型の値は数値に変換する必要があります。

日付や時刻の場合、タスクに応じて 'year''month' などの特徴量を抽出できます。これらはすでに数値型の値であるため、そのまま利用できます。

画像

カテゴリカルデータは、扱うのがやや難しい。

カテゴリカルデータの種類

カテゴリカルデータは2種類に分類される:

  • 順序データ(Ordinal data) は、カテゴリに自然な順序があるタイプのカテゴリカルデータ。例:教育レベル(小学校から博士号まで)、評価(非常に悪いから非常に良いまで)など。

  • 名義データ(Nominal data) は、カテゴリに自然な順序がないタイプのカテゴリカルデータ。例:名前、性別、出身国など。

カテゴリカルデータの種類

順序型データと名義型データを数値に変換するには異なる手法が必要であり、それぞれ別々に扱う必要がある。

Note
さらに学ぶ

日付を数値に変換するより良い方法が存在するが、それはこの入門コースの範囲外である。例えば、'month' 特徴量のみを使用すると、12月が実際には1月に近いことを考慮できず、9月よりも近いことが反映されない。

question-icon

特徴とそのデータ型を対応させてください。

Price (100, 235) –
Color (blue, orange) –

Academic grades (A, B, C, and so on) –

クリックまたはドラッグ`n`ドロップして空欄を埋めてください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  4

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  4
some-alt