Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ データセットに慣れ親しむ | Scikit-learnによるデータの前処理
Pythonによる機械学習入門

bookデータセットに慣れ親しむ

メニューを表示するにはスワイプしてください

前処理の開始として、データセットの探索。コース全体を通じて、penguin dataset を使用し、ペンギンの種を予測する課題。

機械学習では クラス と呼ばれることが多い、3つの選択肢。

特徴量は 'island''culmen_depth_mm''flipper_length_mm''body_mass_g''sex'

データセットは penguins.csv ファイルに保存。pd.read_csv() 関数でリンクから読み込み、中身を確認可能。

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

このデータセットには、対処すべきいくつかの問題が存在します。

  • 欠損データ
  • カテゴリ変数
  • 特徴量のスケールの違い

欠損データ

ほとんどの機械学習アルゴリズムは、欠損値を直接処理できないため、学習前に対応が必要です。欠損値は削除するか、補完(代替値で置き換える)する必要があります。

pandasでは、空のセルはNaNとして表現されます。多くの機械学習モデルは、データセットに1つでもNaNが含まれているとエラーを発生させます。

カテゴリカルデータ

このデータセットにはカテゴリカル変数が含まれており、機械学習モデルはこれらを直接処理できません。

カテゴリカルデータは数値形式にエンコードする必要があります。

異なるスケール

'culmen_depth_mm' の値は13.1から21.5の範囲ですが、'body_mass_g' の値は2700から6300の範囲です。そのため、一部の機械学習モデルは 'body_mass_g' 特徴量を 'culmen_depth_mm' よりもはるかに重要とみなす場合があります。

スケーリングはこの問題を解決します。詳細は後の章で説明します。

question-icon

問題とその解決方法を組み合わせてください。

Missing values –
Categorical data –

Different Scales –

クリックまたはドラッグ`n`ドロップして空欄を埋めてください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 2.  2

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 2.  2
some-alt