Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ チャレンジ:アンダーサンプリングの適用 | 大規模データのサンプリング手法
Pythonによる大規模データハンドリング
セクション 2.  6
single

single

チャレンジ:アンダーサンプリングの適用

メニューを表示するにはスワイプしてください

多くの実際のデータセットでは、クラスの不均衡問題がよく発生します。これは、一方のクラス(多数派)が他方のクラス(少数派)を大きく上回る状況です。この不均衡は、モデルが多数派クラスを予測しやすくなり、少数派クラスの予測精度が低下する原因となります。一般的な解決策の一つがアンダーサンプリングであり、多数派クラスのサンプル数をランダムに減らして、少数派クラスと同じ数に揃えます。このチャレンジでは、この手法を実践的に体験します。2つのクラスを持つカテゴリカルなターゲット列を含むDataFrameが与えられます。目的は、多数派クラスをランダムにアンダーサンプリングすることで、両クラスが同数となる新しいDataFrameを返すことです。

タスク

スワイプしてコーディングを開始

2つのクラスを持つカテゴリカルなターゲット列を含むDataFrameが与えられた場合、多数派クラスをランダムにアンダーサンプリングすることで、両クラスのサンプル数が同じになる新しいDataFrameを返します。

  • 各クラスのサンプル数をカウントし、少数派クラスと多数派クラスを判定します。
  • 多数派クラスから、少数派クラスのサンプル数と同じ数だけランダムにサンプルを選択します。
  • ランダムに選択した多数派クラスのサンプルと、すべての少数派クラスのサンプルを連結します。
  • 結果のDataFrameをシャッフルし、インデックスをリセットします。

解答

Switch to desktop実践的な練習のためにデスクトップに切り替える下記のオプションのいずれかを利用して、現在の場所から続行する
すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 2.  6
single

single

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

some-alt