Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ モデリングサマリー | モデリング
Pythonによる機械学習入門

bookモデリングサマリー

メニューを表示するにはスワイプしてください

モデルの構築、パイプラインの利用、ハイパーパラメータの調整方法を習得済み。また、評価手法としてトレイン・テスト分割と交差検証の2つを学習済み。 次のステップは、GridSearchCV または RandomizedSearchCV を用いて評価とチューニングを組み合わせること。

Note
注意

データセットが非常に小さいため、GridSearchCV を使用しますが、以下の内容は RandomizedSearchCV にも適用可能。

交差検証は単一のトレイン・テスト分割よりも安定しているため、目標は最高の交差検証スコアの達成。 GridSearchCV はハイパーパラメータ全体を探索し、このスコアを最大化するものを見つける。最良のスコアは .best_score_ に保存される。

Note
注意

あるデータセットで最適なハイパーパラメータは、新しいデータが到着した際に一般化しない場合があります。 そのため、.best_score_はモデルが全く未知のデータで示す性能より高くなることがあります。

一般的なワークフロー:トレーニングセットとテストセットに分割し、トレーニングセットでクロスバリデーションを実行してモデルを調整し、その後、最適化されたモデルをテストセットで評価して実際の性能を測定。

まとめ:

  1. データの前処理;
  2. トレーニングセットとテストセットに分割;
  3. トレーニングセットでクロスバリデーションを用いて最適な構成を探索;
  4. テストセットで評価。
Note
さらに学ぶ

3番目のステップでは、通常、複数のアルゴリズムをテストし、それらのハイパーパラメータを調整して最適な選択肢を特定する作業が含まれます。簡単のため、本コースでは単一のアルゴリズムのみを使用しました。

クロスバリデーションは常に最適な選択肢とは限りません。大規模なデータセットでは、CVスコアの計算コストが高くなり、一方でテストセットが大きいため、トレイン・テスト分割の方が安定します。

大規模なデータセットは、トレーニングバリデーションテストセットに分割されることが多いです。 ハイパーパラメータはバリデーションセットのパフォーマンスに基づいて選択されます。 最終的に、選択したモデルはテストセットで評価され、汎化性能が確認されます。

penguins データセットは小規模で、インスタンス数はわずか342件です。このため、次の章では評価にクロスバリデーションスコアが使用されます。

question mark

なぜ小規模なデータセットでは、ハイパーパラメータチューニングにおいてクロスバリデーションが特に有用であり、大規模なデータセットではトレイン・テスト分割が好まれるのでしょうか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 4.  9

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 4.  9
some-alt