Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ モデリングのまとめ | モデリング
Pythonによる機械学習入門

モデリングのまとめ

メニューを表示するにはスワイプしてください

モデルの構築、パイプラインの利用、ハイパーパラメータの調整方法を習得。さらに、評価手法としてトレイン・テスト分割と交差検証の2つを学習。 次のステップは、GridSearchCV または RandomizedSearchCV を用いて評価とチューニングを組み合わせること。

Note
注意

データセットが非常に小さいため、GridSearchCV を使用しますが、以下の内容は RandomizedSearchCV にも適用可能。

交差検証は単一のトレイン・テスト分割よりも安定しているため、目標は最高の交差検証スコアの達成。 GridSearchCV はハイパーパラメータ全体を探索し、このスコアを最大化するものを見つける。最良のスコアは .best_score_ に保存。

Note
注意

あるデータセットで最適なハイパーパラメータは、新しいデータが到着した際に一般化しない可能性があります。 そのため、.best_score_はモデルが全く未知のデータで示す性能より高くなる場合があります。

一般的なワークフロー:データをトレーニングセットとテストセットに分割し、トレーニングセットでクロスバリデーションを実行してモデルを調整し、その後、最適化されたモデルをテストセットで評価して実際の性能を測定します。

トレイン・テスト分割

まとめ:

  1. データの前処理;
  2. トレーニングセットとテストセットへの分割;
  3. トレーニングセットで交差検証を行い、最適な構成を見つける;
  4. テストセットで評価。
Note
さらに学ぶ

3番目のステップでは、通常、複数のアルゴリズムを試し、それぞれのハイパーパラメータを調整して最適な選択肢を特定します。本コースでは簡単のため、単一のアルゴリズムのみを使用しました。

交差検証は常に最適な選択肢とは限りません。大規模なデータセットでは、CVスコアの計算コストが高くなり、テストセットが大きいことでトレイン・テスト分割の方が安定します。

大規模なデータセットは、一般的にトレーニングセット、バリデーションセット、テストセットに分割。 ハイパーパラメータはバリデーションセットでの性能に基づいて選択。 最終的に、選択したモデルはテストセットで評価され、汎化性能を確認。

トレーニング・テスト・バリデーション分割

penguins datasetは342件のみの小規模なデータセット。このため、次の章では評価にクロスバリデーションスコアを使用。

question mark

なぜクロスバリデーションは、小規模なデータセットでハイパーパラメータのチューニングを行う際に特に有用であり、大規模なデータセットではトレイン・テスト分割が好まれるのでしょうか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 4.  9

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 4.  9
some-alt