モデリングサマリー
メニューを表示するにはスワイプしてください
モデルの構築、パイプラインの利用、ハイパーパラメータの調整方法を習得済み。また、評価手法としてトレイン・テスト分割と交差検証の2つを学習済み。
次のステップは、GridSearchCV または RandomizedSearchCV を用いて評価とチューニングを組み合わせること。
データセットが非常に小さいため、GridSearchCV を使用しますが、以下の内容は RandomizedSearchCV にも適用可能。
交差検証は単一のトレイン・テスト分割よりも安定しているため、目標は最高の交差検証スコアの達成。
GridSearchCV はハイパーパラメータ全体を探索し、このスコアを最大化するものを見つける。最良のスコアは .best_score_ に保存される。
あるデータセットで最適なハイパーパラメータは、新しいデータが到着した際に一般化しない場合があります。
そのため、.best_score_はモデルが全く未知のデータで示す性能より高くなることがあります。
一般的なワークフロー:トレーニングセットとテストセットに分割し、トレーニングセットでクロスバリデーションを実行してモデルを調整し、その後、最適化されたモデルをテストセットで評価して実際の性能を測定。
まとめ:
- データの前処理;
- トレーニングセットとテストセットに分割;
- トレーニングセットでクロスバリデーションを用いて最適な構成を探索;
- テストセットで評価。
3番目のステップでは、通常、複数のアルゴリズムをテストし、それらのハイパーパラメータを調整して最適な選択肢を特定する作業が含まれます。簡単のため、本コースでは単一のアルゴリズムのみを使用しました。
クロスバリデーションは常に最適な選択肢とは限りません。大規模なデータセットでは、CVスコアの計算コストが高くなり、一方でテストセットが大きいため、トレイン・テスト分割の方が安定します。
大規模なデータセットは、トレーニング、バリデーション、テストセットに分割されることが多いです。 ハイパーパラメータはバリデーションセットのパフォーマンスに基づいて選択されます。 最終的に、選択したモデルはテストセットで評価され、汎化性能が確認されます。
penguins データセットは小規模で、インスタンス数はわずか342件です。このため、次の章では評価にクロスバリデーションスコアが使用されます。
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください