学ぶモデリングのまとめ

メニューを表示するにはスワイプしてください

モデルの構築、パイプラインの利用、ハイパーパラメータの調整方法を習得。さらに、評価手法としてトレイン・テスト分割と交差検証の2つを学習。次のステップは、GridSearchCV または RandomizedSearchCV を用いて評価とチューニングを組み合わせること。

注意

データセットが非常に小さいため、GridSearchCV を使用しますが、以下の内容は RandomizedSearchCV にも適用可能。

交差検証は単一のトレイン・テスト分割よりも安定しているため、目標は最高の交差検証スコアの達成。 GridSearchCV はハイパーパラメータ全体を探索し、このスコアを最大化するものを見つける。最良のスコアは .best_score_ に保存。

注意

あるデータセットで最適なハイパーパラメータは、新しいデータが到着した際に一般化しない可能性があります。そのため、.best_score_はモデルが全く未知のデータで示す性能より高くなる場合があります。

一般的なワークフロー：データをトレーニングセットとテストセットに分割し、トレーニングセットでクロスバリデーションを実行してモデルを調整し、その後、最適化されたモデルをテストセットで評価して実際の性能を測定します。

まとめ：

データの前処理；
トレーニングセットとテストセットへの分割；
トレーニングセットで交差検証を行い、最適な構成を見つける；
テストセットで評価。

さらに学ぶ

3番目のステップでは、通常、複数のアルゴリズムを試し、それぞれのハイパーパラメータを調整して最適な選択肢を特定します。本コースでは簡単のため、単一のアルゴリズムのみを使用しました。

交差検証は常に最適な選択肢とは限りません。大規模なデータセットでは、CVスコアの計算コストが高くなり、テストセットが大きいことでトレイン・テスト分割の方が安定します。

大規模なデータセットは、一般的にトレーニングセット、バリデーションセット、テストセットに分割。ハイパーパラメータはバリデーションセットでの性能に基づいて選択。最終的に、選択したモデルはテストセットで評価され、汎化性能を確認。

penguins datasetは342件のみの小規模なデータセット。このため、次の章では評価にクロスバリデーションスコアを使用。

なぜクロスバリデーションは、小規模なデータセットでハイパーパラメータのチューニングを行う際に特に有用であり、大規模なデータセットではトレイン・テスト分割が好まれるのでしょうか？

正しい答えを選んでください

クロスバリデーションは計算コストが低いため、小規模なデータセットに最適です。

大規模なデータセットは本質的により正確な結果を提供するため、クロスバリデーションは不要です。

クロスバリデーションはすべてのデータポイントが学習と検証の両方に使用されることを保証し、データポイントが限られている小規模なデータセットでは特に重要です。

クロスバリデーションのスコアは検証セットのスコアより信頼性が低く、これは大規模なデータセットでのみ使用されます。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 4. 章 9

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 4. 章 9