Summary  
This chapter explains how to prevent overfitting in logistic regression by applying L2 regularization controlled by the C hyperparameter and selecting its optimal value via grid search, as well as the need to scale features when regularization is used.  

General domain of usage  
Binary classification tasks

前の章で示したように、`PolynomialFeatures` を使用すると複雑な決定境界を作成可能。**2次**の多項式特徴量でも、下図のような境界を生成できる。

これは2次の多項式にすぎないが、次数を上げるとさらに**複雑な形状**が得られる場合がある。しかし、これには問題がある。ロジスティック回帰によって構築された決定境界が**過度に複雑**になり、モデルが過学習を起こす可能性がある。

**過学習**とは、モデルがデータの一般的なパターンを学習するのではなく、すべての訓練データに対応するために非常に複雑な決定境界を構築してしまう現象。未見データで良好な性能を発揮することが機械学習モデルの主な目的であるにもかかわらず、過学習したモデルは未見データで十分な性能を発揮できない。

正則化は過学習の問題に対処する手法。実際、`LogisticRegression` クラスではデフォルトで **l2正則化** が使用されている。ただし、モデルにどの程度強く正則化を適用するかは設定が必要であり、これは `C` パラメータで制御される。

- `C` が大きい場合 - 正則化が弱くなり、過学習が増加;
- `C` が小さい場合 - 正則化が強くなり、過学習が減少（ただし、過小適合の可能性もあり）。

どの値の `C` が良いモデルになるかはデータセットによって異なるため、`GridSearchCV` を使って選択するのが望ましい。

正則化ありのロジスティック回帰を使用する場合、**データのスケーリング**が重要。正則化は大きな係数をペナルティ化するため、スケーリングを行わないと値の大きい特徴量が結果を歪める可能性がある。実際、**正則化を使わない場合でもスケーリングはほぼ必須**。

注意

`LogisticRegression` クラスにはデフォルトで正則化が含まれているため、正則化を削除する場合は（`penalty=None` を設定）、またはデータをスケーリングする必要がある（例：`StandardScaler` を使用）。

`PolynomialFeatures` と `StandardScaler` の両方を使用する場合は、多項式特徴量を生成した**後**に `StandardScaler` を適用すること。多項式展開**前**にスケーリングを行うと、すでに標準化された値を二乗や掛け算することで、**不自然な分布**になる可能性がある。

誤っている記述を選択してください。

データを前処理する正しい順序はどれですか

Pythonを使用したカテゴリカルな結果を予測するための分類手法を紹介します。分類モデルの構築、トレーニング、評価、決定境界の解釈、一般的なアルゴリズムの実世界データセットへの適用に焦点を当てます。


Overfittingと正則化

1. 誤っている記述を選択してください。

2. データを前処理する正しい順序はどれですか