なぜデータをスケールするのか?
メニューを表示するにはスワイプしてください
欠損値の処理やカテゴリカル特徴量のエンコーディングを行った後、データセットにはモデルでエラーを引き起こす問題がなくなります。しかし、もう一つの課題が残っています。それは、特徴量ごとのスケールの違いです。
この問題は、現在のデータをモデルに入力してもエラーにはなりませんが、一部の機械学習モデルの性能を大きく低下させる可能性があります。
例として、1つの特徴量が'age'(年齢)で、範囲は18から50、もう1つの特徴量が'income'(収入)で、範囲は**$25,000から$500,000**の場合を考える。10年の年齢差は、収入の10ドル差よりもはるかに重要であることは明らかである。
しかし、k-NNのような一部のモデル(本コースで使用)では、これらの違いを同等に重要とみなす場合がある。その結果、'income'列がモデルに与える影響が非常に大きくなる。したがって、k-NNが効果的に機能するためには、特徴量の範囲がほぼ同じであることが重要である。
他のモデルではスケールの違いによる影響が小さい場合もあるが、データのスケーリングによって処理速度が大幅に向上することがある。そのため、データスケーリングは前処理の最終ステップとして一般的に含まれている。
上記の通り、データスケーリングは通常、前処理段階の最終ステップである。それは、スケーリング後に特徴量を変更すると、再びスケーリングされていない状態になる可能性があるためである。
次の章では、データスケーリングで最もよく使われる3つのトランスフォーマーについて説明する。それらはStandardScaler、MinMaxScaler、およびMaxAbsScalerである。
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください