なぜデータをスケーリングするのか?
メニューを表示するにはスワイプしてください
欠損値の処理やカテゴリカル特徴量のエンコーディングを行った後、データセットはモデルでエラーを引き起こす問題がなくなります。しかし、もう一つの課題が残っています。それは、特徴量ごとのスケールの違いです。
この問題は、現在のデータをモデルに入力してもエラーにはなりませんが、一部の機械学習モデルの性能を大きく低下させる可能性があります。
例として、1つの特徴量が 'age' で18から50の範囲、もう1つの特徴量が 'income' で**$25,000から$500,000**の範囲だとします。10歳の差は10ドルの収入差よりも重要であることは明らかです。
しかし、k-NN(このコースで使用するモデル)のような一部のモデルでは、これらの違いを同等に重要とみなす場合があります。その結果、'income' 列がモデルに与える影響が非常に大きくなります。そのため、k-NNが効果的に機能するには、特徴量がほぼ同じ範囲を持つことが重要です。
他のモデルではスケールの違いによる影響が小さい場合もありますが、データをスケーリングすることで処理速度が大幅に向上することがあります。そのため、データスケーリングは前処理の最終ステップとして一般的に行われます。
前述のとおり、データのスケーリングは通常、前処理段階の最後のステップ。これは、スケーリング後に特徴量へ変更を加えると、再びスケーリングされていない状態になる可能性があるため。
次の章では、データスケーリングで最もよく使われる3つのトランスフォーマーについて解説。StandardScaler、MinMaxScaler、MaxAbsScaler。
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください