Summary  
This chapter explains the importance of scaling numerical features to a common range so that distance-based algorithms like k-NN are not biased by differently scaled inputs and to improve overall processing efficiency.

General domain of usage  
Machine learning data preprocessing

欠損値の処理やカテゴリカル特徴量のエンコーディングを行った後、データセットにはモデルでエラーを引き起こす問題がなくなります。しかし、もう一つの課題が残っています。それは、**特徴量ごとのスケールの違い**です。


この問題は、現在のデータをモデルに入力してもエラーにはなりませんが、**一部の機械学習モデルの性能を大きく低下させる可能性があります**。

例として、1つの特徴量が`'age'`（年齢）で、範囲は**18**から**50**、もう1つの特徴量が`'income'`（収入）で、範囲は**$25,000**から**$500,000**の場合を考える。10年の年齢差は、収入の10ドル差よりもはるかに重要であることは明らかである。

しかし、**k-NN**のような一部のモデル（本コースで使用）では、これらの違いを**同等に重要**とみなす場合がある。その結果、`'income'`列がモデルに与える影響が非常に大きくなる。したがって、k-NNが効果的に機能するためには、特徴量の範囲が**ほぼ同じ**であることが重要である。

他のモデルではスケールの違いによる影響が小さい場合もあるが、データのスケーリングによって**処理速度が大幅に向上**することがある。そのため、データスケーリングは前処理の最終ステップとして一般的に含まれている。

上記の通り、データスケーリングは通常、前処理段階の**最終ステップ**である。それは、スケーリング後に特徴量を変更すると、再びスケーリングされていない状態になる可能性があるためである。

注意

次の章では、データスケーリングで最もよく使われる3つのトランスフォーマーについて説明する。それらは`StandardScaler`、`MinMaxScaler`、および`MaxAbsScaler`である。

k-近傍法（KNN）のような機械学習モデルで特徴量をスケーリングすることが重要なのはなぜですか？

機械学習は今やあらゆる場所で利用されています。自分で学びたいと思いませんか？このコースは、機械学習の世界への入門として、基本的な概念の習得、最も人気のあるMLライブラリであるScikit-learnの操作、そして最初の機械学習プロジェクトの構築を学ぶためのものです。
このコースは、Python、Pandas、Numpyの基礎知識を持つ学生を対象としています。

機械学習の概念とMLプロジェクトのワークフローについて学習します。

前処理は、MLプロジェクトにおいて最も重要な段階の一つです。本章では、ほぼすべてのデータセットに必要な前処理手順について解説します。

パイプラインは、すべての前処理ステップとモデルを組み合わせるための便利な方法です。パイプラインを使用することで、モデルの学習や利用がはるかに簡単になります。

モデリングはMLプロジェクトの中で最も楽しい段階です。モデルの構築、チューニング、評価方法を学びましょう。

なぜデータをスケールするのか？