Summary  
This chapter explains the importance of scaling numerical features to a common range so that distance-based algorithms like k-NN are not biased by differently scaled inputs and to improve overall processing efficiency.

General domain of usage  
Machine learning data preprocessing

Na het verwerken van ontbrekende waarden en het coderen van categorische kenmerken, is de dataset vrij van problemen die fouten in het model zouden veroorzaken. Er blijft echter een andere uitdaging over: **verschillende schalen van kenmerken**.


Dit probleem veroorzaakt geen fouten als je de huidige gegevens aan het model aanbiedt, maar het kan **de prestaties van sommige ML-modellen aanzienlijk verslechteren**.

Beschouw een voorbeeld waarbij één kenmerk `'age'` is, variërend van **18** tot **50**, en het tweede kenmerk `'income'`, variërend van **$25,000** tot **$500,000**. Het is duidelijk dat een verschil van tien jaar in leeftijd belangrijker is dan een verschil van tien dollar in inkomen.

Sommige modellen, zoals **k-NN** (dat we in deze cursus zullen gebruiken), kunnen deze verschillen echter als **even belangrijk** beschouwen. Hierdoor zal de kolom `'income'` een veel grotere invloed op het model hebben. Het is daarom essentieel dat kenmerken **ongeveer hetzelfde bereik** hebben zodat k-NN effectief kan functioneren.

Hoewel andere modellen minder gevoelig kunnen zijn voor verschillende schalen, kan het schalen van data de **verwerkingssnelheid aanzienlijk verhogen**. Daarom wordt dataschaling vaak als laatste stap in de preprocessing opgenomen.

Zoals hierboven vermeld, is dataschaling meestal de **laatste stap** van de preprocessingfase. Dat komt omdat aanpassingen aan kenmerken na het schalen de data weer ongeschaald kunnen maken.

Opmerking

Het volgende hoofdstuk behandelt de drie meest gebruikte transformers voor dataschaling. Dit zijn `StandardScaler`, `MinMaxScaler` en `MaxAbsScaler`.

Waarom is het belangrijk om features te schalen in machine learning modellen zoals k-nearest neighbors (KNN)?

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Waarom de data schalen?