Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Pourquoi Mettre à l'Échelle les Données ? | Prétraitement des Données avec Scikit-learn
Introduction au ML Avec Scikit-Learn

bookPourquoi Mettre à l'Échelle les Données ?

Après avoir traité les valeurs manquantes et encodé les variables catégorielles, l'ensemble de données ne présente plus de problèmes susceptibles de provoquer des erreurs dans le modèle. Cependant, un autre défi subsiste : des échelles de caractéristiques différentes.

Ce problème ne provoquera pas d'erreurs si vous fournissez les données dans leur état actuel au modèle, mais il peut détériorer considérablement certains modèles de ML.

Considérons un exemple où une caractéristique est 'age', variant de 18 à 50, et une seconde caractéristique est 'income', variant de $25,000 à $500,000. Il est évident qu'une différence de dix ans d'âge est plus significative qu'une différence de dix dollars de revenu.

Cependant, certains modèles, tels que k-NN (que nous utiliserons dans ce cours), peuvent considérer ces différences comme d'importance équivalente. Par conséquent, la colonne 'income' aura un impact bien plus important sur le modèle. Il est donc essentiel que les caractéristiques aient à peu près la même plage de valeurs pour que k-NN fonctionne efficacement.

Bien que d'autres modèles soient moins sensibles aux différences d'échelle, la mise à l'échelle des données peut accélérer considérablement le traitement. Ainsi, la normalisation des données est généralement incluse comme étape finale du prétraitement.

Note
Remarque

Comme mentionné ci-dessus, la mise à l’échelle des données constitue généralement la dernière étape de la phase de prétraitement. Cela s’explique par le fait que toute modification des caractéristiques après la mise à l’échelle peut rendre les données à nouveau non normalisées.

Le prochain chapitre abordera les trois transformateurs les plus utilisés pour la mise à l’échelle des données : StandardScaler, MinMaxScaler et MaxAbsScaler.

question mark

Pourquoi est-il important de mettre à l’échelle les caractéristiques dans des modèles d’apprentissage automatique comme les k-plus proches voisins (KNN) ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 9

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?

Why does k-NN require features to be on the same scale?

Can you explain how scaling improves processing speed in machine learning models?

Awesome!

Completion rate improved to 3.13

bookPourquoi Mettre à l'Échelle les Données ?

Glissez pour afficher le menu

Après avoir traité les valeurs manquantes et encodé les variables catégorielles, l'ensemble de données ne présente plus de problèmes susceptibles de provoquer des erreurs dans le modèle. Cependant, un autre défi subsiste : des échelles de caractéristiques différentes.

Ce problème ne provoquera pas d'erreurs si vous fournissez les données dans leur état actuel au modèle, mais il peut détériorer considérablement certains modèles de ML.

Considérons un exemple où une caractéristique est 'age', variant de 18 à 50, et une seconde caractéristique est 'income', variant de $25,000 à $500,000. Il est évident qu'une différence de dix ans d'âge est plus significative qu'une différence de dix dollars de revenu.

Cependant, certains modèles, tels que k-NN (que nous utiliserons dans ce cours), peuvent considérer ces différences comme d'importance équivalente. Par conséquent, la colonne 'income' aura un impact bien plus important sur le modèle. Il est donc essentiel que les caractéristiques aient à peu près la même plage de valeurs pour que k-NN fonctionne efficacement.

Bien que d'autres modèles soient moins sensibles aux différences d'échelle, la mise à l'échelle des données peut accélérer considérablement le traitement. Ainsi, la normalisation des données est généralement incluse comme étape finale du prétraitement.

Note
Remarque

Comme mentionné ci-dessus, la mise à l’échelle des données constitue généralement la dernière étape de la phase de prétraitement. Cela s’explique par le fait que toute modification des caractéristiques après la mise à l’échelle peut rendre les données à nouveau non normalisées.

Le prochain chapitre abordera les trois transformateurs les plus utilisés pour la mise à l’échelle des données : StandardScaler, MinMaxScaler et MaxAbsScaler.

question mark

Pourquoi est-il important de mettre à l’échelle les caractéristiques dans des modèles d’apprentissage automatique comme les k-plus proches voisins (KNN) ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 9
some-alt