Apprendre Normalisation des Données

La normalisation des données constitue une étape de prétraitement essentielle pour de nombreux algorithmes de clustering, y compris K-means. Les caractéristiques des ensembles de données réels présentent souvent des échelles et des unités différentes. Les algorithmes reposant sur des calculs de distance, comme K-means, peuvent être fortement influencés par les caractéristiques ayant des échelles plus grandes. La normalisation vise à ramener toutes les caractéristiques à une échelle similaire, afin d’éviter que les variables aux valeurs plus élevées ne dominent le processus de regroupement.

StandardScaler

StandardScaler standardise les caractéristiques en supprimant la moyenne et en les mettant à l’échelle d’une variance unitaire. Cette transformation permet d’obtenir des données avec une moyenne de 0 et un écart type de 1. Cela s’effectue en soustrayant la moyenne et en divisant par l’écart type pour chaque caractéristique.

StandardScaler est efficace lorsque les données sont approximativement distribuées normalement. Il est largement utilisé et constitue souvent une méthode de normalisation par défaut adaptée à de nombreux algorithmes.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

MinMaxScaler met à l’échelle les caractéristiques dans une plage spécifique, généralement entre 0 et 1. Il transforme les données en ajustant et en décalant chaque caractéristique individuellement afin qu’elle se situe dans la plage définie.

MinMaxScaler est utile lorsque des valeurs dans une plage spécifique sont nécessaires, ou lorsque les données ne sont pas distribuées normalement. Il préserve la forme de la distribution d’origine, simplement adaptée à la nouvelle plage.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

Le choix entre StandardScaler et MinMaxScaler dépend des données et de l’algorithme utilisé. StandardScaler est souvent privilégié pour des algorithmes comme K-means lorsque les caractéristiques sont approximativement distribuées normalement. MinMaxScaler peut être pertinent lorsque des valeurs bornées sont requises ou lorsque les données ne suivent pas une distribution normale.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the difference between StandardScaler and MinMaxScaler in simple terms?

When should I use StandardScaler versus MinMaxScaler?

Are there any other normalization techniques I should know about?

Awesome!

Completion rate improved to 2.94

Glissez pour afficher le menu

StandardScaler

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 3