Lernen Daten-Normalisierung

Daten-Normalisierung ist ein entscheidender Schritt der Vorverarbeitung für viele Clustering-Algorithmen, einschließlich K-means. Merkmale in realen Datensätzen weisen häufig unterschiedliche Skalen und Einheiten auf. Algorithmen, die auf Distanzberechnungen basieren, wie K-means, können stark von Merkmalen mit größeren Skalen beeinflusst werden. Die Normalisierung zielt darauf ab, alle Merkmale auf eine ähnliche Skala zu bringen, um zu verhindern, dass Merkmale mit größeren Werten den Clustering-Prozess dominieren.

StandardScaler

StandardScaler standardisiert Merkmale, indem der Mittelwert entfernt und auf die Einheitsvarianz skaliert wird. Die Daten werden so transformiert, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen. Dies wird erreicht, indem für jedes Merkmal der Mittelwert subtrahiert und durch die Standardabweichung geteilt wird.

StandardScaler ist effektiv, wenn die Daten ungefähr normalverteilt sind. Er wird häufig verwendet und ist oft eine gute Standard-Normalisierungsmethode für viele Algorithmen.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

MinMaxScaler skaliert Merkmale auf einen bestimmten Bereich, typischerweise zwischen 0 und 1. Die Daten werden transformiert, indem jedes Merkmal einzeln skaliert und verschoben wird, sodass es innerhalb des angegebenen Bereichs liegt.

MinMaxScaler ist nützlich, wenn Werte innerhalb eines bestimmten Bereichs benötigt werden oder wenn die Daten nicht normalverteilt sind. Die Form der ursprünglichen Verteilung bleibt erhalten, wird jedoch auf den neuen Bereich skaliert.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

Die Wahl zwischen StandardScaler und MinMaxScaler hängt von den Daten und dem jeweiligen Algorithmus ab. StandardScaler wird häufig für Algorithmen wie K-means bevorzugt, wenn die Merkmale ungefähr normalverteilt sind. MinMaxScaler kann nützlich sein, wenn begrenzte Wertebereiche benötigt werden oder wenn die Daten nicht normalverteilt sind.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 3

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

Swipe um das Menü anzuzeigen