Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Daten-Normalisierung | Kernkonzepte
Clusteranalyse

bookDaten-Normalisierung

Daten-Normalisierung ist ein entscheidender Schritt der Vorverarbeitung für viele Clustering-Algorithmen, einschließlich K-means. Merkmale in realen Datensätzen weisen häufig unterschiedliche Skalen und Einheiten auf. Algorithmen, die auf Distanzberechnungen basieren, wie K-means, können stark von Merkmalen mit größeren Skalen beeinflusst werden. Die Normalisierung zielt darauf ab, alle Merkmale auf eine ähnliche Skala zu bringen, um zu verhindern, dass Merkmale mit größeren Werten den Clustering-Prozess dominieren.

StandardScaler

StandardScaler standardisiert Merkmale, indem der Mittelwert entfernt und auf die Einheitsvarianz skaliert wird. Die Daten werden so transformiert, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen. Dies wird erreicht, indem für jedes Merkmal der Mittelwert subtrahiert und durch die Standardabweichung geteilt wird.

StandardScaler ist effektiv, wenn Ihre Daten ungefähr normalverteilt sind. Es wird häufig verwendet und ist oft eine gute Standard-Normalisierungsmethode für viele Algorithmen.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

MinMaxScaler skaliert Merkmale auf einen bestimmten Bereich, typischerweise zwischen 0 und 1. Die Daten werden transformiert, indem jedes Merkmal individuell skaliert und verschoben wird, sodass es innerhalb des angegebenen Bereichs liegt.

MinMaxScaler ist nützlich, wenn Werte innerhalb eines bestimmten Bereichs benötigt werden oder wenn Ihre Daten nicht normalverteilt sind. Die Form der ursprünglichen Verteilung bleibt erhalten, sie wird lediglich auf den neuen Bereich skaliert.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

Die Wahl zwischen StandardScaler und MinMaxScaler hängt von Ihren Daten und dem jeweiligen Algorithmus ab. StandardScaler wird häufig für Algorithmen wie K-means bevorzugt, wenn die Merkmale ungefähr normalverteilt sind. MinMaxScaler kann nützlich sein, wenn begrenzte Wertebereiche benötigt werden oder wenn die Daten nicht normalverteilt sind.

question mark

Warum ist die Daten-Normalisierung bei der Verwendung von Clustering-Algorithmen wie K-means wichtig?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

bookDaten-Normalisierung

Swipe um das Menü anzuzeigen

Daten-Normalisierung ist ein entscheidender Schritt der Vorverarbeitung für viele Clustering-Algorithmen, einschließlich K-means. Merkmale in realen Datensätzen weisen häufig unterschiedliche Skalen und Einheiten auf. Algorithmen, die auf Distanzberechnungen basieren, wie K-means, können stark von Merkmalen mit größeren Skalen beeinflusst werden. Die Normalisierung zielt darauf ab, alle Merkmale auf eine ähnliche Skala zu bringen, um zu verhindern, dass Merkmale mit größeren Werten den Clustering-Prozess dominieren.

StandardScaler

StandardScaler standardisiert Merkmale, indem der Mittelwert entfernt und auf die Einheitsvarianz skaliert wird. Die Daten werden so transformiert, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen. Dies wird erreicht, indem für jedes Merkmal der Mittelwert subtrahiert und durch die Standardabweichung geteilt wird.

StandardScaler ist effektiv, wenn Ihre Daten ungefähr normalverteilt sind. Es wird häufig verwendet und ist oft eine gute Standard-Normalisierungsmethode für viele Algorithmen.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

MinMaxScaler skaliert Merkmale auf einen bestimmten Bereich, typischerweise zwischen 0 und 1. Die Daten werden transformiert, indem jedes Merkmal individuell skaliert und verschoben wird, sodass es innerhalb des angegebenen Bereichs liegt.

MinMaxScaler ist nützlich, wenn Werte innerhalb eines bestimmten Bereichs benötigt werden oder wenn Ihre Daten nicht normalverteilt sind. Die Form der ursprünglichen Verteilung bleibt erhalten, sie wird lediglich auf den neuen Bereich skaliert.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

Die Wahl zwischen StandardScaler und MinMaxScaler hängt von Ihren Daten und dem jeweiligen Algorithmus ab. StandardScaler wird häufig für Algorithmen wie K-means bevorzugt, wenn die Merkmale ungefähr normalverteilt sind. MinMaxScaler kann nützlich sein, wenn begrenzte Wertebereiche benötigt werden oder wenn die Daten nicht normalverteilt sind.

question mark

Warum ist die Daten-Normalisierung bei der Verwendung von Clustering-Algorithmen wie K-means wichtig?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 3
some-alt