Lära Datanormalisering | Grundläggande Koncept

Datannormalisering är ett avgörande förbehandlingssteg för många klustringsalgoritmer, inklusive K-means. Funktioner i verkliga datamängder har ofta olika skalor och enheter. Algoritmer som är beroende av avståndsberäkningar, såsom K-means, kan påverkas kraftigt av funktioner med större skalor. Normalisering syftar till att föra alla funktioner till en liknande skala, vilket förhindrar att funktioner med större värden dominerar klustringsprocessen.

StandardScaler

StandardScaler standardiserar funktioner genom att ta bort medelvärdet och skala till enhetsvarians. Den transformerar data så att de får ett medelvärde på 0 och en standardavvikelse på 1. Detta uppnås genom att subtrahera medelvärdet och dividera med standardavvikelsen för varje funktion.

StandardScaler är effektiv när dina data är ungefär normalfördelade. Den används ofta och är ofta en bra standardmetod för normalisering för många algoritmer.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

MinMaxScaler skalar funktioner till ett specifikt intervall, vanligtvis mellan 0 och 1. Den transformerar data genom att skala och förskjuta varje funktion individuellt så att den ligger inom det angivna intervallet.

MinMaxScaler är användbar när du behöver värden inom ett specifikt intervall, eller när dina data inte är normalfördelade. Den bevarar formen på den ursprungliga fördelningen, men skalar till det nya intervallet.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

Valet mellan StandardScaler och MinMaxScaler beror på dina data och den specifika algoritmen. StandardScaler föredras ofta för algoritmer som K-means när funktionerna är ungefär normalfördelade. MinMaxScaler kan vara användbar när du behöver begränsade värden eller när data inte är normalfördelade.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 3

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 2.94

Svep för att visa menyn