Entfernen von Ausreißern mit der Z-Score-Methode
Eine gängige Methode zur Erkennung und Entfernung von Ausreißern ist die Z-Score-Methode. Diese Technik bestimmt, wie weit ein Datenpunkt in Standardabweichungen vom Mittelwert entfernt ist. Liegt ein Datenpunkt über einem bestimmten Schwellenwert (üblicherweise ±3), wird er als Ausreißer betrachtet.
Was ist ein Z-Score?
Ein Z-Score (auch Standardwert genannt) wird mit folgender Formel berechnet:
Z=σX−μDabei gilt:
- X: der ursprüngliche Datenpunkt;
- μ: der Mittelwert des Datensatzes;
- σ: die Standardabweichung des Datensatzes.
Berechnung von Z-Scores
Die Berechnung von Z-Scores kann manuell anhand der Formel erfolgen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Oder es kann die eingebaute Funktion verwendet werden:
df$cgpa_zscore <- scale(df$cgpa)
Identifizierung von Ausreißern
Nach der Berechnung der Z-Scores kann ein Schwellenwert (±3 in diesem Fall) gewählt und eine einfache Filteroperation angewendet werden, um alle Einträge außerhalb dieses Bereichs auszuwählen:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Alternativ können alle Einträge innerhalb des Bereichs ausgewählt werden, um einen ausreißerfreien Datensatz zu erstellen:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain why the threshold of 3 is commonly used for z-scores?
How do I interpret positive and negative z-scores in my dataset?
What should I do if my data is not normally distributed?
Awesome!
Completion rate improved to 4
Entfernen von Ausreißern mit der Z-Score-Methode
Swipe um das Menü anzuzeigen
Eine gängige Methode zur Erkennung und Entfernung von Ausreißern ist die Z-Score-Methode. Diese Technik bestimmt, wie weit ein Datenpunkt in Standardabweichungen vom Mittelwert entfernt ist. Liegt ein Datenpunkt über einem bestimmten Schwellenwert (üblicherweise ±3), wird er als Ausreißer betrachtet.
Was ist ein Z-Score?
Ein Z-Score (auch Standardwert genannt) wird mit folgender Formel berechnet:
Z=σX−μDabei gilt:
- X: der ursprüngliche Datenpunkt;
- μ: der Mittelwert des Datensatzes;
- σ: die Standardabweichung des Datensatzes.
Berechnung von Z-Scores
Die Berechnung von Z-Scores kann manuell anhand der Formel erfolgen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Oder es kann die eingebaute Funktion verwendet werden:
df$cgpa_zscore <- scale(df$cgpa)
Identifizierung von Ausreißern
Nach der Berechnung der Z-Scores kann ein Schwellenwert (±3 in diesem Fall) gewählt und eine einfache Filteroperation angewendet werden, um alle Einträge außerhalb dieses Bereichs auszuwählen:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Alternativ können alle Einträge innerhalb des Bereichs ausgewählt werden, um einen ausreißerfreien Datensatz zu erstellen:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Danke für Ihr Feedback!