Entfernen von Ausreißern mit der Z-Score-Methode
Eine gängige Methode zur Erkennung und Entfernung von Ausreißern ist die Z-Score-Methode. Diese Technik bestimmt, wie weit ein Datenpunkt in Standardabweichungen vom Mittelwert entfernt ist. Liegt ein Datenpunkt über einem bestimmten Schwellenwert (häufig ±3), wird er als Ausreißer betrachtet.
Was ist ein Z-Score?
Ein Z-Score (auch Standardwert genannt) wird mit folgender Formel berechnet:
Z=σX−μDabei gilt:
- X: der ursprüngliche Datenpunkt;
- μ: der Mittelwert des Datensatzes;
- σ: die Standardabweichung des Datensatzes.
Berechnung von Z-Scores
Z-Scores können entweder manuell mit folgender Formel berechnet werden:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Oder Sie verwenden die eingebaute Funktion:
df$cgpa_zscore <- scale(df$cgpa)
Ausreißer identifizieren
Nach der Berechnung der Z-Scores kann ein Schwellenwert (±3 in diesem Fall) gewählt und eine einfache Filteroperation angewendet werden, um alle Einträge außerhalb des Bereichs auszuwählen:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Alternativ können alle Einträge innerhalb des Bereichs ausgewählt werden, um einen ausreißerfreien Datensatz zu erstellen:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 4
Entfernen von Ausreißern mit der Z-Score-Methode
Swipe um das Menü anzuzeigen
Eine gängige Methode zur Erkennung und Entfernung von Ausreißern ist die Z-Score-Methode. Diese Technik bestimmt, wie weit ein Datenpunkt in Standardabweichungen vom Mittelwert entfernt ist. Liegt ein Datenpunkt über einem bestimmten Schwellenwert (häufig ±3), wird er als Ausreißer betrachtet.
Was ist ein Z-Score?
Ein Z-Score (auch Standardwert genannt) wird mit folgender Formel berechnet:
Z=σX−μDabei gilt:
- X: der ursprüngliche Datenpunkt;
- μ: der Mittelwert des Datensatzes;
- σ: die Standardabweichung des Datensatzes.
Berechnung von Z-Scores
Z-Scores können entweder manuell mit folgender Formel berechnet werden:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Oder Sie verwenden die eingebaute Funktion:
df$cgpa_zscore <- scale(df$cgpa)
Ausreißer identifizieren
Nach der Berechnung der Z-Scores kann ein Schwellenwert (±3 in diesem Fall) gewählt und eine einfache Filteroperation angewendet werden, um alle Einträge außerhalb des Bereichs auszuwählen:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Alternativ können alle Einträge innerhalb des Bereichs ausgewählt werden, um einen ausreißerfreien Datensatz zu erstellen:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Danke für Ihr Feedback!