Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Entfernen von Ausreißern mit der Z-Score-Methode | Grundlegende Statistische Analyse
Datenanalyse Mit R

bookEntfernen von Ausreißern mit der Z-Score-Methode

Eine gängige Methode zur Erkennung und Entfernung von Ausreißern ist die Z-Score-Methode. Diese Technik bestimmt, wie weit ein Datenpunkt in Standardabweichungen vom Mittelwert entfernt ist. Liegt ein Datenpunkt über einem bestimmten Schwellenwert (häufig ±3), wird er als Ausreißer betrachtet.

Was ist ein Z-Score?

Ein Z-Score (auch Standardwert genannt) wird mit folgender Formel berechnet:

Z=XμσZ = \frac{X - \mu}{\sigma}

Dabei gilt:

  • XX: der ursprüngliche Datenpunkt;
  • μ\mu: der Mittelwert des Datensatzes;
  • σ\sigma: die Standardabweichung des Datensatzes.

Berechnung von Z-Scores

Z-Scores können entweder manuell mit folgender Formel berechnet werden:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Oder Sie verwenden die eingebaute Funktion:

df$cgpa_zscore <- scale(df$cgpa)

Ausreißer identifizieren

Nach der Berechnung der Z-Scores kann ein Schwellenwert (±3 in diesem Fall) gewählt und eine einfache Filteroperation angewendet werden, um alle Einträge außerhalb des Bereichs auszuwählen:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Alternativ können alle Einträge innerhalb des Bereichs ausgewählt werden, um einen ausreißerfreien Datensatz zu erstellen:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Was passiert mit Werten, deren Z-Scores außerhalb von ±3 liegen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4

bookEntfernen von Ausreißern mit der Z-Score-Methode

Swipe um das Menü anzuzeigen

Eine gängige Methode zur Erkennung und Entfernung von Ausreißern ist die Z-Score-Methode. Diese Technik bestimmt, wie weit ein Datenpunkt in Standardabweichungen vom Mittelwert entfernt ist. Liegt ein Datenpunkt über einem bestimmten Schwellenwert (häufig ±3), wird er als Ausreißer betrachtet.

Was ist ein Z-Score?

Ein Z-Score (auch Standardwert genannt) wird mit folgender Formel berechnet:

Z=XμσZ = \frac{X - \mu}{\sigma}

Dabei gilt:

  • XX: der ursprüngliche Datenpunkt;
  • μ\mu: der Mittelwert des Datensatzes;
  • σ\sigma: die Standardabweichung des Datensatzes.

Berechnung von Z-Scores

Z-Scores können entweder manuell mit folgender Formel berechnet werden:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Oder Sie verwenden die eingebaute Funktion:

df$cgpa_zscore <- scale(df$cgpa)

Ausreißer identifizieren

Nach der Berechnung der Z-Scores kann ein Schwellenwert (±3 in diesem Fall) gewählt und eine einfache Filteroperation angewendet werden, um alle Einträge außerhalb des Bereichs auszuwählen:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Alternativ können alle Einträge innerhalb des Bereichs ausgewählt werden, um einen ausreißerfreien Datensatz zu erstellen:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Was passiert mit Werten, deren Z-Scores außerhalb von ±3 liegen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3
some-alt