Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Entfernen von Ausreißern mit der IQR-Methode | Grundlegende Statistische Analyse
Datenanalyse Mit R

bookEntfernen von Ausreißern mit der IQR-Methode

Eine weitere effektive Methode zur Erkennung und Entfernung von Ausreißern ist die Verwendung der Interquartilsabstand (IQR)-Methode.

Was ist der IQR?

Der Interquartilsabstand (IQR) ist ein Maß für die statistische Streuung und wird wie folgt berechnet:

IQR=Q3Q1IQR = Q3−Q1

Dabei gilt:

  • Q1Q1: 25. Perzentil (erstes Quartil);
  • Q3Q3: 75. Perzentil (drittes Quartil).

Werte, die unter Q11,5×IQRQ1 − 1{,}5 \times IQR oder über Q3+1,5×IQRQ3 + 1{,}5 \times IQR liegen, werden typischerweise als Ausreißer betrachtet.

Berechnung des IQR

Um den IQR-Wert zu berechnen und Ausreißer zu erkennen, müssen zunächst die Werte des 25. und 75. Perzentils bekannt sein. Diese können mit der Funktion quantile() ermittelt werden. Anschließend lässt sich der IQR-Wert mit der Formel berechnen.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identifizierung von Ausreißern

Ähnlich wie bei der Z-Score-Methode müssen Sie die unteren und oberen Grenzen bestimmen:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Anschließend können Sie entweder alle Ausreißer auswählen, um sie zu analysieren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Oder Sie erstellen einen ausreißerfreien Datensatz:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Wofür steht IQR?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4

bookEntfernen von Ausreißern mit der IQR-Methode

Swipe um das Menü anzuzeigen

Eine weitere effektive Methode zur Erkennung und Entfernung von Ausreißern ist die Verwendung der Interquartilsabstand (IQR)-Methode.

Was ist der IQR?

Der Interquartilsabstand (IQR) ist ein Maß für die statistische Streuung und wird wie folgt berechnet:

IQR=Q3Q1IQR = Q3−Q1

Dabei gilt:

  • Q1Q1: 25. Perzentil (erstes Quartil);
  • Q3Q3: 75. Perzentil (drittes Quartil).

Werte, die unter Q11,5×IQRQ1 − 1{,}5 \times IQR oder über Q3+1,5×IQRQ3 + 1{,}5 \times IQR liegen, werden typischerweise als Ausreißer betrachtet.

Berechnung des IQR

Um den IQR-Wert zu berechnen und Ausreißer zu erkennen, müssen zunächst die Werte des 25. und 75. Perzentils bekannt sein. Diese können mit der Funktion quantile() ermittelt werden. Anschließend lässt sich der IQR-Wert mit der Formel berechnen.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identifizierung von Ausreißern

Ähnlich wie bei der Z-Score-Methode müssen Sie die unteren und oberen Grenzen bestimmen:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Anschließend können Sie entweder alle Ausreißer auswählen, um sie zu analysieren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Oder Sie erstellen einen ausreißerfreien Datensatz:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Wofür steht IQR?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 4
some-alt