Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Entfernen von Ausreißern mit der IQR-Methode | Grundlegende Statistische Analyse
Datenanalyse Mit R

bookEntfernen von Ausreißern mit der IQR-Methode

Eine weitere effektive Methode zur Erkennung und Entfernung von Ausreißern ist die Verwendung der Interquartilsabstand (IQR)-Methode.

Was ist der IQR?

Der Interquartilsabstand (IQR) ist ein Maß für die statistische Streuung und wird wie folgt berechnet:

IQR=Q3Q1IQR = Q3−Q1

Dabei gilt:

  • Q1Q1: 25. Perzentil (erstes Quartil);
  • Q3Q3: 75. Perzentil (drittes Quartil).

Werte, die unter Q11.5×IQRQ1 − 1.5 \times IQR oder über Q3+1.5×IQRQ3 + 1.5 \times IQR liegen, werden typischerweise als Ausreißer betrachtet.

Berechnung des IQR

Um den IQR-Wert zu berechnen und Ausreißer zu erkennen, müssen zunächst die Werte des 25. und 75. Perzentils bekannt sein. Diese können mit der Funktion quantile() ermittelt werden. Anschließend kann der IQR-Wert gemäß der Formel berechnet werden.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Ausreißer identifizieren

Ähnlich wie bei der Z-Score-Methode müssen Sie die unteren und oberen Grenzen bestimmen:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Anschließend können Sie entweder alle Ausreißer auswählen, um diese zu analysieren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Oder Sie erstellen einen ausreißerfreien Datensatz:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Wofür steht IQR?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4

bookEntfernen von Ausreißern mit der IQR-Methode

Swipe um das Menü anzuzeigen

Eine weitere effektive Methode zur Erkennung und Entfernung von Ausreißern ist die Verwendung der Interquartilsabstand (IQR)-Methode.

Was ist der IQR?

Der Interquartilsabstand (IQR) ist ein Maß für die statistische Streuung und wird wie folgt berechnet:

IQR=Q3Q1IQR = Q3−Q1

Dabei gilt:

  • Q1Q1: 25. Perzentil (erstes Quartil);
  • Q3Q3: 75. Perzentil (drittes Quartil).

Werte, die unter Q11.5×IQRQ1 − 1.5 \times IQR oder über Q3+1.5×IQRQ3 + 1.5 \times IQR liegen, werden typischerweise als Ausreißer betrachtet.

Berechnung des IQR

Um den IQR-Wert zu berechnen und Ausreißer zu erkennen, müssen zunächst die Werte des 25. und 75. Perzentils bekannt sein. Diese können mit der Funktion quantile() ermittelt werden. Anschließend kann der IQR-Wert gemäß der Formel berechnet werden.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Ausreißer identifizieren

Ähnlich wie bei der Z-Score-Methode müssen Sie die unteren und oberen Grenzen bestimmen:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Anschließend können Sie entweder alle Ausreißer auswählen, um diese zu analysieren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Oder Sie erstellen einen ausreißerfreien Datensatz:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Wofür steht IQR?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 4
some-alt