Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Einführung in Ausreißer | Grundlegende Statistische Analyse
Datenanalyse Mit R

bookEinführung in Ausreißer

Ausreißer sind ungewöhnliche Datenpunkte, die sich deutlich vom Großteil der Daten unterscheiden. Sie können durch Eingabefehler, natürliche Schwankungen oder seltene, aber wichtige Ereignisse entstehen. Ausreißer können statistische Zusammenfassungen und Modellierungen erheblich beeinflussen.

Beispielsweise kann ein einzelner großer Ausreißer den Mittelwert erhöhen oder die Skalierung von Visualisierungen verzerren, was zu irreführenden Schlussfolgerungen führen kann.

Das Verständnis und die Erkennung von Ausreißern ist ein entscheidender Schritt in der Datenvorverarbeitung. Abhängig vom Ziel der Analyse kann entschieden werden, Ausreißer zu behalten, zu transformieren oder vollständig zu entfernen.

Visualisierung von Ausreißern mit Dichteplots

Ein Dichteplot zeigt eine geglättete Kurve, die die Verteilung einer Variablen darstellt. Gipfel zeigen Bereiche mit hoher Datenkonzentration, während lange Ausläufer oder isolierte Erhebungen auf Ausreißer oder Schiefe hindeuten können.

ggplot(df, aes(x = placement_exam_marks)) +
  geom_density(fill = "lightgreen", alpha = 0.7) +
  labs(title = "Density Plot Of Placement Exam Marks",
       x = "Placement",
       y = "Density") +
  theme_minimal()

Messung der Schiefe

Die Schiefe misst den Grad der Symmetrie oder Asymmetrie einer Verteilung. Dies hilft zu erkennen, ob eine Variable Ausreißer auf einer Seite der Verteilung aufweist.

skewness(df$placement_exam_marks)

Interpretation der Schiefe

  • Schiefe ≈ 0: annähernd symmetrische Verteilung;
  • Schiefe > 0: rechts-schiefe Verteilung;
  • Schiefe < 0: links-schiefe Verteilung;
  • Schiefe > 1: stark rechts-schiefe Verteilung;
  • Schiefe < -1: stark links-schiefe Verteilung.
question mark

Wenn eine Variable eine skewness > 1 aufweist, gilt sie als:

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4

bookEinführung in Ausreißer

Swipe um das Menü anzuzeigen

Ausreißer sind ungewöhnliche Datenpunkte, die sich deutlich vom Großteil der Daten unterscheiden. Sie können durch Eingabefehler, natürliche Schwankungen oder seltene, aber wichtige Ereignisse entstehen. Ausreißer können statistische Zusammenfassungen und Modellierungen erheblich beeinflussen.

Beispielsweise kann ein einzelner großer Ausreißer den Mittelwert erhöhen oder die Skalierung von Visualisierungen verzerren, was zu irreführenden Schlussfolgerungen führen kann.

Das Verständnis und die Erkennung von Ausreißern ist ein entscheidender Schritt in der Datenvorverarbeitung. Abhängig vom Ziel der Analyse kann entschieden werden, Ausreißer zu behalten, zu transformieren oder vollständig zu entfernen.

Visualisierung von Ausreißern mit Dichteplots

Ein Dichteplot zeigt eine geglättete Kurve, die die Verteilung einer Variablen darstellt. Gipfel zeigen Bereiche mit hoher Datenkonzentration, während lange Ausläufer oder isolierte Erhebungen auf Ausreißer oder Schiefe hindeuten können.

ggplot(df, aes(x = placement_exam_marks)) +
  geom_density(fill = "lightgreen", alpha = 0.7) +
  labs(title = "Density Plot Of Placement Exam Marks",
       x = "Placement",
       y = "Density") +
  theme_minimal()

Messung der Schiefe

Die Schiefe misst den Grad der Symmetrie oder Asymmetrie einer Verteilung. Dies hilft zu erkennen, ob eine Variable Ausreißer auf einer Seite der Verteilung aufweist.

skewness(df$placement_exam_marks)

Interpretation der Schiefe

  • Schiefe ≈ 0: annähernd symmetrische Verteilung;
  • Schiefe > 0: rechts-schiefe Verteilung;
  • Schiefe < 0: links-schiefe Verteilung;
  • Schiefe > 1: stark rechts-schiefe Verteilung;
  • Schiefe < -1: stark links-schiefe Verteilung.
question mark

Wenn eine Variable eine skewness > 1 aufweist, gilt sie als:

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2
some-alt