Einführung in Ausreißer
Ausreißer sind ungewöhnliche Datenpunkte, die sich deutlich vom Großteil der Daten unterscheiden. Sie können durch Eingabefehler, natürliche Schwankungen oder seltene, aber wichtige Ereignisse entstehen. Ausreißer können statistische Zusammenfassungen und Modellierungen erheblich beeinflussen.
Beispielsweise kann ein einzelner großer Ausreißer den Mittelwert erhöhen oder die Skalierung von Visualisierungen verzerren, was zu irreführenden Schlussfolgerungen führen kann.
Das Verständnis und die Erkennung von Ausreißern ist ein entscheidender Schritt in der Datenvorverarbeitung. Abhängig vom Ziel der Analyse kann entschieden werden, Ausreißer zu behalten, zu transformieren oder vollständig zu entfernen.
Visualisierung von Ausreißern mit Dichteplots
Ein Dichteplot zeigt eine geglättete Kurve, die die Verteilung einer Variablen darstellt. Gipfel zeigen Bereiche mit hoher Datenkonzentration, während lange Ausläufer oder isolierte Erhebungen auf Ausreißer oder Schiefe hindeuten können.
ggplot(df, aes(x = placement_exam_marks)) +
geom_density(fill = "lightgreen", alpha = 0.7) +
labs(title = "Density Plot Of Placement Exam Marks",
x = "Placement",
y = "Density") +
theme_minimal()
Messung der Schiefe
Die Schiefe misst den Grad der Symmetrie oder Asymmetrie einer Verteilung. Dies hilft zu erkennen, ob eine Variable Ausreißer auf einer Seite der Verteilung aufweist.
skewness(df$placement_exam_marks)
Interpretation der Schiefe
- Schiefe ≈ 0: annähernd symmetrische Verteilung;
- Schiefe > 0: rechts-schiefe Verteilung;
- Schiefe < 0: links-schiefe Verteilung;
- Schiefe > 1: stark rechts-schiefe Verteilung;
- Schiefe < -1: stark links-schiefe Verteilung.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 4
Einführung in Ausreißer
Swipe um das Menü anzuzeigen
Ausreißer sind ungewöhnliche Datenpunkte, die sich deutlich vom Großteil der Daten unterscheiden. Sie können durch Eingabefehler, natürliche Schwankungen oder seltene, aber wichtige Ereignisse entstehen. Ausreißer können statistische Zusammenfassungen und Modellierungen erheblich beeinflussen.
Beispielsweise kann ein einzelner großer Ausreißer den Mittelwert erhöhen oder die Skalierung von Visualisierungen verzerren, was zu irreführenden Schlussfolgerungen führen kann.
Das Verständnis und die Erkennung von Ausreißern ist ein entscheidender Schritt in der Datenvorverarbeitung. Abhängig vom Ziel der Analyse kann entschieden werden, Ausreißer zu behalten, zu transformieren oder vollständig zu entfernen.
Visualisierung von Ausreißern mit Dichteplots
Ein Dichteplot zeigt eine geglättete Kurve, die die Verteilung einer Variablen darstellt. Gipfel zeigen Bereiche mit hoher Datenkonzentration, während lange Ausläufer oder isolierte Erhebungen auf Ausreißer oder Schiefe hindeuten können.
ggplot(df, aes(x = placement_exam_marks)) +
geom_density(fill = "lightgreen", alpha = 0.7) +
labs(title = "Density Plot Of Placement Exam Marks",
x = "Placement",
y = "Density") +
theme_minimal()
Messung der Schiefe
Die Schiefe misst den Grad der Symmetrie oder Asymmetrie einer Verteilung. Dies hilft zu erkennen, ob eine Variable Ausreißer auf einer Seite der Verteilung aufweist.
skewness(df$placement_exam_marks)
Interpretation der Schiefe
- Schiefe ≈ 0: annähernd symmetrische Verteilung;
- Schiefe > 0: rechts-schiefe Verteilung;
- Schiefe < 0: links-schiefe Verteilung;
- Schiefe > 1: stark rechts-schiefe Verteilung;
- Schiefe < -1: stark links-schiefe Verteilung.
Danke für Ihr Feedback!