Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Kumulative Verteilungen Plotten | Abschnitt
Statistische Visualisierung mit Seaborn

bookKumulative Verteilungen Plotten

Ein ecdfplot stellt den Anteil oder die Anzahl der Beobachtungen dar, die unter jedem eindeutigen Wert in einem Datensatz liegen.

Im Vergleich zu einem Histogramm oder Dichteplot bietet er einen entscheidenden Vorteil: Jede Beobachtung wird direkt visualisiert. Das bedeutet, es gibt keine anzupassenden Bins und keine Glättungsparameter, die die Daten verfälschen könnten. Er gilt oft als die "ehrlichste" Methode, eine Verteilung darzustellen.

Wichtige Parameter

Standardmäßig zeigt der Plot den Anteil (0 bis 1) der Daten, die kleiner als X sind. Dieses Verhalten kann angepasst werden:

  • stat='count': Anstelle eines Prozentsatzes zeigt die Y-Achse die Anzahl der Beobachtungen an;
  • complementary=True: Kehrt die Logik um. Anstatt Werte unterhalb des Schwellenwerts anzuzeigen, werden Werte oberhalb dargestellt. Dies entspricht im Wesentlichen einer "Überlebenskurve" (z. B. "Wie viele Pinguine haben einen Schnabel, der länger als 50 mm ist?").

Beispiel

So verändert complementary die Visualisierung. Die Kurve verläuft abwärts statt aufwärts.

1234567891011121314151617
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('penguins') # Create a Complementary ECDF # This answers: "How many penguins have a flipper length GREATER than X?" sns.ecdfplot( data=df, x='flipper_length_mm', hue='species', stat='count', # Show exact number of penguins complementary=True # Curve descends from Total to 0 ) plt.show()
copy
Aufgabe

Swipe to start coding

Analyse der Schnabellängen von Pinguinen, um festzustellen, wie viele von ihnen eine bestimmte Länge überschreiten.

  1. Import von pandas, seaborn und matplotlib.pyplot.
  2. Einlesen des Pinguin-Datensatzes.
  3. Erstellung eines ECDF-Diagramms:
  • Setzen von x auf 'bill_length_mm'.
  • Gruppierung nach 'island' mit hue.
    • Aktivierung des "Survival"-Modus durch Setzen von complementary=True.
  • Anzeige absoluter Zahlen durch Setzen von stat='count'.
    • Verwendung der 'mako'-Palette.
  • Nutzung der Variable df als Datenquelle.
  1. Anzeige des Diagramms.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 7
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

close

bookKumulative Verteilungen Plotten

Swipe um das Menü anzuzeigen

Ein ecdfplot stellt den Anteil oder die Anzahl der Beobachtungen dar, die unter jedem eindeutigen Wert in einem Datensatz liegen.

Im Vergleich zu einem Histogramm oder Dichteplot bietet er einen entscheidenden Vorteil: Jede Beobachtung wird direkt visualisiert. Das bedeutet, es gibt keine anzupassenden Bins und keine Glättungsparameter, die die Daten verfälschen könnten. Er gilt oft als die "ehrlichste" Methode, eine Verteilung darzustellen.

Wichtige Parameter

Standardmäßig zeigt der Plot den Anteil (0 bis 1) der Daten, die kleiner als X sind. Dieses Verhalten kann angepasst werden:

  • stat='count': Anstelle eines Prozentsatzes zeigt die Y-Achse die Anzahl der Beobachtungen an;
  • complementary=True: Kehrt die Logik um. Anstatt Werte unterhalb des Schwellenwerts anzuzeigen, werden Werte oberhalb dargestellt. Dies entspricht im Wesentlichen einer "Überlebenskurve" (z. B. "Wie viele Pinguine haben einen Schnabel, der länger als 50 mm ist?").

Beispiel

So verändert complementary die Visualisierung. Die Kurve verläuft abwärts statt aufwärts.

1234567891011121314151617
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('penguins') # Create a Complementary ECDF # This answers: "How many penguins have a flipper length GREATER than X?" sns.ecdfplot( data=df, x='flipper_length_mm', hue='species', stat='count', # Show exact number of penguins complementary=True # Curve descends from Total to 0 ) plt.show()
copy
Aufgabe

Swipe to start coding

Analyse der Schnabellängen von Pinguinen, um festzustellen, wie viele von ihnen eine bestimmte Länge überschreiten.

  1. Import von pandas, seaborn und matplotlib.pyplot.
  2. Einlesen des Pinguin-Datensatzes.
  3. Erstellung eines ECDF-Diagramms:
  • Setzen von x auf 'bill_length_mm'.
  • Gruppierung nach 'island' mit hue.
    • Aktivierung des "Survival"-Modus durch Setzen von complementary=True.
  • Anzeige absoluter Zahlen durch Setzen von stat='count'.
    • Verwendung der 'mako'-Palette.
  • Nutzung der Variable df als Datenquelle.
  1. Anzeige des Diagramms.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 7
single

single

some-alt