Kumulative Verteilungen Plotten
Ein ecdfplot stellt den Anteil oder die Anzahl der Beobachtungen dar, die unter jedem eindeutigen Wert in einem Datensatz liegen.
Im Vergleich zu einem Histogramm oder Dichteplot bietet er einen entscheidenden Vorteil: Jede Beobachtung wird direkt visualisiert. Das bedeutet, es gibt keine anzupassenden Bins und keine Glättungsparameter, die die Daten verfälschen könnten. Er gilt oft als die "ehrlichste" Methode, eine Verteilung darzustellen.
Wichtige Parameter
Standardmäßig zeigt der Plot den Anteil (0 bis 1) der Daten, die kleiner als X sind. Dieses Verhalten kann angepasst werden:
stat='count': Anstelle eines Prozentsatzes zeigt die Y-Achse die Anzahl der Beobachtungen an;complementary=True: Kehrt die Logik um. Anstatt Werte unterhalb des Schwellenwerts anzuzeigen, werden Werte oberhalb dargestellt. Dies entspricht im Wesentlichen einer "Überlebenskurve" (z. B. "Wie viele Pinguine haben einen Schnabel, der länger als 50 mm ist?").
Beispiel
So verändert complementary die Visualisierung. Die Kurve verläuft abwärts statt aufwärts.
1234567891011121314151617import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('penguins') # Create a Complementary ECDF # This answers: "How many penguins have a flipper length GREATER than X?" sns.ecdfplot( data=df, x='flipper_length_mm', hue='species', stat='count', # Show exact number of penguins complementary=True # Curve descends from Total to 0 ) plt.show()
Swipe to start coding
Analyse der Schnabellängen von Pinguinen, um festzustellen, wie viele von ihnen eine bestimmte Länge überschreiten.
- Import von
pandas,seabornundmatplotlib.pyplot. - Einlesen des Pinguin-Datensatzes.
- Erstellung eines ECDF-Diagramms:
- Setzen von
xauf'bill_length_mm'. - Gruppierung nach
'island'mithue.- Aktivierung des "Survival"-Modus durch Setzen von
complementary=True.
- Aktivierung des "Survival"-Modus durch Setzen von
- Anzeige absoluter Zahlen durch Setzen von
stat='count'.- Verwendung der
'mako'-Palette.
- Verwendung der
- Nutzung der Variable
dfals Datenquelle.
- Anzeige des Diagramms.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 4.55
Kumulative Verteilungen Plotten
Swipe um das Menü anzuzeigen
Ein ecdfplot stellt den Anteil oder die Anzahl der Beobachtungen dar, die unter jedem eindeutigen Wert in einem Datensatz liegen.
Im Vergleich zu einem Histogramm oder Dichteplot bietet er einen entscheidenden Vorteil: Jede Beobachtung wird direkt visualisiert. Das bedeutet, es gibt keine anzupassenden Bins und keine Glättungsparameter, die die Daten verfälschen könnten. Er gilt oft als die "ehrlichste" Methode, eine Verteilung darzustellen.
Wichtige Parameter
Standardmäßig zeigt der Plot den Anteil (0 bis 1) der Daten, die kleiner als X sind. Dieses Verhalten kann angepasst werden:
stat='count': Anstelle eines Prozentsatzes zeigt die Y-Achse die Anzahl der Beobachtungen an;complementary=True: Kehrt die Logik um. Anstatt Werte unterhalb des Schwellenwerts anzuzeigen, werden Werte oberhalb dargestellt. Dies entspricht im Wesentlichen einer "Überlebenskurve" (z. B. "Wie viele Pinguine haben einen Schnabel, der länger als 50 mm ist?").
Beispiel
So verändert complementary die Visualisierung. Die Kurve verläuft abwärts statt aufwärts.
1234567891011121314151617import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('penguins') # Create a Complementary ECDF # This answers: "How many penguins have a flipper length GREATER than X?" sns.ecdfplot( data=df, x='flipper_length_mm', hue='species', stat='count', # Show exact number of penguins complementary=True # Curve descends from Total to 0 ) plt.show()
Swipe to start coding
Analyse der Schnabellängen von Pinguinen, um festzustellen, wie viele von ihnen eine bestimmte Länge überschreiten.
- Import von
pandas,seabornundmatplotlib.pyplot. - Einlesen des Pinguin-Datensatzes.
- Erstellung eines ECDF-Diagramms:
- Setzen von
xauf'bill_length_mm'. - Gruppierung nach
'island'mithue.- Aktivierung des "Survival"-Modus durch Setzen von
complementary=True.
- Aktivierung des "Survival"-Modus durch Setzen von
- Anzeige absoluter Zahlen durch Setzen von
stat='count'.- Verwendung der
'mako'-Palette.
- Verwendung der
- Nutzung der Variable
dfals Datenquelle.
- Anzeige des Diagramms.
Lösung
Danke für Ihr Feedback!
single