Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Dichteschätzung mit KDE | Abschnitt
Statistische Visualisierung mit Seaborn

bookDichteschätzung mit KDE

Ein kdeplot (Kerndichteschätzung) ist eine Methode zur Visualisierung der Verteilung von Beobachtungen in einem Datensatz. Er ist einem Histogramm ähnlich, verwendet jedoch anstelle von diskreten Bins eine kontinuierliche Wahrscheinlichkeitsdichtekurve zur Darstellung der Daten.

Dies eignet sich hervorragend, um die "Form" der Daten zu erkennen und Spitzen zu identifizieren, ohne die Unregelmäßigkeiten eines Histogramms.

Visualisierung überlappender Verteilungen

Bei mehreren Kategorien (mittels hue) können einfache Linien schwer unterscheidbar sein. Seaborn bietet Parameter zur Verbesserung der Darstellung:

  • Stacking (multiple='stack'): Anstatt Linien übereinander zu zeichnen, werden diese gestapelt. Dies zeigt, wie verschiedene Kategorien zur Gesamtdistribution beitragen;
  • Filling (fill=True): Füllt den Bereich unter der Kurve mit Farbe aus, wodurch das visuelle Gewicht jeder Kategorie deutlicher wird.

Beispiel:

12345678910111213141516
import seaborn as sns import matplotlib.pyplot as plt # Load built-in dataset df = sns.load_dataset('penguins') # Create the stacked KDE plot sns.kdeplot( data=df, x='flipper_length_mm', hue='species', multiple='stack', # Stack categories vertically fill=True # Fill area with color ) plt.show()
copy
Aufgabe

Swipe to start coding

Visualisierung der Verteilung der maximalen Temperaturen im Jahresverlauf:

  1. Import von pandas, seaborn und matplotlib.pyplot.
  2. Einlesen des Wetter-Datensatzes.
  3. Festlegen des Stils auf 'ticks' mit der Hintergrundfarbe 'lightcyan' (bereits vorgegeben).
  4. Erstellen eines KDE-Diagramms mit folgenden Parametern:
  • Setzen von x auf 'max_temp';
  • Gruppierung nach 'month' mittels hue;
  • Stapeln der Verteilungen mit multiple='stack';
  • Ausfüllen der Kurven mit fill=True;
  • Deaktivieren der Legende (legend=False), um das Diagramm übersichtlich zu halten.
  1. Anzeige des Diagramms.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

close

bookDichteschätzung mit KDE

Swipe um das Menü anzuzeigen

Ein kdeplot (Kerndichteschätzung) ist eine Methode zur Visualisierung der Verteilung von Beobachtungen in einem Datensatz. Er ist einem Histogramm ähnlich, verwendet jedoch anstelle von diskreten Bins eine kontinuierliche Wahrscheinlichkeitsdichtekurve zur Darstellung der Daten.

Dies eignet sich hervorragend, um die "Form" der Daten zu erkennen und Spitzen zu identifizieren, ohne die Unregelmäßigkeiten eines Histogramms.

Visualisierung überlappender Verteilungen

Bei mehreren Kategorien (mittels hue) können einfache Linien schwer unterscheidbar sein. Seaborn bietet Parameter zur Verbesserung der Darstellung:

  • Stacking (multiple='stack'): Anstatt Linien übereinander zu zeichnen, werden diese gestapelt. Dies zeigt, wie verschiedene Kategorien zur Gesamtdistribution beitragen;
  • Filling (fill=True): Füllt den Bereich unter der Kurve mit Farbe aus, wodurch das visuelle Gewicht jeder Kategorie deutlicher wird.

Beispiel:

12345678910111213141516
import seaborn as sns import matplotlib.pyplot as plt # Load built-in dataset df = sns.load_dataset('penguins') # Create the stacked KDE plot sns.kdeplot( data=df, x='flipper_length_mm', hue='species', multiple='stack', # Stack categories vertically fill=True # Fill area with color ) plt.show()
copy
Aufgabe

Swipe to start coding

Visualisierung der Verteilung der maximalen Temperaturen im Jahresverlauf:

  1. Import von pandas, seaborn und matplotlib.pyplot.
  2. Einlesen des Wetter-Datensatzes.
  3. Festlegen des Stils auf 'ticks' mit der Hintergrundfarbe 'lightcyan' (bereits vorgegeben).
  4. Erstellen eines KDE-Diagramms mit folgenden Parametern:
  • Setzen von x auf 'max_temp';
  • Gruppierung nach 'month' mittels hue;
  • Stapeln der Verteilungen mit multiple='stack';
  • Ausfüllen der Kurven mit fill=True;
  • Deaktivieren der Legende (legend=False), um das Diagramm übersichtlich zu halten.
  1. Anzeige des Diagramms.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
single

single

some-alt