Summary  
This chapter demonstrates how to generate and customize kernel density estimation (KDE) plots using seaborn’s kdeplot function by specifying data sources and fill options for one- or two-dimensional inputs.

General domain of usage  
Exploratory data analysis

Ein **Kernel-Dichteschätzer (KDE) Plot** ist eine Art Diagramm, das die geschätzte Wahrscheinlichkeitsdichtefunktion einer kontinuierlichen Variablen visualisiert. Im Gegensatz zu einem Histogramm, das Daten mit diskreten Balken in Intervallen darstellt, zeigt ein KDE-Plot die Verteilung als glatte, kontinuierliche Kurve, die auf allen Datenpunkten basiert.


Definition

Dieses Beispiel zeigt ein Histogramm kombiniert mit einem KDE-Plot (**orangefarbene Kurve**), was eine klarere Annäherung an die Wahrscheinlichkeitsdichtefunktion bietet als das Histogramm allein.

In `seaborn` ermöglicht die Funktion `kdeplot()` das einfache Erstellen von KDE-Plots. Die wichtigsten Parameter—`data`, `x` und `y`—funktionieren genauso wie bei `countplot()`.


## Erste Option

Nur einer der Parameter kann durch Übergeben einer **Wertesequenz** festgelegt werden, was eine individuelle Anpassung der einzelnen Elemente ermöglicht.



import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a KDE plot setting only the data parameter
sns.kdeplot(data=weather_df['Seattle'], fill=True)

plt.show()

Der Parameter `data` wird durch Übergeben eines Series-Objekts gesetzt, und der Parameter `fill` wird verwendet, um den Bereich unter der Kurve auszufüllen, der standardmäßig nicht ausgefüllt ist.


## Zweite Option

Es ist ebenfalls möglich, ein **2D-Objekt** wie ein DataFrame für `data` zu setzen und einen Spaltennamen oder einen Schlüssel, falls `data` ein Dictionary ist, für `x` (**vertikale** Ausrichtung) oder `y` (**horizontale** Ausrichtung) anzugeben:


import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a KDE plot setting both the data and x parameters
sns.kdeplot(data=weather_df, x='Seattle', fill=True)

plt.show()

Das gleiche Ergebnis wurde erzielt, indem das gesamte `DataFrame` als `data`-Parameter übergeben und der **Spaltenname** für den `x`-Parameter angegeben wurde.


Das erstellte KDE-Diagramm zeigt eine charakteristische Glockenkurve, die einer Normalverteilung mit einem Mittelwert von etwa 52°F ähnelt.


Hinweis

Falls Sie mehr über die Funktion **KDE-Plot** erfahren möchten, finden Sie weitere Informationen in der <a href="https://seaborn.pydata.org/generated/seaborn.kdeplot.html" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> <code>kdeplot()</code> Dokumentation</a>.

Mehr erfahren

import unittest
import ast
import inspect
import user_code  # student's solution module

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestKDEPlot(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        source = inspect.getsource(user_code)
        cls.tree = ast.parse(source)

    def test_kdeplot_call(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute)
        ]
        used = any(
            call.func.attr == 'kdeplot' and isinstance(call.func.value, ast.Name) and call.func.value.id == 'sns'
            for call in calls
        )
        _dynamic_test(self, used, "`kdeplot()` function is used", "`kdeplot()` function is not used")

    def test_data_arguments(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'data' and isinstance(kw.value, ast.Name) and kw.value.id == 'countries_df'
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`data` is `countries_df`", "`data` is not `countries_df`")

    def test_y_val(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'y' and isinstance(kw.value, ast.Constant) and kw.value.value == 'GDP per capita'
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`y` is 'GDP per capita'", "`y` is not 'GDP per capita'")

    def test_fill(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'fill' and isinstance(kw.value, ast.Constant) and kw.value.value is True
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`fill` is True", "`fill` is not True")

if __name__ == '__main__':
    unittest.main()


test_kde.py

Daten sind überall um uns herum, und ihre Interpretation ist von großer Bedeutung. Visualisierung unterstützt Sie dabei, Daten zu analysieren, indem sie bestimmte Muster und Erkenntnisse sichtbar macht. Sie erwerben ein fundiertes Verständnis der Datenvisualisierung mit Python und dessen Bibliotheken wie matplotlib und seaborn, um möglichst viele Informationen aus Daten auf übersichtliche und prägnante Weise zu gewinnen.

Entdecken Sie die Grundlagen der Datenvisualisierung mit Matplotlib. Lernen Sie die zentralen Konzepte kennen, erkunden Sie die Vorteile und erstellen Sie Ihr erstes einfaches Diagramm mit dieser grundlegenden Plot-Bibliothek.

Beherrschen Sie die Visualisierung von Daten mit den beliebtesten Diagrammtypen. Erlernen Sie die Erstellung von Linien-, Streu- und Balkendiagrammen zur klaren Vermittlung von Erkenntnissen aus Ihren Daten.

Erfahren Sie, wie Sie Ihre Diagramme informativer und ansprechender gestalten. Fügen Sie Titel, Legenden, Farben und Raster hinzu und entdecken Sie, wie Sie mehrere Teilplots effektiv anordnen.

Erkunden Sie statistische Visualisierungen, die bei der Analyse von Datenverteilungen und Mustern unterstützen. Erstellen Sie Histogramme, Boxplots und Kreisdiagramme, um tiefere statistische Einblicke zu gewinnen.

Verbessern Sie Ihre Visualisierungsfähigkeiten mit Seaborn. Erstellen Sie fortgeschrittene Diagramme wie Countplots, KDEs, Pair Plots und Heatmaps und beherrschen Sie Seaborns eleganten Stil sowie Anpassungsoptionen.

KDE-Diagramm

Erste Option

Zweite Option

Lösung