Summary  
This chapter demonstrates how to generate and customize kernel density estimation (KDE) plots using seaborn’s kdeplot function by specifying data sources and fill options for one- or two-dimensional inputs.

General domain of usage  
Exploratory data analysis

Et **Kernel Density Estimation (KDE) plot** er en type plot, der visualiserer den estimerede sandsynlighedstæthedsfunktion for en kontinuerlig variabel. I modsætning til et histogram, som viser data ved hjælp af diskrete søjler grupperet i intervaller, repræsenterer et KDE-plot fordelingen som en glat, kontinuerlig kurve baseret på alle datapunkter.


Definition

Dette eksempel viser et histogram kombineret med et KDE-plot (**orange kurve**), hvilket giver en tydeligere tilnærmelse af sandsynlighedstæthedsfunktionen end histogrammet alene.

I `seaborn` gør funktionen `kdeplot()` det nemt at oprette KDE-plots. Dens vigtigste parametre—`data`, `x` og `y`—fungerer på samme måde som i `countplot()`.


## Første mulighed

Kun én af parametrene kan indstilles ved at videregive en **sekvens af værdier**, hvilket muliggør individuel tilpasning på tværs af elementer.



import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a KDE plot setting only the data parameter
sns.kdeplot(data=weather_df['Seattle'], fill=True)

plt.show()

`data`-parameteren indstilles ved at videregive et Series-objekt, og `fill`-parameteren bruges til at udfylde området under kurven, som som standard ikke er udfyldt.


## Anden mulighed

Det er også muligt at angive et **2D-objekt** såsom en DataFrame for `data` og et kolonnenavn eller en nøgle, hvis `data` er en ordbog, for `x` (**vertikal** orientering) eller `y` (**horisontal** orientering):


import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a KDE plot setting both the data and x parameters
sns.kdeplot(data=weather_df, x='Seattle', fill=True)

plt.show()

De samme resultater opnås ved at videregive hele `DataFrame` som `data`-parameteren og angive **kolonnenavnet** for `x`-parameteren.


Det oprettede KDE-plot udviser en karakteristisk klokkeformet kurve, der tæt ligner en normalfordeling med et gennemsnit omkring 52°F.


Bemærk

Hvis du ønsker at udforske mere om **KDE plot**-funktionen, kan du finde yderligere information i <a href="https://seaborn.pydata.org/generated/seaborn.kdeplot.html" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> <code>kdeplot()</code> dokumentationen</a>.

Læs Mere

import unittest
import ast
import inspect
import user_code  # student's solution module

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestKDEPlot(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        source = inspect.getsource(user_code)
        cls.tree = ast.parse(source)

    def test_kdeplot_call(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute)
        ]
        used = any(
            call.func.attr == 'kdeplot' and isinstance(call.func.value, ast.Name) and call.func.value.id == 'sns'
            for call in calls
        )
        _dynamic_test(self, used, "`kdeplot()` function is used", "`kdeplot()` function is not used")

    def test_data_arguments(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'data' and isinstance(kw.value, ast.Name) and kw.value.id == 'countries_df'
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`data` is `countries_df`", "`data` is not `countries_df`")

    def test_y_val(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'y' and isinstance(kw.value, ast.Constant) and kw.value.value == 'GDP per capita'
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`y` is 'GDP per capita'", "`y` is not 'GDP per capita'")

    def test_fill(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'fill' and isinstance(kw.value, ast.Constant) and kw.value.value is True
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`fill` is True", "`fill` is not True")

if __name__ == '__main__':
    unittest.main()


test_kde.py

Data er overalt omkring os, og det er yderst vigtigt at kunne forstå det. Visualisering hjælper dig med at håndtere data ved at finde bestemte mønstre og indsigter. Du opbygger et solidt fundament inden for datavisualisering ved hjælp af Python og dets biblioteker, såsom matplotlib og seaborn, for at udtrække så meget information som muligt fra data på en overskuelig og præcis måde.

Opdag det grundlæggende inden for datavisualisering med Matplotlib. Lær dets kernekoncepter, udforsk dets fordele, og opret dit første enkle plot ved hjælp af dette fundamentale plotbibliotek.

Opnå færdigheder i at visualisere data gennem de mest populære diagramtyper. Lær at opbygge linje-, punkt- og søjlediagrammer for tydelig formidling af indsigter fra dine data.

Lær at gøre dine plots mere informative og visuelt tiltalende. Tilføj titler, signaturforklaringer, farver og gitterlinjer, og opdag hvordan du effektivt arrangerer flere underplots.

Udforsk statistiske visualiseringer, der hjælper med at analysere datadistributioner og mønstre. Opret histogrammer, boksplot og cirkeldiagrammer for at afdække dybere statistiske indsigter.

Forbedr dine visualiseringsevner med Seaborn. Opret avancerede diagrammer såsom countplots, KDE'er, parplots og heatmaps, mens du mestrer Seaborns elegante stil og tilpasningsmuligheder.

KDE-Plot

Første mulighed

Anden mulighed

Løsning