Summary  
This chapter demonstrates how to generate and customize kernel density estimation (KDE) plots using seaborn’s kdeplot function by specifying data sources and fill options for one- or two-dimensional inputs.

General domain of usage  
Exploratory data analysis

Un **graphique d'estimation de densité par noyau (KDE)** est un type de graphique qui visualise la fonction de densité de probabilité estimée d'une variable continue. Contrairement à un histogramme, qui affiche les données à l'aide de barres discrètes regroupées en intervalles, un graphique KDE représente la distribution sous la forme d'une courbe lisse et continue basée sur l'ensemble des points de données.


Définition

Cet exemple montre un histogramme combiné à un graphique KDE (**courbe orange**), offrant une approximation plus claire de la fonction de densité de probabilité que l'histogramme seul.

Dans `seaborn`, la fonction `kdeplot()` permet de créer facilement des graphiques KDE. Ses paramètres principaux—`data`, `x` et `y`—fonctionnent de la même manière que dans `countplot()`.


## Première option

Un seul des paramètres peut être défini en passant une **séquence de valeurs**, permettant une personnalisation individuelle pour chaque élément.



import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a KDE plot setting only the data parameter
sns.kdeplot(data=weather_df['Seattle'], fill=True)

plt.show()

Le paramètre `data` est défini en passant un objet Series, et le paramètre `fill` est utilisé pour remplir la zone sous la courbe, qui n'est pas remplie par défaut.


## Deuxième option

Il est également possible de définir un **objet 2D** tel qu'un DataFrame pour `data` et un nom de colonne ou une clé si `data` est un dictionnaire pour `x` (**orientation verticale**) ou `y` (**orientation horizontale**) :


import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a KDE plot setting both the data and x parameters
sns.kdeplot(data=weather_df, x='Seattle', fill=True)

plt.show()

Les mêmes résultats ont été obtenus en passant l'intégralité du `DataFrame` comme paramètre `data` et en spécifiant le **nom de la colonne** pour le paramètre `x`.


Le graphique KDE créé présente une courbe en cloche caractéristique, ressemblant fortement à une distribution normale avec une moyenne autour de 52°F.


Remarque

Si vous souhaitez approfondir la fonction **KDE plot**, n'hésitez pas à consulter la <a href="https://seaborn.pydata.org/generated/seaborn.kdeplot.html" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> documentation de <code>kdeplot()</code></a>.

Approfondir

import unittest
import ast
import inspect
import user_code  # student's solution module

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestKDEPlot(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        source = inspect.getsource(user_code)
        cls.tree = ast.parse(source)

    def test_kdeplot_call(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute)
        ]
        used = any(
            call.func.attr == 'kdeplot' and isinstance(call.func.value, ast.Name) and call.func.value.id == 'sns'
            for call in calls
        )
        _dynamic_test(self, used, "`kdeplot()` function is used", "`kdeplot()` function is not used")

    def test_data_arguments(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'data' and isinstance(kw.value, ast.Name) and kw.value.id == 'countries_df'
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`data` is `countries_df`", "`data` is not `countries_df`")

    def test_y_val(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'y' and isinstance(kw.value, ast.Constant) and kw.value.value == 'GDP per capita'
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`y` is 'GDP per capita'", "`y` is not 'GDP per capita'")

    def test_fill(self):
        calls = [
            node for node in ast.walk(self.tree)
            if isinstance(node, ast.Call) and isinstance(node.func, ast.Attribute) and node.func.attr == 'kdeplot'
        ]
        correct = any(
            any(kw.arg == 'fill' and isinstance(kw.value, ast.Constant) and kw.value.value is True
                for kw in call.keywords)
            for call in calls
        )
        _dynamic_test(self, correct, "`fill` is True", "`fill` is not True")

if __name__ == '__main__':
    unittest.main()


test_kde.py

Les données sont omniprésentes autour de nous, et leur interprétation est essentielle. La visualisation permet d’analyser les données en identifiant certains motifs et informations clés. Vous acquerrez des bases solides en visualisation de données avec Python et ses bibliothèques, telles que matplotlib et seaborn, afin d’extraire un maximum d’informations de manière claire et concise.

Découvrez les principes fondamentaux de la visualisation de données avec Matplotlib. Comprenez ses concepts clés, explorez ses avantages et réalisez un premier graphique simple à l'aide de cette bibliothèque de visualisation essentielle.

Maîtriser la visualisation des données à travers les types de graphiques les plus populaires. Apprendre à construire des graphiques linéaires, de dispersion et à barres pour communiquer clairement les informations issues des données.

Apprenez à rendre vos graphiques plus informatifs et attrayants visuellement. Ajoutez des titres, des légendes, des couleurs et des grilles, et découvrez comment organiser efficacement plusieurs sous-graphiques.

Explorer des visualisations statistiques permettant d’analyser les distributions et les tendances des données. Créer des histogrammes, des boîtes à moustaches et des diagrammes circulaires pour révéler des informations statistiques approfondies.

Améliorez vos compétences en visualisation avec Seaborn. Créez des graphiques avancés tels que les countplots, KDE, pair plots et heatmaps tout en maîtrisant le style élégant et les options de personnalisation de Seaborn.

Graphique KDE

Première option

Deuxième option

Solution