Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Graphe de Paires | Tracé avec Seaborn
Visualisation Ultime Avec Python
course content

Contenu du cours

Visualisation Ultime Avec Python

Visualisation Ultime Avec Python

1. Introduction à Matplotlib
2. Création de Graphiques Couramment Utilisés
3. Personnalisation des Graphiques
4. Plus de Graphiques Statistiques
5. Tracé avec Seaborn

book
Graphe de Paires

Pair plot est utilisé pour tracer une relation par paire entre les variables numériques dans un ensemble de données. Il est assez similaire à un joint plot, cependant, il n'est pas limité à seulement deux variables. En fait, un pair plot crée une grille NxN d'objets Axes (plusieurs sous-graphiques) où N est le nombre de variables numériques (colonnes numériques dans un DataFrame).

Jetons un coup d'œil à un exemple de tel graphique :

Description du Pair Plot

Comme vous pouvez le voir, pour chaque colonne, l'axe des x est partagé entre tous les graphiques des colonnes, une certaine variable unique se trouve sur l'axe des x. Il en va de même pour les lignes où l'axe des y est partagé entre tous les graphiques de la ligne. Les graphiques diagonaux sont des histogrammes par défaut, car ils montrent la distribution d'une seule variable (distribution marginale univariée), et les autres graphiques sont des nuages de points.

Création d'un Pair Plot

Créer un pair plot avec seaborn revient à appeler sa fonction pairplot(). Son paramètre le plus important et le seul obligatoire est data qui doit être un objet DataFrame. Voici un exemple pour vous :

1234567
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
copy

Ici, iris_df est le DataFrame que nous passons dans la fonction pairplot() et tout fonctionne parfaitement. Les paramètres height et aspect spécifient simplement la hauteur et la largeur (height * aspect) de chaque facette (côté) en pouces.

Hue

Un autre paramètre qui mérite d'être mentionné est hue qui spécifie la variable (nom de colonne) dans data pour mapper les aspects du graphique à des couleurs différentes ou même créer des graphiques séparés (sur un seul Axes) pour chacune de ses valeurs.

Voici un exemple pour clarifier les choses :

12345678910
import seaborn as sns import matplotlib.pyplot as plt import warnings # Ignoring warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
copy

Vous pouvez immédiatement voir la différence ici. Tout d'abord, les points de données sur chaque nuage de points sont colorés selon l'espèce à laquelle ils appartiennent (la valeur respective dans la colonne 'species'). Les graphiques diagonaux sont maintenant des graphiques KDE (un séparé pour chacune des espèces) au lieu des histogrammes.

En fait, lorsqu'on traite un problème de classification, il est souvent judicieux de créer un pair plot avec le paramètre hue défini sur la variable cible (variable catégorielle que nous voulons prédire).

Changer les Types de Graphiques

Vous pouvez également définir d'autres graphiques au lieu des graphiques de dispersion et définir d'autres graphiques diagonaux. Les paramètres kind ('scatter' est sa valeur par défaut) et diag_kind ('auto' est sa valeur par défaut, donc son type est basé sur la présence du paramètre hue) sont respectivement utilisés à cet effet.

Modifions maintenant notre exemple :

1234567
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
copy

'scatter', 'kde', 'hist', 'reg' sont des valeurs possibles pour le paramètre kind.

diag_kind peut être défini sur l'une des valeurs suivantes :

  • 'auto';
  • 'hist';
  • 'kde';
  • None.

Tout est similaire à la fonction jointplot() à cet égard.

Plus d'informations sur la fonction pairplot() dans sa documentation.

Tâche

Swipe to start coding

  1. Utilisez la fonction correcte pour créer un pair plot.
  2. Définissez les données pour le graphique en utilisant penguins_df comme premier argument.
  3. Définissez 'sex' comme la colonne qui mappe les aspects du graphique à différentes couleurs en spécifiant le deuxième argument.
  4. Définissez les graphiques non-diagonaux pour avoir une ligne de régression ('reg') en spécifiant le troisième argument.
  5. Définissez height à 2.
  6. Définissez aspect à 0.8.

Cela peut prendre quelques minutes pour vérifier la solution.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 6
toggle bottom row

book
Graphe de Paires

Pair plot est utilisé pour tracer une relation par paire entre les variables numériques dans un ensemble de données. Il est assez similaire à un joint plot, cependant, il n'est pas limité à seulement deux variables. En fait, un pair plot crée une grille NxN d'objets Axes (plusieurs sous-graphiques) où N est le nombre de variables numériques (colonnes numériques dans un DataFrame).

Jetons un coup d'œil à un exemple de tel graphique :

Description du Pair Plot

Comme vous pouvez le voir, pour chaque colonne, l'axe des x est partagé entre tous les graphiques des colonnes, une certaine variable unique se trouve sur l'axe des x. Il en va de même pour les lignes où l'axe des y est partagé entre tous les graphiques de la ligne. Les graphiques diagonaux sont des histogrammes par défaut, car ils montrent la distribution d'une seule variable (distribution marginale univariée), et les autres graphiques sont des nuages de points.

Création d'un Pair Plot

Créer un pair plot avec seaborn revient à appeler sa fonction pairplot(). Son paramètre le plus important et le seul obligatoire est data qui doit être un objet DataFrame. Voici un exemple pour vous :

1234567
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
copy

Ici, iris_df est le DataFrame que nous passons dans la fonction pairplot() et tout fonctionne parfaitement. Les paramètres height et aspect spécifient simplement la hauteur et la largeur (height * aspect) de chaque facette (côté) en pouces.

Hue

Un autre paramètre qui mérite d'être mentionné est hue qui spécifie la variable (nom de colonne) dans data pour mapper les aspects du graphique à des couleurs différentes ou même créer des graphiques séparés (sur un seul Axes) pour chacune de ses valeurs.

Voici un exemple pour clarifier les choses :

12345678910
import seaborn as sns import matplotlib.pyplot as plt import warnings # Ignoring warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
copy

Vous pouvez immédiatement voir la différence ici. Tout d'abord, les points de données sur chaque nuage de points sont colorés selon l'espèce à laquelle ils appartiennent (la valeur respective dans la colonne 'species'). Les graphiques diagonaux sont maintenant des graphiques KDE (un séparé pour chacune des espèces) au lieu des histogrammes.

En fait, lorsqu'on traite un problème de classification, il est souvent judicieux de créer un pair plot avec le paramètre hue défini sur la variable cible (variable catégorielle que nous voulons prédire).

Changer les Types de Graphiques

Vous pouvez également définir d'autres graphiques au lieu des graphiques de dispersion et définir d'autres graphiques diagonaux. Les paramètres kind ('scatter' est sa valeur par défaut) et diag_kind ('auto' est sa valeur par défaut, donc son type est basé sur la présence du paramètre hue) sont respectivement utilisés à cet effet.

Modifions maintenant notre exemple :

1234567
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
copy

'scatter', 'kde', 'hist', 'reg' sont des valeurs possibles pour le paramètre kind.

diag_kind peut être défini sur l'une des valeurs suivantes :

  • 'auto';
  • 'hist';
  • 'kde';
  • None.

Tout est similaire à la fonction jointplot() à cet égard.

Plus d'informations sur la fonction pairplot() dans sa documentation.

Tâche

Swipe to start coding

  1. Utilisez la fonction correcte pour créer un pair plot.
  2. Définissez les données pour le graphique en utilisant penguins_df comme premier argument.
  3. Définissez 'sex' comme la colonne qui mappe les aspects du graphique à différentes couleurs en spécifiant le deuxième argument.
  4. Définissez les graphiques non-diagonaux pour avoir une ligne de régression ('reg') en spécifiant le troisième argument.
  5. Définissez height à 2.
  6. Définissez aspect à 0.8.

Cela peut prendre quelques minutes pour vérifier la solution.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 6
Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
We're sorry to hear that something went wrong. What happened?
some-alt