Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Boîte à Moustaches | Autres Graphiques Statistiques
Visualisation Ultime Avec Python

bookBoîte à Moustaches

Note
Définition

Box plot est un graphique extrêmement courant en statistique, utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles des données à travers leurs quartiles.

Quartiles

quartiles

Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il en existe trois :

  • Le premier quartile (Q1) est la valeur médiane entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
  • Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
  • Le troisième quartile (Q3) est la valeur médiane entre la médiane de l'échantillon et la valeur la plus élevée de l'échantillon (75 % des données se trouvent en dessous de Q3).

Éléments du diagramme en boîte

box_plot_explained
  • Le côté droit du rectangle rouge représente le troisième quartile et le côté gauche représente le premier quartile ;
  • Q3 - Q1 est appelé l’intervalle interquartile (IQR), qui est représenté par le rectangle où la ligne jaune indique la médiane ;
  • Les lignes noires à l’extérieur du rectangle sont appelées moustaches. Celle de gauche représente Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, et celle de droite représente Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR} ;
  • Les points de données situés en dehors des moustaches sont appelés valeurs aberrantes.

L’étape suivante consiste à générer un diagramme en boîte à l’aide de la bibliothèque matplotlib :

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Données du diagramme en boîte

La fonction boxplot() du module pyplot est utilisée avec le premier et unique paramètre obligatoire x représentant les données. Ces données peuvent être un objet de type array (par exemple, une Series), un tableau 2D (un diagramme en boîte est tracé pour chaque colonne), ou une séquence de tableaux 1D (un diagramme en boîte est tracé pour chaque tableau).

Paramètres optionnels

Le paramètre tick_labels constitue une exception. Celui-ci est particulièrement utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau de données :

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Dans cet exemple, l'ensemble du DataFrame comportant deux colonnes a été transmis à boxplot(), ce qui a généré des box plots distincts pour chaque colonne avec des étiquettes appropriées automatiquement attribuées.

Note
Approfondir

Il existe également de nombreux paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer dans la documentation de boxplot(), mais en pratique, vous les utiliserez rarement.

Tâche

Swipe to start coding

Créer deux diagrammes en boîte à l'aide de deux échantillons issus de la distribution normale standard :

  1. Utiliser la fonction appropriée pour créer les diagrammes en boîte.
  2. Utiliser la liste de normal_sample_1 et normal_sample_2 (dans cet ordre de gauche à droite) comme données.
  3. Étiqueter le diagramme en boîte de gauche comme First sample et celui de droite comme Second sample en utilisant la list.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain what the interquartile range (IQR) is used for?

How do I interpret outliers in a box plot?

Can you show how to customize the appearance of a box plot?

close

Awesome!

Completion rate improved to 3.85

bookBoîte à Moustaches

Glissez pour afficher le menu

Note
Définition

Box plot est un graphique extrêmement courant en statistique, utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles des données à travers leurs quartiles.

Quartiles

quartiles

Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il en existe trois :

  • Le premier quartile (Q1) est la valeur médiane entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
  • Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
  • Le troisième quartile (Q3) est la valeur médiane entre la médiane de l'échantillon et la valeur la plus élevée de l'échantillon (75 % des données se trouvent en dessous de Q3).

Éléments du diagramme en boîte

box_plot_explained
  • Le côté droit du rectangle rouge représente le troisième quartile et le côté gauche représente le premier quartile ;
  • Q3 - Q1 est appelé l’intervalle interquartile (IQR), qui est représenté par le rectangle où la ligne jaune indique la médiane ;
  • Les lignes noires à l’extérieur du rectangle sont appelées moustaches. Celle de gauche représente Q11.5IR\text{Q1} - 1.5 \cdot \text{IR}, et celle de droite représente Q3+1.5IR\text{Q3} + 1.5 \cdot \text{IR} ;
  • Les points de données situés en dehors des moustaches sont appelés valeurs aberrantes.

L’étape suivante consiste à générer un diagramme en boîte à l’aide de la bibliothèque matplotlib :

1234567891011
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Données du diagramme en boîte

La fonction boxplot() du module pyplot est utilisée avec le premier et unique paramètre obligatoire x représentant les données. Ces données peuvent être un objet de type array (par exemple, une Series), un tableau 2D (un diagramme en boîte est tracé pour chaque colonne), ou une séquence de tableaux 1D (un diagramme en boîte est tracé pour chaque tableau).

Paramètres optionnels

Le paramètre tick_labels constitue une exception. Celui-ci est particulièrement utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau de données :

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Dans cet exemple, l'ensemble du DataFrame comportant deux colonnes a été transmis à boxplot(), ce qui a généré des box plots distincts pour chaque colonne avec des étiquettes appropriées automatiquement attribuées.

Note
Approfondir

Il existe également de nombreux paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer dans la documentation de boxplot(), mais en pratique, vous les utiliserez rarement.

Tâche

Swipe to start coding

Créer deux diagrammes en boîte à l'aide de deux échantillons issus de la distribution normale standard :

  1. Utiliser la fonction appropriée pour créer les diagrammes en boîte.
  2. Utiliser la liste de normal_sample_1 et normal_sample_2 (dans cet ordre de gauche à droite) comme données.
  3. Étiqueter le diagramme en boîte de gauche comme First sample et celui de droite comme Second sample en utilisant la list.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2
single

single

some-alt