Boîte à Moustaches
Box plot est un graphique extrêmement courant en statistique, utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles des données à travers leurs quartiles.
Quartiles

Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il en existe trois :
- Le premier quartile (Q1) est la valeur médiane entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
- Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
- Le troisième quartile (Q3) est la valeur médiane entre la médiane de l'échantillon et la valeur la plus élevée de l'échantillon (75 % des données se trouvent en dessous de Q3).
Éléments du diagramme en boîte

- Le côté droit du rectangle rouge représente le troisième quartile et le côté gauche représente le premier quartile ;
- Q3 - Q1 est appelé l’intervalle interquartile (IQR), qui est représenté par le rectangle où la ligne jaune indique la médiane ;
- Les lignes noires à l’extérieur du rectangle sont appelées moustaches. Celle de gauche représente Q1−1.5⋅IR, et celle de droite représente Q3+1.5⋅IR ;
- Les points de données situés en dehors des moustaches sont appelés valeurs aberrantes.
L’étape suivante consiste à générer un diagramme en boîte à l’aide de la bibliothèque matplotlib
:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Données du diagramme en boîte
La fonction boxplot()
du module pyplot
est utilisée avec le premier et unique paramètre obligatoire x
représentant les données. Ces données peuvent être un objet de type array (par exemple, une Series
), un tableau 2D (un diagramme en boîte est tracé pour chaque colonne), ou une séquence de tableaux 1D (un diagramme en boîte est tracé pour chaque tableau).
Paramètres optionnels
Le paramètre tick_labels
constitue une exception. Celui-ci est particulièrement utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau de données :
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Dans cet exemple, l'ensemble du DataFrame
comportant deux colonnes a été transmis à boxplot()
, ce qui a généré des box plots distincts pour chaque colonne avec des étiquettes appropriées automatiquement attribuées.
Il existe également de nombreux paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer dans la documentation de boxplot()
, mais en pratique, vous les utiliserez rarement.
Swipe to start coding
Créer deux diagrammes en boîte à l'aide de deux échantillons issus de la distribution normale standard :
- Utiliser la fonction appropriée pour créer les diagrammes en boîte.
- Utiliser la liste de
normal_sample_1
etnormal_sample_2
(dans cet ordre de gauche à droite) comme données. - Étiqueter le diagramme en boîte de gauche comme
First sample
et celui de droite commeSecond sample
en utilisant lalist
.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain what the interquartile range (IQR) is used for?
How do I interpret outliers in a box plot?
Can you show how to customize the appearance of a box plot?
Awesome!
Completion rate improved to 3.85
Boîte à Moustaches
Glissez pour afficher le menu
Box plot est un graphique extrêmement courant en statistique, utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles des données à travers leurs quartiles.
Quartiles

Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il en existe trois :
- Le premier quartile (Q1) est la valeur médiane entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
- Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
- Le troisième quartile (Q3) est la valeur médiane entre la médiane de l'échantillon et la valeur la plus élevée de l'échantillon (75 % des données se trouvent en dessous de Q3).
Éléments du diagramme en boîte

- Le côté droit du rectangle rouge représente le troisième quartile et le côté gauche représente le premier quartile ;
- Q3 - Q1 est appelé l’intervalle interquartile (IQR), qui est représenté par le rectangle où la ligne jaune indique la médiane ;
- Les lignes noires à l’extérieur du rectangle sont appelées moustaches. Celle de gauche représente Q1−1.5⋅IR, et celle de droite représente Q3+1.5⋅IR ;
- Les points de données situés en dehors des moustaches sont appelés valeurs aberrantes.
L’étape suivante consiste à générer un diagramme en boîte à l’aide de la bibliothèque matplotlib
:
1234567891011import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Données du diagramme en boîte
La fonction boxplot()
du module pyplot
est utilisée avec le premier et unique paramètre obligatoire x
représentant les données. Ces données peuvent être un objet de type array (par exemple, une Series
), un tableau 2D (un diagramme en boîte est tracé pour chaque colonne), ou une séquence de tableaux 1D (un diagramme en boîte est tracé pour chaque tableau).
Paramètres optionnels
Le paramètre tick_labels
constitue une exception. Celui-ci est particulièrement utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau de données :
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Dans cet exemple, l'ensemble du DataFrame
comportant deux colonnes a été transmis à boxplot()
, ce qui a généré des box plots distincts pour chaque colonne avec des étiquettes appropriées automatiquement attribuées.
Il existe également de nombreux paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer dans la documentation de boxplot()
, mais en pratique, vous les utiliserez rarement.
Swipe to start coding
Créer deux diagrammes en boîte à l'aide de deux échantillons issus de la distribution normale standard :
- Utiliser la fonction appropriée pour créer les diagrammes en boîte.
- Utiliser la liste de
normal_sample_1
etnormal_sample_2
(dans cet ordre de gauche à droite) comme données. - Étiqueter le diagramme en boîte de gauche comme
First sample
et celui de droite commeSecond sample
en utilisant lalist
.
Solution
Merci pour vos commentaires !
single