Histogramme
Les histogrammes représentent la fréquence ou la distribution de probabilité d'une variable à l'aide de barres verticales de largeur égale, souvent appelées barres.
Le module pyplot fournit la fonction hist pour créer des histogrammes. Le paramètre requis est la donnée (x), qui peut être un tableau ou une séquence de tableaux. Si plusieurs tableaux sont passés, chacun est affiché dans une couleur différente.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalles et Hauteur
Une Series des températures annuelles de Seattle a été transmise à hist(). Par défaut, les données sont réparties en 10 intervalles égaux entre le minimum et le maximum. Seulement 9 classes apparaissent car un intervalle ne contient aucune valeur.
La hauteur de chaque classe indique la fréquence — le nombre de points de données dans chaque intervalle.
Nombre de Classes
Le paramètre optionnel bins peut être un entier (nombre de classes), une séquence de bornes ou une chaîne de caractères. En général, indiquer le nombre de classes suffit.
Une règle courante pour choisir le nombre de classes est la formule de Sturges, basée sur la taille de l’échantillon :
bins = 1 + int(np.log2(n))
où n est la taille de l’ensemble de données.
Vous pouvez explorer d’autres méthodes de calcul des classes ici.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Le nombre de lignes dans le DataFrame est de 26 (la taille de la Series), donc le nombre de classes résultant est 5.
Approximation de la densité de probabilité
Pour approximer une densité de probabilité, définir density=True dans hist().
Ainsi, la hauteur de chaque classe est :
où :
- ( n ) — nombre total de valeurs,
- ( m ) — nombre d'éléments dans la classe,
- ( w ) — largeur de la classe.
Cela rend la surface totale de l'histogramme égale à 1, ce qui correspond au comportement d'une PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Ceci fournit une approximation de la fonction de densité de probabilité pour les données de température.
Si vous souhaitez explorer davantage les paramètres de hist(), vous pouvez consulter la documentation de hist().
Swipe to start coding
Créer une approximation d'une fonction de densité de probabilité à l'aide d'un échantillon provenant de la distribution normale standard :
- Utiliser la fonction appropriée pour créer un histogramme.
- Utiliser
normal_samplecomme données pour l'histogramme. - Spécifier le nombre de classes (bins) en second argument en utilisant la formule de Sturges.
- Faire de l'histogramme une approximation d'une fonction de densité de probabilité en spécifiant correctement l'argument le plus à droite.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.85
Histogramme
Glissez pour afficher le menu
Les histogrammes représentent la fréquence ou la distribution de probabilité d'une variable à l'aide de barres verticales de largeur égale, souvent appelées barres.
Le module pyplot fournit la fonction hist pour créer des histogrammes. Le paramètre requis est la donnée (x), qui peut être un tableau ou une séquence de tableaux. Si plusieurs tableaux sont passés, chacun est affiché dans une couleur différente.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalles et Hauteur
Une Series des températures annuelles de Seattle a été transmise à hist(). Par défaut, les données sont réparties en 10 intervalles égaux entre le minimum et le maximum. Seulement 9 classes apparaissent car un intervalle ne contient aucune valeur.
La hauteur de chaque classe indique la fréquence — le nombre de points de données dans chaque intervalle.
Nombre de Classes
Le paramètre optionnel bins peut être un entier (nombre de classes), une séquence de bornes ou une chaîne de caractères. En général, indiquer le nombre de classes suffit.
Une règle courante pour choisir le nombre de classes est la formule de Sturges, basée sur la taille de l’échantillon :
bins = 1 + int(np.log2(n))
où n est la taille de l’ensemble de données.
Vous pouvez explorer d’autres méthodes de calcul des classes ici.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Le nombre de lignes dans le DataFrame est de 26 (la taille de la Series), donc le nombre de classes résultant est 5.
Approximation de la densité de probabilité
Pour approximer une densité de probabilité, définir density=True dans hist().
Ainsi, la hauteur de chaque classe est :
où :
- ( n ) — nombre total de valeurs,
- ( m ) — nombre d'éléments dans la classe,
- ( w ) — largeur de la classe.
Cela rend la surface totale de l'histogramme égale à 1, ce qui correspond au comportement d'une PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Ceci fournit une approximation de la fonction de densité de probabilité pour les données de température.
Si vous souhaitez explorer davantage les paramètres de hist(), vous pouvez consulter la documentation de hist().
Swipe to start coding
Créer une approximation d'une fonction de densité de probabilité à l'aide d'un échantillon provenant de la distribution normale standard :
- Utiliser la fonction appropriée pour créer un histogramme.
- Utiliser
normal_samplecomme données pour l'histogramme. - Spécifier le nombre de classes (bins) en second argument en utilisant la formule de Sturges.
- Faire de l'histogramme une approximation d'une fonction de densité de probabilité en spécifiant correctement l'argument le plus à droite.
Solution
Merci pour vos commentaires !
single