Leer Histogram | Meer Statistische Grafieken

Sectie 4. Hoofdstuk 1

single

Veeg om het menu te tonen

Definitie

Histogrammen geven de frequentie- of waarschijnlijkheidsverdeling van een variabele weer door middel van verticale bakken met gelijke breedte, vaak aangeduid als balken.

De pyplot-module biedt de functie hist om histogrammen te maken. De vereiste parameter is de data (x), die een array of een reeks arrays kan zijn. Als meerdere arrays worden doorgegeven, wordt elke array in een andere kleur weergegeven.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervallen en Hoogte

Een Series van jaarlijkse temperaturen in Seattle werd doorgegeven aan hist(). Standaard wordt de data verdeeld in 10 gelijke intervallen tussen het minimum en maximum. Er verschijnen slechts 9 bins omdat één interval geen waarden bevat.

De hoogte van een bin toont de frequentie — het aantal datapunten dat binnen elk interval valt.

Aantal Bins

De optionele parameter bins kan een geheel getal (aantal bins), een reeks randen of een string zijn. Meestal volstaat het om het aantal bins op te geven.

Een veelgebruikte regel voor het kiezen van het aantal bins is de formule van Sturges, gebaseerd op de steekproefgrootte:

bins = 1 + int(np.log2(n))

waarbij n de grootte van de dataset is.

Meer Bestuderen

Je kunt extra methoden voor binberekening verkennen hier.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

Het aantal rijen in de DataFrame is 26 (de grootte van de Series), dus het resulterende aantal bins is 5.

Benadering van kansdichtheid

Om een kansdichtheid te benaderen, stel density=True in bij hist(). Dan is de hoogte van elke bin:

\text{Hoogte} = \frac{m}{n \cdot w}

waarbij:

( n ) — totaal aantal waarden,
( m ) — aantal in de bin,
( w ) — binbreedte.

Hierdoor wordt het totale oppervlak van het histogram gelijk aan 1, wat overeenkomt met het gedrag van een PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Dit biedt een benadering van de kansdichtheidsfunctie voor de temperatuurgegevens.

Meer Bestuderen

Als je meer wilt weten over de parameters van hist(), kun je terecht bij de hist() documentatie.

Taak

Veeg om te beginnen met coderen

Maak een benadering van een kansdichtheidsfunctie met behulp van een steekproef uit de standaard normale verdeling:

Gebruik de juiste functie om een histogram te maken.
Gebruik normal_sample als de data voor het histogram.
Specificeer het aantal bins als het tweede argument met behulp van de formule van Sturges.
Maak van het histogram een benadering van een kansdichtheidsfunctie door het meest rechtse argument correct te specificeren.

Oplossing

Schakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1

single

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.