Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Histogram | Meer Statistische Grafieken
Ultieme Visualisatie met Python

bookHistogram

Note
Definitie

Histogrammen geven de frequentie- of waarschijnlijkheidsverdeling van een variabele weer door middel van verticale bakken met gelijke breedte, vaak aangeduid als balken.

De pyplot-module biedt de functie hist om histogrammen te maken. De vereiste parameter is de data (x), die een array of een reeks arrays kan zijn. Als meerdere arrays worden doorgegeven, wordt elke array in een andere kleur weergegeven.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervallen en Hoogte

Een Series van jaarlijkse temperaturen in Seattle werd doorgegeven aan hist(). Standaard wordt de data verdeeld in 10 gelijke intervallen tussen het minimum en maximum. Er verschijnen slechts 9 bins omdat één interval geen waarden bevat.

De hoogte van een bin toont de frequentie — het aantal datapunten dat binnen elk interval valt.

Aantal Bins

De optionele parameter bins kan een geheel getal (aantal bins), een reeks randen of een string zijn. Meestal volstaat het om het aantal bins op te geven.

Een veelgebruikte regel voor het kiezen van het aantal bins is de formule van Sturges, gebaseerd op de steekproefgrootte:

bins = 1 + int(np.log2(n))

waarbij n de grootte van de dataset is.

Note
Meer Bestuderen

Je kunt extra methoden voor binberekening verkennen hier.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Het aantal rijen in de DataFrame is 26 (de grootte van de Series), dus het resulterende aantal bins is 5.

Benadering van kansdichtheid

Om een kansdichtheid te benaderen, stel density=True in bij hist(). Dan is de hoogte van elke bin:

Hoogte=mnw\text{Hoogte} = \frac{m}{n \cdot w}

waarbij:

  • ( n ) — totaal aantal waarden,
  • ( m ) — aantal in de bin,
  • ( w ) — binbreedte.

Hierdoor wordt het totale oppervlak van het histogram gelijk aan 1, wat overeenkomt met het gedrag van een PDF.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Dit biedt een benadering van de kansdichtheidsfunctie voor de temperatuurgegevens.

Note
Meer Bestuderen

Als je meer wilt weten over de parameters van hist(), kun je terecht bij de hist() documentatie.

Taak

Swipe to start coding

Maak een benadering van een kansdichtheidsfunctie met behulp van een steekproef uit de standaard normale verdeling:

  1. Gebruik de juiste functie om een histogram te maken.
  2. Gebruik normal_sample als de data voor het histogram.
  3. Specificeer het aantal bins als het tweede argument met behulp van de formule van Sturges.
  4. Maak van het histogram een benadering van een kansdichtheidsfunctie door het meest rechtse argument correct te specificeren.

Oplossing

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain how the `density=True` parameter changes the histogram?

What does the resulting histogram tell us about the Seattle temperature data?

How can I compare histograms for Boston and Seattle on the same plot?

close

bookHistogram

Veeg om het menu te tonen

Note
Definitie

Histogrammen geven de frequentie- of waarschijnlijkheidsverdeling van een variabele weer door middel van verticale bakken met gelijke breedte, vaak aangeduid als balken.

De pyplot-module biedt de functie hist om histogrammen te maken. De vereiste parameter is de data (x), die een array of een reeks arrays kan zijn. Als meerdere arrays worden doorgegeven, wordt elke array in een andere kleur weergegeven.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervallen en Hoogte

Een Series van jaarlijkse temperaturen in Seattle werd doorgegeven aan hist(). Standaard wordt de data verdeeld in 10 gelijke intervallen tussen het minimum en maximum. Er verschijnen slechts 9 bins omdat één interval geen waarden bevat.

De hoogte van een bin toont de frequentie — het aantal datapunten dat binnen elk interval valt.

Aantal Bins

De optionele parameter bins kan een geheel getal (aantal bins), een reeks randen of een string zijn. Meestal volstaat het om het aantal bins op te geven.

Een veelgebruikte regel voor het kiezen van het aantal bins is de formule van Sturges, gebaseerd op de steekproefgrootte:

bins = 1 + int(np.log2(n))

waarbij n de grootte van de dataset is.

Note
Meer Bestuderen

Je kunt extra methoden voor binberekening verkennen hier.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Het aantal rijen in de DataFrame is 26 (de grootte van de Series), dus het resulterende aantal bins is 5.

Benadering van kansdichtheid

Om een kansdichtheid te benaderen, stel density=True in bij hist(). Dan is de hoogte van elke bin:

Hoogte=mnw\text{Hoogte} = \frac{m}{n \cdot w}

waarbij:

  • ( n ) — totaal aantal waarden,
  • ( m ) — aantal in de bin,
  • ( w ) — binbreedte.

Hierdoor wordt het totale oppervlak van het histogram gelijk aan 1, wat overeenkomt met het gedrag van een PDF.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Dit biedt een benadering van de kansdichtheidsfunctie voor de temperatuurgegevens.

Note
Meer Bestuderen

Als je meer wilt weten over de parameters van hist(), kun je terecht bij de hist() documentatie.

Taak

Swipe to start coding

Maak een benadering van een kansdichtheidsfunctie met behulp van een steekproef uit de standaard normale verdeling:

  1. Gebruik de juiste functie om een histogram te maken.
  2. Gebruik normal_sample als de data voor het histogram.
  3. Specificeer het aantal bins als het tweede argument met behulp van de formule van Sturges.
  4. Maak van het histogram een benadering van een kansdichtheidsfunctie door het meest rechtse argument correct te specificeren.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1
single

single

some-alt