Histogram
Histogrammen geven de frequentie- of waarschijnlijkheidsverdeling van een variabele weer door middel van verticale bakken met gelijke breedte, vaak aangeduid als balken.
De pyplot-module biedt de functie hist om histogrammen te maken. De vereiste parameter is de data (x), die een array of een reeks arrays kan zijn. Als meerdere arrays worden doorgegeven, wordt elke array in een andere kleur weergegeven.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervallen en Hoogte
Een Series van jaarlijkse temperaturen in Seattle werd doorgegeven aan hist(). Standaard wordt de data verdeeld in 10 gelijke intervallen tussen het minimum en maximum. Er verschijnen slechts 9 bins omdat één interval geen waarden bevat.
De hoogte van een bin toont de frequentie — het aantal datapunten dat binnen elk interval valt.
Aantal Bins
De optionele parameter bins kan een geheel getal (aantal bins), een reeks randen of een string zijn. Meestal volstaat het om het aantal bins op te geven.
Een veelgebruikte regel voor het kiezen van het aantal bins is de formule van Sturges, gebaseerd op de steekproefgrootte:
bins = 1 + int(np.log2(n))
waarbij n de grootte van de dataset is.
Je kunt extra methoden voor binberekening verkennen hier.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Het aantal rijen in de DataFrame is 26 (de grootte van de Series), dus het resulterende aantal bins is 5.
Benadering van kansdichtheid
Om een kansdichtheid te benaderen, stel density=True in bij hist().
Dan is de hoogte van elke bin:
waarbij:
- ( n ) — totaal aantal waarden,
- ( m ) — aantal in de bin,
- ( w ) — binbreedte.
Hierdoor wordt het totale oppervlak van het histogram gelijk aan 1, wat overeenkomt met het gedrag van een PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Dit biedt een benadering van de kansdichtheidsfunctie voor de temperatuurgegevens.
Als je meer wilt weten over de parameters van hist(), kun je terecht bij de hist() documentatie.
Swipe to start coding
Maak een benadering van een kansdichtheidsfunctie met behulp van een steekproef uit de standaard normale verdeling:
- Gebruik de juiste functie om een histogram te maken.
- Gebruik
normal_sampleals de data voor het histogram. - Specificeer het aantal bins als het tweede argument met behulp van de formule van Sturges.
- Maak van het histogram een benadering van een kansdichtheidsfunctie door het meest rechtse argument correct te specificeren.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain how the `density=True` parameter changes the histogram?
What does the resulting histogram tell us about the Seattle temperature data?
How can I compare histograms for Boston and Seattle on the same plot?
Awesome!
Completion rate improved to 3.85
Histogram
Veeg om het menu te tonen
Histogrammen geven de frequentie- of waarschijnlijkheidsverdeling van een variabele weer door middel van verticale bakken met gelijke breedte, vaak aangeduid als balken.
De pyplot-module biedt de functie hist om histogrammen te maken. De vereiste parameter is de data (x), die een array of een reeks arrays kan zijn. Als meerdere arrays worden doorgegeven, wordt elke array in een andere kleur weergegeven.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervallen en Hoogte
Een Series van jaarlijkse temperaturen in Seattle werd doorgegeven aan hist(). Standaard wordt de data verdeeld in 10 gelijke intervallen tussen het minimum en maximum. Er verschijnen slechts 9 bins omdat één interval geen waarden bevat.
De hoogte van een bin toont de frequentie — het aantal datapunten dat binnen elk interval valt.
Aantal Bins
De optionele parameter bins kan een geheel getal (aantal bins), een reeks randen of een string zijn. Meestal volstaat het om het aantal bins op te geven.
Een veelgebruikte regel voor het kiezen van het aantal bins is de formule van Sturges, gebaseerd op de steekproefgrootte:
bins = 1 + int(np.log2(n))
waarbij n de grootte van de dataset is.
Je kunt extra methoden voor binberekening verkennen hier.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Het aantal rijen in de DataFrame is 26 (de grootte van de Series), dus het resulterende aantal bins is 5.
Benadering van kansdichtheid
Om een kansdichtheid te benaderen, stel density=True in bij hist().
Dan is de hoogte van elke bin:
waarbij:
- ( n ) — totaal aantal waarden,
- ( m ) — aantal in de bin,
- ( w ) — binbreedte.
Hierdoor wordt het totale oppervlak van het histogram gelijk aan 1, wat overeenkomt met het gedrag van een PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Dit biedt een benadering van de kansdichtheidsfunctie voor de temperatuurgegevens.
Als je meer wilt weten over de parameters van hist(), kun je terecht bij de hist() documentatie.
Swipe to start coding
Maak een benadering van een kansdichtheidsfunctie met behulp van een steekproef uit de standaard normale verdeling:
- Gebruik de juiste functie om een histogram te maken.
- Gebruik
normal_sampleals de data voor het histogram. - Specificeer het aantal bins als het tweede argument met behulp van de formule van Sturges.
- Maak van het histogram een benadering van een kansdichtheidsfunctie door het meest rechtse argument correct te specificeren.
Oplossing
Bedankt voor je feedback!
single