Histogram
Histogrammer representerar frekvens- eller sannolikhetsfördelningen av en variabel genom att använda vertikala staplar med lika bredd, ofta kallade staplar.
Modulen pyplot tillhandahåller funktionen hist för att skapa histogram. Den obligatoriska parametern är data (x), som kan vara en array eller en sekvens av arrayer. Om flera arrayer anges visas varje i en annan färg.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervall och Höjd
En Series med årliga temperaturer i Seattle skickades till hist(). Som standard delas data upp i 10 lika stora intervall mellan minimum och maximum. Endast 9 staplar visas eftersom ett intervall inte innehåller några värden.
Stapelhöjden visar frekvensen — hur många datapunkter som faller inom varje intervall.
Antal Staplar
Den valfria parametern bins kan vara ett heltal (antal staplar), en sekvens av kanter eller en sträng. Vanligtvis räcker det att ange antalet staplar.
En vanlig regel för att välja antal staplar är Sturges’ formel, baserad på urvalsstorlek:
bins = 1 + int(np.log2(n))
Där n är datamängdens storlek.
Du kan utforska ytterligare metoder för beräkning av staplar här.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Antalet rader i DataFrame är 26 (storleken på Series), så det resulterande antalet intervall är 5.
Sannolikhetstäthetsapproximation
För att approximera en sannolikhetstäthet, ange density=True i hist().
Då blir varje intervallhöjd:
där:
- ( n ) — totalt antal värden,
- ( m ) — antal i intervallet,
- ( w ) — intervallbredd.
Detta gör att den totala arean under histogrammet blir 1, vilket motsvarar beteendet hos en PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Detta ger en approximation av sannolikhetstäthetsfunktionen för temperaturdatan.
Om du vill utforska mer om parametrarna för hist(), kan du läsa mer i hist() dokumentationen.
Swipe to start coding
Skapa en approximation av en sannolikhetstäthetsfunktion med ett stickprov från standardnormalfördelningen:
- Använd rätt funktion för att skapa ett histogram.
- Använd
normal_samplesom data för histogrammet. - Ange antalet intervall (bins) som det andra argumentet med hjälp av Sturges' formel.
- Gör histogrammet till en approximation av en sannolikhetstäthetsfunktion genom att korrekt ange det högra argumentet.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain how the `density=True` parameter changes the histogram?
What does the resulting histogram tell us about the Seattle temperature data?
How can I compare histograms for Boston and Seattle on the same plot?
Awesome!
Completion rate improved to 3.85
Histogram
Svep för att visa menyn
Histogrammer representerar frekvens- eller sannolikhetsfördelningen av en variabel genom att använda vertikala staplar med lika bredd, ofta kallade staplar.
Modulen pyplot tillhandahåller funktionen hist för att skapa histogram. Den obligatoriska parametern är data (x), som kan vara en array eller en sekvens av arrayer. Om flera arrayer anges visas varje i en annan färg.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervall och Höjd
En Series med årliga temperaturer i Seattle skickades till hist(). Som standard delas data upp i 10 lika stora intervall mellan minimum och maximum. Endast 9 staplar visas eftersom ett intervall inte innehåller några värden.
Stapelhöjden visar frekvensen — hur många datapunkter som faller inom varje intervall.
Antal Staplar
Den valfria parametern bins kan vara ett heltal (antal staplar), en sekvens av kanter eller en sträng. Vanligtvis räcker det att ange antalet staplar.
En vanlig regel för att välja antal staplar är Sturges’ formel, baserad på urvalsstorlek:
bins = 1 + int(np.log2(n))
Där n är datamängdens storlek.
Du kan utforska ytterligare metoder för beräkning av staplar här.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Antalet rader i DataFrame är 26 (storleken på Series), så det resulterande antalet intervall är 5.
Sannolikhetstäthetsapproximation
För att approximera en sannolikhetstäthet, ange density=True i hist().
Då blir varje intervallhöjd:
där:
- ( n ) — totalt antal värden,
- ( m ) — antal i intervallet,
- ( w ) — intervallbredd.
Detta gör att den totala arean under histogrammet blir 1, vilket motsvarar beteendet hos en PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Detta ger en approximation av sannolikhetstäthetsfunktionen för temperaturdatan.
Om du vill utforska mer om parametrarna för hist(), kan du läsa mer i hist() dokumentationen.
Swipe to start coding
Skapa en approximation av en sannolikhetstäthetsfunktion med ett stickprov från standardnormalfördelningen:
- Använd rätt funktion för att skapa ett histogram.
- Använd
normal_samplesom data för histogrammet. - Ange antalet intervall (bins) som det andra argumentet med hjälp av Sturges' formel.
- Gör histogrammet till en approximation av en sannolikhetstäthetsfunktion genom att korrekt ange det högra argumentet.
Lösning
Tack för dina kommentarer!
single