Histogram

Definisjon

Histogrammer viser frekvens- eller sannsynlighetsfordelingen til en variabel ved å bruke vertikale søyler med lik bredde, ofte kalt stolper.

Modulen pyplot tilbyr funksjonen hist for å lage histogrammer. Det påkrevde parameteret er dataene (x), som kan være et array eller en sekvens av arrays. Hvis flere arrays sendes inn, vises hver i en forskjellig farge.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervaller og høyde

En Series med årlige temperaturer fra Seattle ble sendt til hist(). Som standard deles dataene inn i 10 like intervaller mellom minimum og maksimum. Kun 9 søyler vises fordi ett intervall ikke inneholder noen verdier.

Søylehøyden viser frekvensen — hvor mange datapunkter som faller innenfor hvert intervall.

Antall søyler

Den valgfrie parameteren bins kan være et heltall (antall søyler), en sekvens av kanter, eller en streng. Vanligvis er det tilstrekkelig å angi antall søyler.

En vanlig regel for å velge antall søyler er Sturges’ formel, basert på utvalgsstørrelsen:

bins = 1 + int(np.log2(n))

hvor n er datasettets størrelse.

Les mer

Du kan utforske flere metoder for søyleberegning her.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

Antall rader i DataFrame er 26 (størrelsen på Series), så det resulterende antallet søyler er 5.

Tilnærming av sannsynlighetstetthet

For å tilnærme en sannsynlighetstetthet, sett density=True i hist(). Da blir høyden til hver søyle:

\text{Height} = \frac{m}{n \cdot w}

hvor:

( n ) — totalt antall verdier,
( m ) — antall i søylen,
( w ) — søylebredde.

Dette gjør at det totale arealet av histogrammet blir 1, noe som samsvarer med oppførselen til en PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Dette gir en tilnærming til sannsynlighetstetthetsfunksjonen for temperaturdataene.

Studer mer

Hvis du ønsker å utforske flere av parameterne til hist(), kan du se hist() dokumentasjonen.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 1

single

Sveip for å vise menyen