Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Histogram | Flere Statistiske Diagrammer
Ultimativ Visualisering med Python

Stryg for at vise menuen

book
Histogram

Note
Definition

Histogrammer repræsenterer frekvens- eller sandsynlighedsfordelingen af en variabel ved at bruge lodrette søjler af ens bredde, ofte kaldet søjler.

Modulet pyplot tilbyder funktionen hist til at oprette histogrammer. Det påkrævede parameter er dataene (x), som kan være et array eller en sekvens af arrays. Hvis der gives flere arrays, vises hver i en forskellig farve.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervaller og Højde

Et Series-objekt, der indeholder gennemsnitlige årlige temperaturer i Seattle, blev sendt til funktionen hist(). Som standard deles dataene op i 10 lige store intervaller fra minimum til maksimum. Dog er kun 9 søjler synlige, fordi det andet interval ikke indeholder nogen datapunkter.

Højden af hver søjle svarer som standard til frekvensen af værdierne i dette interval (antallet af gange de forekommer).

Antal Søjler

En anden vigtig, men valgfri parameter er bins, som enten tager antallet af søjler (heltal), en sekvens af tal, der angiver kanterne for søjlerne, eller en streng. Oftest er det tilstrækkeligt blot at angive antallet af søjler.

Der findes flere metoder til at bestemme bredden af histogram-søjler. I dette eksempel anvender vi Sturges' formel, som beregner det optimale antal søjler baseret på stikprøvens størrelse:

Her er n størrelsen på data-arrayet.

Note
Undersøg Mere

Du kan udforske yderligere metoder til bin-beregning her.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Antallet af rækker i DataFrame er 26 (størrelsen af Series), så det resulterende antal bins er 5.

Sandsynlighedstætheds-approksimation

For at vise en approksimation af sandsynlighedstætheden, skal du sætte parameteren density til True i funktionen hist.

Nu beregnes højden af hver søjle ved hjælp af:

Højde=mn×w\text{Højde} = \frac{m}{n \times w}

hvor:

  • nn - det samlede antal værdier i datasættet;

  • mm - antallet af værdier i søjlen;

  • ww - bredden af søjlen.

Dette sikrer, at det samlede areal under histogrammet er 1, hvilket svarer til den centrale egenskab ved en sandsynlighedstæthedsfunktion (PDF).

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Dette giver en approksimation af sandsynlighedstæthedsfunktionen for temperaturdataene.

Note
Undersøg Mere

Hvis du ønsker at udforske flere af hist()-parametrene, kan du se hist() dokumentationen.

Opgave

Swipe to start coding

Opret en tilnærmelse af en sandsynlighedstæthedsfunktion ved hjælp af et udsnit fra standard normalfordelingen:

  1. Brug den korrekte funktion til at oprette et histogram.
  2. Brug normal_sample som data til histogrammet.
  3. Angiv antallet af søjler som det andet argument ved hjælp af Sturges' formel.
  4. Gør histogrammet til en tilnærmelse af en sandsynlighedstæthedsfunktion ved korrekt at angive det yderste argument.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1
Vi beklager, at noget gik galt. Hvad skete der?

Spørg AI

expand
ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

book
Histogram

Note
Definition

Histogrammer repræsenterer frekvens- eller sandsynlighedsfordelingen af en variabel ved at bruge lodrette søjler af ens bredde, ofte kaldet søjler.

Modulet pyplot tilbyder funktionen hist til at oprette histogrammer. Det påkrævede parameter er dataene (x), som kan være et array eller en sekvens af arrays. Hvis der gives flere arrays, vises hver i en forskellig farve.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervaller og Højde

Et Series-objekt, der indeholder gennemsnitlige årlige temperaturer i Seattle, blev sendt til funktionen hist(). Som standard deles dataene op i 10 lige store intervaller fra minimum til maksimum. Dog er kun 9 søjler synlige, fordi det andet interval ikke indeholder nogen datapunkter.

Højden af hver søjle svarer som standard til frekvensen af værdierne i dette interval (antallet af gange de forekommer).

Antal Søjler

En anden vigtig, men valgfri parameter er bins, som enten tager antallet af søjler (heltal), en sekvens af tal, der angiver kanterne for søjlerne, eller en streng. Oftest er det tilstrækkeligt blot at angive antallet af søjler.

Der findes flere metoder til at bestemme bredden af histogram-søjler. I dette eksempel anvender vi Sturges' formel, som beregner det optimale antal søjler baseret på stikprøvens størrelse:

Her er n størrelsen på data-arrayet.

Note
Undersøg Mere

Du kan udforske yderligere metoder til bin-beregning her.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Antallet af rækker i DataFrame er 26 (størrelsen af Series), så det resulterende antal bins er 5.

Sandsynlighedstætheds-approksimation

For at vise en approksimation af sandsynlighedstætheden, skal du sætte parameteren density til True i funktionen hist.

Nu beregnes højden af hver søjle ved hjælp af:

Højde=mn×w\text{Højde} = \frac{m}{n \times w}

hvor:

  • nn - det samlede antal værdier i datasættet;

  • mm - antallet af værdier i søjlen;

  • ww - bredden af søjlen.

Dette sikrer, at det samlede areal under histogrammet er 1, hvilket svarer til den centrale egenskab ved en sandsynlighedstæthedsfunktion (PDF).

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Dette giver en approksimation af sandsynlighedstæthedsfunktionen for temperaturdataene.

Note
Undersøg Mere

Hvis du ønsker at udforske flere af hist()-parametrene, kan du se hist() dokumentationen.

Opgave

Swipe to start coding

Opret en tilnærmelse af en sandsynlighedstæthedsfunktion ved hjælp af et udsnit fra standard normalfordelingen:

  1. Brug den korrekte funktion til at oprette et histogram.
  2. Brug normal_sample som data til histogrammet.
  3. Angiv antallet af søjler som det andet argument ved hjælp af Sturges' formel.
  4. Gør histogrammet til en tilnærmelse af en sandsynlighedstæthedsfunktion ved korrekt at angive det yderste argument.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1
Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Vi beklager, at noget gik galt. Hvad skete der?
some-alt