Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Histogrammi | Lisää Tilastollisia Kuvioita
Ultimate Visualization with Python

bookHistogrammi

Note
Määritelmä

Histogrammit kuvaavat muuttujan frekvenssi- tai todennäköisyysjakaumaa käyttämällä pystysuoria, yhtä leveitä pylväitä, joita kutsutaan usein palkkeiksi.

pyplot-moduuli tarjoaa hist-funktion histogrammien luomiseen. Pakollinen parametri on data (x), joka voi olla taulukko tai taulukoiden jono. Jos useita taulukoita annetaan, kukin näytetään eri värillä.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Väli ja Korkeus

Series-objekti, joka sisältää Seattlen vuosittaiset lämpötilat, välitettiin funktiolle hist(). Oletuksena data jaetaan 10 yhtä suureen väliin minimin ja maksimin välille. Vain 9 pylvästä näkyy, koska yksi väli ei sisällä arvoja.

Pylvään korkeus ilmaisee frekvenssin — kuinka monta havaintoa sijoittuu kuhunkin väliin.

Pylväiden määrä

Valinnainen bins-parametri voi olla kokonaisluku (pylväiden määrä), reuna-arvojen jono tai merkkijono. Yleensä pylväiden määrän määrittäminen riittää.

Yksi yleinen sääntö pylväiden määrän valintaan on Sturgesin kaava, joka perustuu otoskokoon:

bins = 1 + int(np.log2(n))

missä n on aineiston koko.

Note
Lisätietoa

Voit tutustua muihin pylväiden laskentamenetelmiin täällä.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

DataFrame-taulukossa on 26 riviä (Series-sarjan koko), joten lopullinen luokkien määrä on 5.

Todennäköisyystiheyden approksimaatio

Todennäköisyystiheyden approksimoimiseksi aseta density=True funktioon hist(). Tällöin jokaisen luokan korkeus on:

Korkeus=mnw\text{Korkeus} = \frac{m}{n \cdot w}

missä:

  • ( n ) — arvojen kokonaismäärä,
  • ( m ) — luokan havaintojen määrä,
  • ( w ) — luokan leveys.

Tämä tekee histogrammin kokonaispinta-alasta 1, mikä vastaa PDF:n käyttäytymistä.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Tämä tarjoaa lämpötiladatan todennäköisyystiheysfunktion approksimaation.

Note
Lisätietoa

Jos haluat tutustua tarkemmin hist()-funktion parametreihin, voit katsoa hist() dokumentaation.

Tehtävä

Swipe to start coding

Luo todennäköisyystiheysfunktion approksimaatio käyttämällä otosta standardin normaalijakauman mukaan:

  1. Käytä oikeaa funktiota histogrammin luomiseen.
  2. Käytä normal_sample histogrammin datana.
  3. Määritä binien määrä toisena argumenttina Sturgesin kaavan mukaisesti.
  4. Tee histogrammista todennäköisyystiheysfunktion approksimaatio määrittämällä oikeanpuoleisin argumentti oikein.

Ratkaisu

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 1
single

single

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how the `density=True` parameter changes the histogram?

What does the resulting histogram tell us about the Seattle temperature data?

How can I compare histograms for Boston and Seattle on the same plot?

close

bookHistogrammi

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Histogrammit kuvaavat muuttujan frekvenssi- tai todennäköisyysjakaumaa käyttämällä pystysuoria, yhtä leveitä pylväitä, joita kutsutaan usein palkkeiksi.

pyplot-moduuli tarjoaa hist-funktion histogrammien luomiseen. Pakollinen parametri on data (x), joka voi olla taulukko tai taulukoiden jono. Jos useita taulukoita annetaan, kukin näytetään eri värillä.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Väli ja Korkeus

Series-objekti, joka sisältää Seattlen vuosittaiset lämpötilat, välitettiin funktiolle hist(). Oletuksena data jaetaan 10 yhtä suureen väliin minimin ja maksimin välille. Vain 9 pylvästä näkyy, koska yksi väli ei sisällä arvoja.

Pylvään korkeus ilmaisee frekvenssin — kuinka monta havaintoa sijoittuu kuhunkin väliin.

Pylväiden määrä

Valinnainen bins-parametri voi olla kokonaisluku (pylväiden määrä), reuna-arvojen jono tai merkkijono. Yleensä pylväiden määrän määrittäminen riittää.

Yksi yleinen sääntö pylväiden määrän valintaan on Sturgesin kaava, joka perustuu otoskokoon:

bins = 1 + int(np.log2(n))

missä n on aineiston koko.

Note
Lisätietoa

Voit tutustua muihin pylväiden laskentamenetelmiin täällä.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

DataFrame-taulukossa on 26 riviä (Series-sarjan koko), joten lopullinen luokkien määrä on 5.

Todennäköisyystiheyden approksimaatio

Todennäköisyystiheyden approksimoimiseksi aseta density=True funktioon hist(). Tällöin jokaisen luokan korkeus on:

Korkeus=mnw\text{Korkeus} = \frac{m}{n \cdot w}

missä:

  • ( n ) — arvojen kokonaismäärä,
  • ( m ) — luokan havaintojen määrä,
  • ( w ) — luokan leveys.

Tämä tekee histogrammin kokonaispinta-alasta 1, mikä vastaa PDF:n käyttäytymistä.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Tämä tarjoaa lämpötiladatan todennäköisyystiheysfunktion approksimaation.

Note
Lisätietoa

Jos haluat tutustua tarkemmin hist()-funktion parametreihin, voit katsoa hist() dokumentaation.

Tehtävä

Swipe to start coding

Luo todennäköisyystiheysfunktion approksimaatio käyttämällä otosta standardin normaalijakauman mukaan:

  1. Käytä oikeaa funktiota histogrammin luomiseen.
  2. Käytä normal_sample histogrammin datana.
  3. Määritä binien määrä toisena argumenttina Sturgesin kaavan mukaisesti.
  4. Tee histogrammista todennäköisyystiheysfunktion approksimaatio määrittämällä oikeanpuoleisin argumentti oikein.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 1
single

single

some-alt