Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Histogrammi | Lisää Tilastollisia Kuvioita
Ultimate Visualization with Python

bookHistogrammi

Note
Määritelmä

Histogrammit kuvaavat muuttujan frekvenssi- tai todennäköisyysjakaumaa käyttämällä yhtälevyisiä pystysuoria pylväitä, joita usein kutsutaan palkkeiksi.

pyplot-moduuli tarjoaa hist-funktion histogrammien luomiseen. Pakollinen parametri on data (x), joka voi olla taulukko tai taulukoiden jono. Jos useita taulukoita annetaan, kukin näytetään eri värillä.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Väliarvot ja korkeus

Series-olio, joka sisältää Seattlen keskimääräiset vuotuiset lämpötilat, välitettiin hist()-funktiolle. Oletuksena data jaetaan 10 yhtä suureen väliin, jotka ulottuvat pienimmästä suurimpaan arvoon. Kuitenkin vain 9 pylvästä näkyy, koska toisessa väliarvossa ei ole yhtään havaintoa.

Jokaisen pylvään korkeus vastaa oletuksena tämän välin frekvenssiä (arvojen esiintymiskertojen määrä).

Pylväiden määrä

Toinen tärkeä, mutta valinnainen parametri on bins, joka voi olla joko pylväiden määrä (kokonaisluku), pylväiden reunat määrittelevä lukujono tai merkkijono. Useimmiten pylväiden määrän antaminen riittää.

Histogrammin pylväiden leveyden määrittämiseen on useita menetelmiä. Tässä esimerkissä käytetään Sturgesin kaavaa, joka laskee optimaalisen pylväsmäärän otoskoon perusteella:

Tässä n on data-taulukon koko.

Note
Lisätietoa

Voit tutustua lisämenetelmiin luokkien määrän laskemiseen täällä.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

The number of rows in the DataFrame is 26 (the size of the Series), so the resulting number of bins is 5.

Todennäköisyystiheyden approksimaatio

Voit tarkastella todennäköisyystiheyden approksimaatiota asettamalla density-parametrin arvoksi True hist-funktiossa.

Tällöin jokaisen pylvään korkeus lasketaan kaavalla:

Korkeus=mn×w\text{Korkeus} = \frac{m}{n \times w}

missä:

  • nn – arvojen kokonaismäärä aineistossa;
  • mm – arvojen määrä pylväässä;
  • ww – pylvään leveys.

Tämä varmistaa, että histogrammin kokonaispinta-ala on 1, mikä vastaa todennäköisyystiheysfunktion (PDF) keskeistä ominaisuutta.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Tämä antaa lämpötiladatan todennäköisyystiheysfunktion approksimaation.

Note
Lisätietoa

Jos haluat tutustua tarkemmin hist()-funktion parametreihin, voit katsoa lisätietoja hist()-dokumentaatiosta.

Tehtävä

Swipe to start coding

Luo approksimaatio todennäköisyystiheysfunktiosta käyttämällä otosta standardin normaalijakauman mukaan:

  1. Käytä oikeaa funktiota histogrammin luomiseen.
  2. Käytä normal_sample histogrammin datana.
  3. Määritä binien määrä toisena argumenttina Sturgesin kaavan mukaisesti.
  4. Tee histogrammista todennäköisyystiheysfunktion approksimaatio määrittämällä oikeanpuoleisin argumentti oikein.

Ratkaisu

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 1
single

single

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

close

Awesome!

Completion rate improved to 3.85

bookHistogrammi

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Histogrammit kuvaavat muuttujan frekvenssi- tai todennäköisyysjakaumaa käyttämällä yhtälevyisiä pystysuoria pylväitä, joita usein kutsutaan palkkeiksi.

pyplot-moduuli tarjoaa hist-funktion histogrammien luomiseen. Pakollinen parametri on data (x), joka voi olla taulukko tai taulukoiden jono. Jos useita taulukoita annetaan, kukin näytetään eri värillä.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Väliarvot ja korkeus

Series-olio, joka sisältää Seattlen keskimääräiset vuotuiset lämpötilat, välitettiin hist()-funktiolle. Oletuksena data jaetaan 10 yhtä suureen väliin, jotka ulottuvat pienimmästä suurimpaan arvoon. Kuitenkin vain 9 pylvästä näkyy, koska toisessa väliarvossa ei ole yhtään havaintoa.

Jokaisen pylvään korkeus vastaa oletuksena tämän välin frekvenssiä (arvojen esiintymiskertojen määrä).

Pylväiden määrä

Toinen tärkeä, mutta valinnainen parametri on bins, joka voi olla joko pylväiden määrä (kokonaisluku), pylväiden reunat määrittelevä lukujono tai merkkijono. Useimmiten pylväiden määrän antaminen riittää.

Histogrammin pylväiden leveyden määrittämiseen on useita menetelmiä. Tässä esimerkissä käytetään Sturgesin kaavaa, joka laskee optimaalisen pylväsmäärän otoskoon perusteella:

Tässä n on data-taulukon koko.

Note
Lisätietoa

Voit tutustua lisämenetelmiin luokkien määrän laskemiseen täällä.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

The number of rows in the DataFrame is 26 (the size of the Series), so the resulting number of bins is 5.

Todennäköisyystiheyden approksimaatio

Voit tarkastella todennäköisyystiheyden approksimaatiota asettamalla density-parametrin arvoksi True hist-funktiossa.

Tällöin jokaisen pylvään korkeus lasketaan kaavalla:

Korkeus=mn×w\text{Korkeus} = \frac{m}{n \times w}

missä:

  • nn – arvojen kokonaismäärä aineistossa;
  • mm – arvojen määrä pylväässä;
  • ww – pylvään leveys.

Tämä varmistaa, että histogrammin kokonaispinta-ala on 1, mikä vastaa todennäköisyystiheysfunktion (PDF) keskeistä ominaisuutta.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Tämä antaa lämpötiladatan todennäköisyystiheysfunktion approksimaation.

Note
Lisätietoa

Jos haluat tutustua tarkemmin hist()-funktion parametreihin, voit katsoa lisätietoja hist()-dokumentaatiosta.

Tehtävä

Swipe to start coding

Luo approksimaatio todennäköisyystiheysfunktiosta käyttämällä otosta standardin normaalijakauman mukaan:

  1. Käytä oikeaa funktiota histogrammin luomiseen.
  2. Käytä normal_sample histogrammin datana.
  3. Määritä binien määrä toisena argumenttina Sturgesin kaavan mukaisesti.
  4. Tee histogrammista todennäköisyystiheysfunktion approksimaatio määrittämällä oikeanpuoleisin argumentti oikein.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 1
single

single

some-alt