Jakaumien Visualisointi Histogrammien Avulla

Määritelmä

Histogrammit kuvaavat muuttujan frekvenssi- tai todennäköisyysjakaumaa käyttämällä yhtälevyisiä pystysuoria palkkeja, joita kutsutaan usein pylväiksi.

pyplot-moduuli tarjoaa hist-funktion histogrammien luomiseen. Pakollinen parametri on data (x), joka voi olla taulukko tai taulukoiden jono. Jos useita taulukoita annetaan, kukin näytetään eri värillä.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Väli ja Korkeus

Series Seattlein vuosittaisista lämpötiloista välitettiin hist()-funktiolle. Oletuksena data jaetaan 10 yhtä suureen väliin minimin ja maksimin välille. Vain 9 binia näkyy, koska yksi väli ei sisällä arvoja.

Binien korkeus ilmaisee frekvenssin — kuinka monta havaintoa kuuluu kuhunkin väliin.

Binien määrä

Valinnainen bins-parametri voi olla kokonaisluku (binien määrä), reuna-arvojen jono tai merkkijono. Yleensä binien määrän määrittäminen riittää.

Yksi yleinen sääntö binien määrän valintaan on Sturgesin kaava, joka perustuu otoskokoon:

bins = 1 + int(np.log2(n))

missä n on aineiston koko.

Lisätietoa

Voit tutustua muihin binien laskentamenetelmiin täällä.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

DataFrame-taulukossa on 26 riviä (Series-sarjan koko), joten lopullinen luokkien määrä on 5.

Todennäköisyystiheyden approksimaatio

Todennäköisyystiheyden approksimoimiseksi aseta density=True funktioon hist(). Tällöin jokaisen luokan korkeus on:

\text{Korkeus} = \frac{m}{n \cdot w}

missä:

$n$ — arvojen kokonaismäärä;
$m$ — luokan havaintojen määrä;
$w$ — luokan leveys.

Tämä tekee histogrammin kokonaispinta-alasta 1, mikä vastaa PDF-käyttäytymistä.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Tämä tarjoaa lämpötiladatan todennäköisyystiheysfunktion approksimaation.

Lisätietoa

Jos haluat tutustua tarkemmin hist()-funktion parametreihin, voit katsoa hist() dokumentaation.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 15

single

Pyyhkäise näyttääksesi valikon

Määritelmä

Histogrammit kuvaavat muuttujan frekvenssi- tai todennäköisyysjakaumaa käyttämällä yhtälevyisiä pystysuoria palkkeja, joita kutsutaan usein pylväiksi.

pyplot-moduuli tarjoaa hist-funktion histogrammien luomiseen. Pakollinen parametri on data (x), joka voi olla taulukko tai taulukoiden jono. Jos useita taulukoita annetaan, kukin näytetään eri värillä.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Väli ja Korkeus

Series Seattlein vuosittaisista lämpötiloista välitettiin hist()-funktiolle. Oletuksena data jaetaan 10 yhtä suureen väliin minimin ja maksimin välille. Vain 9 binia näkyy, koska yksi väli ei sisällä arvoja.

Binien korkeus ilmaisee frekvenssin — kuinka monta havaintoa kuuluu kuhunkin väliin.

Binien määrä

Valinnainen bins-parametri voi olla kokonaisluku (binien määrä), reuna-arvojen jono tai merkkijono. Yleensä binien määrän määrittäminen riittää.

Yksi yleinen sääntö binien määrän valintaan on Sturgesin kaava, joka perustuu otoskokoon:

bins = 1 + int(np.log2(n))

missä n on aineiston koko.

Lisätietoa

Voit tutustua muihin binien laskentamenetelmiin täällä.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

DataFrame-taulukossa on 26 riviä (Series-sarjan koko), joten lopullinen luokkien määrä on 5.

Todennäköisyystiheyden approksimaatio

Todennäköisyystiheyden approksimoimiseksi aseta density=True funktioon hist(). Tällöin jokaisen luokan korkeus on:

\text{Korkeus} = \frac{m}{n \cdot w}

missä:

$n$ — arvojen kokonaismäärä;
$m$ — luokan havaintojen määrä;
$w$ — luokan leveys.

Tämä tekee histogrammin kokonaispinta-alasta 1, mikä vastaa PDF-käyttäytymistä.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Tämä tarjoaa lämpötiladatan todennäköisyystiheysfunktion approksimaation.

Lisätietoa

Jos haluat tutustua tarkemmin hist()-funktion parametreihin, voit katsoa hist() dokumentaation.

Tehtävä

Pyyhkäise aloittaaksesi koodauksen

Luo approksimaatio todennäköisyystiheysfunktiosta käyttämällä otosta standardin normaalijakauman mukaan:

Käytä oikeaa funktiota histogrammin luomiseen.
Käytä normal_sample histogrammin datana.
Määritä binien määrä toisena argumenttina käyttäen Sturgesin kaavaa.
Tee histogrammista todennäköisyystiheysfunktion approksimaatio määrittämällä oikeanpuoleisin argumentti oikein.

Ratkaisu

Vaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 15

single

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme