Istogramma

Definizione

Gli istogrammi rappresentano la frequenza o la distribuzione di probabilità di una variabile utilizzando intervalli verticali di uguale ampiezza, spesso denominati barre.

Il modulo pyplot fornisce la funzione hist per creare istogrammi. Il parametro richiesto è il dato (x), che può essere un array o una sequenza di array. Se vengono passati più array, ciascuno viene visualizzato con un colore diverso.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervalli e Altezza

Una Series delle temperature annuali di Seattle è stata passata a hist(). Per impostazione predefinita, i dati sono suddivisi in 10 intervalli uguali tra il minimo e il massimo. Appaiono solo 9 bin perché un intervallo non contiene valori.

L'altezza del bin mostra la frequenza — quanti punti dati ricadono in ciascun intervallo.

Numero di Bin

Il parametro opzionale bins può essere un intero (numero di bin), una sequenza di estremi o una stringa. Di solito, è sufficiente specificare il numero di bin.

Una regola comune per scegliere il numero di bin è la formula di Sturges, basata sulla dimensione del campione:

bins = 1 + int(np.log2(n))

dove n è la dimensione del dataset.

Approfondisci

Puoi esplorare metodi aggiuntivi per il calcolo dei bin qui.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

Il numero di righe nel DataFrame è 26 (la dimensione della Series), quindi il numero risultante di intervalli è 5.

Approssimazione della Densità di Probabilità

Per approssimare una densità di probabilità, impostare density=True in hist(). In questo modo, l'altezza di ciascun intervallo è:

\text{Altezza} = \frac{m}{n \cdot w}

dove:

( n ) — numero totale di valori,
( m ) — conteggio nell'intervallo,
( w ) — ampiezza dell'intervallo.

Questo fa sì che l'area totale dell'istogramma sia 1, corrispondente al comportamento di una PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Questa fornisce un'approssimazione della funzione di densità di probabilità per i dati di temperatura.

Approfondisci

Se desideri approfondire i parametri di hist(), puoi consultare la documentazione di hist().

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1

single

Scorri per mostrare il menu

Definizione

Gli istogrammi rappresentano la frequenza o la distribuzione di probabilità di una variabile utilizzando intervalli verticali di uguale ampiezza, spesso denominati barre.

Il modulo pyplot fornisce la funzione hist per creare istogrammi. Il parametro richiesto è il dato (x), che può essere un array o una sequenza di array. Se vengono passati più array, ciascuno viene visualizzato con un colore diverso.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt

# Loading the dataset with the average yearly temperatures in Boston and Seattle
url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Creating a histogram
plt.hist(weather_df['Seattle'])
plt.show()

Intervalli e Altezza

Una Series delle temperature annuali di Seattle è stata passata a hist(). Per impostazione predefinita, i dati sono suddivisi in 10 intervalli uguali tra il minimo e il massimo. Appaiono solo 9 bin perché un intervallo non contiene valori.

L'altezza del bin mostra la frequenza — quanti punti dati ricadono in ciascun intervallo.

Numero di Bin

Il parametro opzionale bins può essere un intero (numero di bin), una sequenza di estremi o una stringa. Di solito, è sufficiente specificare il numero di bin.

Una regola comune per scegliere il numero di bin è la formula di Sturges, basata sulla dimensione del campione:

bins = 1 + int(np.log2(n))

dove n è la dimensione del dataset.

Approfondisci

Puoi esplorare metodi aggiuntivi per il calcolo dei bin qui.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Specifying the number of bins
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))))
plt.show()

Il numero di righe nel DataFrame è 26 (la dimensione della Series), quindi il numero risultante di intervalli è 5.

Approssimazione della Densità di Probabilità

Per approssimare una densità di probabilità, impostare density=True in hist(). In questo modo, l'altezza di ciascun intervallo è:

\text{Altezza} = \frac{m}{n \cdot w}

dove:

( n ) — numero totale di valori,
( m ) — conteggio nell'intervallo,
( w ) — ampiezza dell'intervallo.

Questo fa sì che l'area totale dell'istogramma sia 1, corrispondente al comportamento di una PDF.


              12345678910
            
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv'
weather_df = pd.read_csv(url, index_col=0)

# Making a histogram a probability density function approximation
plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True)
plt.show()

Questa fornisce un'approssimazione della funzione di densità di probabilità per i dati di temperatura.

Approfondisci

Se desideri approfondire i parametri di hist(), puoi consultare la documentazione di hist().

Compito

Scorri per iniziare a programmare

Creare un'approssimazione di una funzione di densità di probabilità utilizzando un campione dalla distribuzione normale standard:

Utilizzare la funzione corretta per creare un istogramma.
Utilizzare normal_sample come dati per l'istogramma.
Specificare il numero di intervalli come secondo argomento utilizzando la formula di Sturges.
Rendere l'istogramma un'approssimazione di una funzione di densità di probabilità specificando correttamente l'argomento più a destra.

Soluzione

Cambia al desktop per esercitarti nel mondo realeContinua da dove ti trovi utilizzando una delle opzioni seguenti

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1

single

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione