Istogramma
Gli istogrammi rappresentano la frequenza o la distribuzione di probabilità di una variabile utilizzando intervalli verticali di uguale ampiezza, spesso denominati barre.
Il modulo pyplot fornisce la funzione hist per creare istogrammi. Il parametro richiesto è il dato (x), che può essere un array o una sequenza di array. Se vengono passati più array, ciascuno viene visualizzato con un colore diverso.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalli e Altezza
Una Series delle temperature annuali di Seattle è stata passata a hist(). Per impostazione predefinita, i dati sono suddivisi in 10 intervalli uguali tra il minimo e il massimo. Appaiono solo 9 bin perché un intervallo non contiene valori.
L'altezza del bin mostra la frequenza — quanti punti dati ricadono in ciascun intervallo.
Numero di Bin
Il parametro opzionale bins può essere un intero (numero di bin), una sequenza di estremi o una stringa. Di solito, è sufficiente specificare il numero di bin.
Una regola comune per scegliere il numero di bin è la formula di Sturges, basata sulla dimensione del campione:
bins = 1 + int(np.log2(n))
dove n è la dimensione del dataset.
Puoi esplorare metodi aggiuntivi per il calcolo dei bin qui.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Il numero di righe nel DataFrame è 26 (la dimensione della Series), quindi il numero risultante di intervalli è 5.
Approssimazione della Densità di Probabilità
Per approssimare una densità di probabilità, impostare density=True in hist().
In questo modo, l'altezza di ciascun intervallo è:
dove:
- ( n ) — numero totale di valori,
- ( m ) — conteggio nell'intervallo,
- ( w ) — ampiezza dell'intervallo.
Questo fa sì che l'area totale dell'istogramma sia 1, corrispondente al comportamento di una PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Questa fornisce un'approssimazione della funzione di densità di probabilità per i dati di temperatura.
Se desideri approfondire i parametri di hist(), puoi consultare la documentazione di hist().
Swipe to start coding
Creare un'approssimazione di una funzione di densità di probabilità utilizzando un campione dalla distribuzione normale standard:
- Utilizzare la funzione corretta per creare un istogramma.
- Utilizzare
normal_samplecome dati per l'istogramma. - Specificare il numero di intervalli come secondo argomento utilizzando la formula di Sturges.
- Rendere l'istogramma un'approssimazione di una funzione di densità di probabilità specificando correttamente l'argomento più a destra.
Soluzione
Grazie per i tuoi commenti!
single
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain how the `density=True` parameter changes the histogram?
What does the resulting histogram tell us about the Seattle temperature data?
How can I compare histograms for Boston and Seattle on the same plot?
Awesome!
Completion rate improved to 3.85
Istogramma
Scorri per mostrare il menu
Gli istogrammi rappresentano la frequenza o la distribuzione di probabilità di una variabile utilizzando intervalli verticali di uguale ampiezza, spesso denominati barre.
Il modulo pyplot fornisce la funzione hist per creare istogrammi. Il parametro richiesto è il dato (x), che può essere un array o una sequenza di array. Se vengono passati più array, ciascuno viene visualizzato con un colore diverso.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalli e Altezza
Una Series delle temperature annuali di Seattle è stata passata a hist(). Per impostazione predefinita, i dati sono suddivisi in 10 intervalli uguali tra il minimo e il massimo. Appaiono solo 9 bin perché un intervallo non contiene valori.
L'altezza del bin mostra la frequenza — quanti punti dati ricadono in ciascun intervallo.
Numero di Bin
Il parametro opzionale bins può essere un intero (numero di bin), una sequenza di estremi o una stringa. Di solito, è sufficiente specificare il numero di bin.
Una regola comune per scegliere il numero di bin è la formula di Sturges, basata sulla dimensione del campione:
bins = 1 + int(np.log2(n))
dove n è la dimensione del dataset.
Puoi esplorare metodi aggiuntivi per il calcolo dei bin qui.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Il numero di righe nel DataFrame è 26 (la dimensione della Series), quindi il numero risultante di intervalli è 5.
Approssimazione della Densità di Probabilità
Per approssimare una densità di probabilità, impostare density=True in hist().
In questo modo, l'altezza di ciascun intervallo è:
dove:
- ( n ) — numero totale di valori,
- ( m ) — conteggio nell'intervallo,
- ( w ) — ampiezza dell'intervallo.
Questo fa sì che l'area totale dell'istogramma sia 1, corrispondente al comportamento di una PDF.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Questa fornisce un'approssimazione della funzione di densità di probabilità per i dati di temperatura.
Se desideri approfondire i parametri di hist(), puoi consultare la documentazione di hist().
Swipe to start coding
Creare un'approssimazione di una funzione di densità di probabilità utilizzando un campione dalla distribuzione normale standard:
- Utilizzare la funzione corretta per creare un istogramma.
- Utilizzare
normal_samplecome dati per l'istogramma. - Specificare il numero di intervalli come secondo argomento utilizzando la formula di Sturges.
- Rendere l'istogramma un'approssimazione di una funzione di densità di probabilità specificando correttamente l'argomento più a destra.
Soluzione
Grazie per i tuoi commenti!
single