Kursinhalt
Ultimative Visualisierung mit Python
Ultimative Visualisierung mit Python
Histogram
Lassen Sie uns mit einem Histogramm beginnen. Histogramme werden verwendet, um die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer gegebenen Variablen (ungefähre Verteilung) mithilfe von vertikalen Bins gleicher Breite (oder wir können sie Balken nennen) darzustellen.
Das pyplot
-Modul hat eine spezielle Funktion namens hist
, um ein Histogramm zu erstellen. Der erste und einzige erforderliche Parameter sind unsere Daten (genannt x
), die entweder ein Array oder eine Sequenz von Arrays sein können. Wenn eine Sequenz von Arrays übergeben wird, werden die Bins für jedes Array in verschiedenen Farben dargestellt. Hier ist ein einfaches Beispiel für Sie:
import pandas as pd import matplotlib.pyplot as plt url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yearly temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalle und Höhe
Wir haben ein Series
-Objekt übergeben, das die durchschnittlichen Jahrestemperaturen in Seattle enthält, in der hist()
-Funktion. Unser Sample wurde standardmäßig in 10
gleiche Intervalle unterteilt, beginnend vom Minimalwert bis zum Maximalwert. Es gibt jedoch nur 9
Bins, da es keine Werte gibt, die zum zweiten Intervall gehören.
Die Höhe jedes Bins entspricht standardmäßig der Häufigkeit der Werte in diesem Intervall (Anzahl der Vorkommen).
Anzahl der Bins
Ein weiterer wichtiger, aber optionaler Parameter ist bins
, der entweder die Anzahl der Bins (Ganzzahl) oder eine Zahlenfolge angibt, die die Ränder der Bins spezifiziert, oder ein String. Meistens reicht es aus, die Anzahl der Bins anzugeben.
Es gibt mehrere Methoden zur Bestimmung der Breite der Bins (mehr dazu hier), aber hier werden wir die Sturges-Formel verwenden (in Python geschrieben): bins = 1+int(np.log2(n))
, wobei n die Stichprobengröße (die Größe des Arrays) ist.
Lassen Sie uns das in Aktion sehen:
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Die Anzahl der Zeilen im DataFrame
beträgt 26 (die Größe der Series
), daher beträgt die resultierende Anzahl der Bins 5.
Wahrscheinlichkeitsdichte-Approximation
Das ist alles in Ordnung, aber was ist, wenn wir uns die Wahrscheinlichkeitsdichte-Approximation ansehen möchten? Alles, was wir tun müssen, ist, den Parameter density
auf True
zu setzen.
Jetzt wird die Höhe jedes Bins die Anzahl der Werte im Intervall geteilt durch das Produkt der Gesamtanzahl der Werte (die Größe der Stichprobe) und der Bin-Breite sein. Als Ergebnis wird die Summe der Flächen der Bins gleich 1 sein, was genau das ist, was wir von einer Wahrscheinlichkeitsdichtefunktion benötigen.
Lassen Sie uns nun unser Beispiel modifizieren:
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Jetzt haben wir eine Approximation der Wahrscheinlichkeitsdichtefunktion für unsere Temperaturdaten.
Wenn Sie mehr über die Parameter der hist()
-Funktion erfahren möchten, können Sie deren Dokumentation konsultieren.
Swipe to start coding
Ihre Aufgabe besteht darin, eine Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung zu erstellen:
- Verwenden Sie die richtige Funktion, um ein Histogramm zu erstellen.
- Verwenden Sie
normal_sample
als Daten für das Histogramm. - Geben Sie die Anzahl der Bins als zweites Argument mit der Sturges-Formel an.
- Machen Sie das Histogramm zu einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion, indem Sie das rechteste Argument korrekt angeben.
Lösung
Danke für Ihr Feedback!
Histogram
Lassen Sie uns mit einem Histogramm beginnen. Histogramme werden verwendet, um die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer gegebenen Variablen (ungefähre Verteilung) mithilfe von vertikalen Bins gleicher Breite (oder wir können sie Balken nennen) darzustellen.
Das pyplot
-Modul hat eine spezielle Funktion namens hist
, um ein Histogramm zu erstellen. Der erste und einzige erforderliche Parameter sind unsere Daten (genannt x
), die entweder ein Array oder eine Sequenz von Arrays sein können. Wenn eine Sequenz von Arrays übergeben wird, werden die Bins für jedes Array in verschiedenen Farben dargestellt. Hier ist ein einfaches Beispiel für Sie:
import pandas as pd import matplotlib.pyplot as plt url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yearly temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalle und Höhe
Wir haben ein Series
-Objekt übergeben, das die durchschnittlichen Jahrestemperaturen in Seattle enthält, in der hist()
-Funktion. Unser Sample wurde standardmäßig in 10
gleiche Intervalle unterteilt, beginnend vom Minimalwert bis zum Maximalwert. Es gibt jedoch nur 9
Bins, da es keine Werte gibt, die zum zweiten Intervall gehören.
Die Höhe jedes Bins entspricht standardmäßig der Häufigkeit der Werte in diesem Intervall (Anzahl der Vorkommen).
Anzahl der Bins
Ein weiterer wichtiger, aber optionaler Parameter ist bins
, der entweder die Anzahl der Bins (Ganzzahl) oder eine Zahlenfolge angibt, die die Ränder der Bins spezifiziert, oder ein String. Meistens reicht es aus, die Anzahl der Bins anzugeben.
Es gibt mehrere Methoden zur Bestimmung der Breite der Bins (mehr dazu hier), aber hier werden wir die Sturges-Formel verwenden (in Python geschrieben): bins = 1+int(np.log2(n))
, wobei n die Stichprobengröße (die Größe des Arrays) ist.
Lassen Sie uns das in Aktion sehen:
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Die Anzahl der Zeilen im DataFrame
beträgt 26 (die Größe der Series
), daher beträgt die resultierende Anzahl der Bins 5.
Wahrscheinlichkeitsdichte-Approximation
Das ist alles in Ordnung, aber was ist, wenn wir uns die Wahrscheinlichkeitsdichte-Approximation ansehen möchten? Alles, was wir tun müssen, ist, den Parameter density
auf True
zu setzen.
Jetzt wird die Höhe jedes Bins die Anzahl der Werte im Intervall geteilt durch das Produkt der Gesamtanzahl der Werte (die Größe der Stichprobe) und der Bin-Breite sein. Als Ergebnis wird die Summe der Flächen der Bins gleich 1 sein, was genau das ist, was wir von einer Wahrscheinlichkeitsdichtefunktion benötigen.
Lassen Sie uns nun unser Beispiel modifizieren:
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Jetzt haben wir eine Approximation der Wahrscheinlichkeitsdichtefunktion für unsere Temperaturdaten.
Wenn Sie mehr über die Parameter der hist()
-Funktion erfahren möchten, können Sie deren Dokumentation konsultieren.
Swipe to start coding
Ihre Aufgabe besteht darin, eine Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung zu erstellen:
- Verwenden Sie die richtige Funktion, um ein Histogramm zu erstellen.
- Verwenden Sie
normal_sample
als Daten für das Histogramm. - Geben Sie die Anzahl der Bins als zweites Argument mit der Sturges-Formel an.
- Machen Sie das Histogramm zu einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion, indem Sie das rechteste Argument korrekt angeben.
Lösung
Danke für Ihr Feedback!