Histogramm
Histogramme stellen die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer Variablen durch vertikale Bins gleicher Breite dar, die oft als Balken bezeichnet werden.
Das Modul pyplot stellt die Funktion hist zur Verfügung, um Histogramme zu erstellen. Der erforderliche Parameter sind die Daten (x), die ein Array oder eine Sequenz von Arrays sein können. Wenn mehrere Arrays übergeben werden, wird jedes in einer anderen Farbe dargestellt.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalle und Höhe
Eine Series mit jährlichen Temperaturen aus Seattle wurde an hist() übergeben. Standardmäßig werden die Daten in 10 gleiche Intervalle zwischen Minimum und Maximum aufgeteilt. Es erscheinen nur 9 Bins, da ein Intervall keine Werte enthält.
Die Höhe eines Bins zeigt die Häufigkeit — wie viele Datenpunkte in jedes Intervall fallen.
Anzahl der Bins
Der optionale Parameter bins kann eine Ganzzahl (Anzahl der Bins), eine Sequenz von Kanten oder ein String sein. In der Regel reicht es aus, die Anzahl der Bins anzugeben.
Eine gängige Regel zur Wahl der Bin-Anzahl ist die Sturges-Formel, basierend auf der Stichprobengröße:
bins = 1 + int(np.log2(n))
wobei n die Größe des Datensatzes ist.
Weitere Methoden zur Bin-Berechnung können hier erkundet werden.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Die Anzahl der Zeilen im DataFrame beträgt 26 (die Größe der Series), daher ergibt sich eine Anzahl von 5 Bins.
Näherung der Wahrscheinlichkeitsdichte
Um eine Wahrscheinlichkeitsdichte zu approximieren, density=True in hist() setzen.
Dann ergibt sich für die Höhe jedes Bins:
wobei:
- ( n ) — Gesamtanzahl der Werte,
- ( m ) — Anzahl im Bin,
- ( w ) — Bin-Breite.
Dadurch ergibt sich eine Gesamtfläche des Histogramms von 1, was dem Verhalten einer PDF entspricht.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Dies liefert eine Annäherung an die Wahrscheinlichkeitsdichtefunktion für die Temperaturdaten.
Wenn Sie mehr über die Parameter von hist() erfahren möchten, können Sie die hist() Dokumentation konsultieren.
Swipe to start coding
Erstellung einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung:
- Verwendung der korrekten Funktion zur Erstellung eines Histogramms.
- Nutzung von
normal_sampleals Datenbasis für das Histogramm. - Angabe der Anzahl der Bins als zweites Argument unter Verwendung der Sturges-Formel.
- Das Histogramm als Annäherung an eine Wahrscheinlichkeitsdichtefunktion gestalten, indem das rechte Argument korrekt angegeben wird.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.85
Histogramm
Swipe um das Menü anzuzeigen
Histogramme stellen die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer Variablen durch vertikale Bins gleicher Breite dar, die oft als Balken bezeichnet werden.
Das Modul pyplot stellt die Funktion hist zur Verfügung, um Histogramme zu erstellen. Der erforderliche Parameter sind die Daten (x), die ein Array oder eine Sequenz von Arrays sein können. Wenn mehrere Arrays übergeben werden, wird jedes in einer anderen Farbe dargestellt.
12345678910import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
Intervalle und Höhe
Eine Series mit jährlichen Temperaturen aus Seattle wurde an hist() übergeben. Standardmäßig werden die Daten in 10 gleiche Intervalle zwischen Minimum und Maximum aufgeteilt. Es erscheinen nur 9 Bins, da ein Intervall keine Werte enthält.
Die Höhe eines Bins zeigt die Häufigkeit — wie viele Datenpunkte in jedes Intervall fallen.
Anzahl der Bins
Der optionale Parameter bins kann eine Ganzzahl (Anzahl der Bins), eine Sequenz von Kanten oder ein String sein. In der Regel reicht es aus, die Anzahl der Bins anzugeben.
Eine gängige Regel zur Wahl der Bin-Anzahl ist die Sturges-Formel, basierend auf der Stichprobengröße:
bins = 1 + int(np.log2(n))
wobei n die Größe des Datensatzes ist.
Weitere Methoden zur Bin-Berechnung können hier erkundet werden.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
Die Anzahl der Zeilen im DataFrame beträgt 26 (die Größe der Series), daher ergibt sich eine Anzahl von 5 Bins.
Näherung der Wahrscheinlichkeitsdichte
Um eine Wahrscheinlichkeitsdichte zu approximieren, density=True in hist() setzen.
Dann ergibt sich für die Höhe jedes Bins:
wobei:
- ( n ) — Gesamtanzahl der Werte,
- ( m ) — Anzahl im Bin,
- ( w ) — Bin-Breite.
Dadurch ergibt sich eine Gesamtfläche des Histogramms von 1, was dem Verhalten einer PDF entspricht.
12345678910import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
Dies liefert eine Annäherung an die Wahrscheinlichkeitsdichtefunktion für die Temperaturdaten.
Wenn Sie mehr über die Parameter von hist() erfahren möchten, können Sie die hist() Dokumentation konsultieren.
Swipe to start coding
Erstellung einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung:
- Verwendung der korrekten Funktion zur Erstellung eines Histogramms.
- Nutzung von
normal_sampleals Datenbasis für das Histogramm. - Angabe der Anzahl der Bins als zweites Argument unter Verwendung der Sturges-Formel.
- Das Histogramm als Annäherung an eine Wahrscheinlichkeitsdichtefunktion gestalten, indem das rechte Argument korrekt angegeben wird.
Lösung
Danke für Ihr Feedback!
single