Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Histogram | Mehr Statistische Diagramme
Ultimative Visualisierung mit Python
course content

Kursinhalt

Ultimative Visualisierung mit Python

Ultimative Visualisierung mit Python

1. Einführung in Matplotlib
2. Erstellen Häufig Verwendeter Diagramme
3. Anpassung von Plots
4. Mehr Statistische Diagramme
5. Visualisierung mit Seaborn

book
Histogram

Lassen Sie uns mit einem Histogramm beginnen. Histogramme werden verwendet, um die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer gegebenen Variablen (ungefähre Verteilung) mithilfe von vertikalen Bins gleicher Breite (oder wir können sie Balken nennen) darzustellen.

Das pyplot-Modul hat eine spezielle Funktion namens hist, um ein Histogramm zu erstellen. Der erste und einzige erforderliche Parameter sind unsere Daten (genannt x), die entweder ein Array oder eine Sequenz von Arrays sein können. Wenn eine Sequenz von Arrays übergeben wird, werden die Bins für jedes Array in verschiedenen Farben dargestellt. Hier ist ein einfaches Beispiel für Sie:

12345678
import pandas as pd import matplotlib.pyplot as plt url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yearly temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalle und Höhe

Wir haben ein Series-Objekt übergeben, das die durchschnittlichen Jahrestemperaturen in Seattle enthält, in der hist()-Funktion. Unser Sample wurde standardmäßig in 10 gleiche Intervalle unterteilt, beginnend vom Minimalwert bis zum Maximalwert. Es gibt jedoch nur 9 Bins, da es keine Werte gibt, die zum zweiten Intervall gehören.

Die Höhe jedes Bins entspricht standardmäßig der Häufigkeit der Werte in diesem Intervall (Anzahl der Vorkommen).

Anzahl der Bins

Ein weiterer wichtiger, aber optionaler Parameter ist bins, der entweder die Anzahl der Bins (Ganzzahl) oder eine Zahlenfolge angibt, die die Ränder der Bins spezifiziert, oder ein String. Meistens reicht es aus, die Anzahl der Bins anzugeben.

Es gibt mehrere Methoden zur Bestimmung der Breite der Bins (mehr dazu hier), aber hier werden wir die Sturges-Formel verwenden (in Python geschrieben): bins = 1+int(np.log2(n)), wobei n die Stichprobengröße (die Größe des Arrays) ist.

Lassen Sie uns das in Aktion sehen:

12345678
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Die Anzahl der Zeilen im DataFrame beträgt 26 (die Größe der Series), daher beträgt die resultierende Anzahl der Bins 5.

Wahrscheinlichkeitsdichte-Approximation

Das ist alles in Ordnung, aber was ist, wenn wir uns die Wahrscheinlichkeitsdichte-Approximation ansehen möchten? Alles, was wir tun müssen, ist, den Parameter density auf True zu setzen.

Jetzt wird die Höhe jedes Bins die Anzahl der Werte im Intervall geteilt durch das Produkt der Gesamtanzahl der Werte (die Größe der Stichprobe) und der Bin-Breite sein. Als Ergebnis wird die Summe der Flächen der Bins gleich 1 sein, was genau das ist, was wir von einer Wahrscheinlichkeitsdichtefunktion benötigen.

Lassen Sie uns nun unser Beispiel modifizieren:

12345678
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Jetzt haben wir eine Approximation der Wahrscheinlichkeitsdichtefunktion für unsere Temperaturdaten.

Wenn Sie mehr über die Parameter der hist()-Funktion erfahren möchten, können Sie deren Dokumentation konsultieren.

Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, eine Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung zu erstellen:

  1. Verwenden Sie die richtige Funktion, um ein Histogramm zu erstellen.
  2. Verwenden Sie normal_sample als Daten für das Histogramm.
  3. Geben Sie die Anzahl der Bins als zweites Argument mit der Sturges-Formel an.
  4. Machen Sie das Histogramm zu einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion, indem Sie das rechteste Argument korrekt angeben.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1
toggle bottom row

book
Histogram

Lassen Sie uns mit einem Histogramm beginnen. Histogramme werden verwendet, um die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer gegebenen Variablen (ungefähre Verteilung) mithilfe von vertikalen Bins gleicher Breite (oder wir können sie Balken nennen) darzustellen.

Das pyplot-Modul hat eine spezielle Funktion namens hist, um ein Histogramm zu erstellen. Der erste und einzige erforderliche Parameter sind unsere Daten (genannt x), die entweder ein Array oder eine Sequenz von Arrays sein können. Wenn eine Sequenz von Arrays übergeben wird, werden die Bins für jedes Array in verschiedenen Farben dargestellt. Hier ist ein einfaches Beispiel für Sie:

12345678
import pandas as pd import matplotlib.pyplot as plt url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yearly temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalle und Höhe

Wir haben ein Series-Objekt übergeben, das die durchschnittlichen Jahrestemperaturen in Seattle enthält, in der hist()-Funktion. Unser Sample wurde standardmäßig in 10 gleiche Intervalle unterteilt, beginnend vom Minimalwert bis zum Maximalwert. Es gibt jedoch nur 9 Bins, da es keine Werte gibt, die zum zweiten Intervall gehören.

Die Höhe jedes Bins entspricht standardmäßig der Häufigkeit der Werte in diesem Intervall (Anzahl der Vorkommen).

Anzahl der Bins

Ein weiterer wichtiger, aber optionaler Parameter ist bins, der entweder die Anzahl der Bins (Ganzzahl) oder eine Zahlenfolge angibt, die die Ränder der Bins spezifiziert, oder ein String. Meistens reicht es aus, die Anzahl der Bins anzugeben.

Es gibt mehrere Methoden zur Bestimmung der Breite der Bins (mehr dazu hier), aber hier werden wir die Sturges-Formel verwenden (in Python geschrieben): bins = 1+int(np.log2(n)), wobei n die Stichprobengröße (die Größe des Arrays) ist.

Lassen Sie uns das in Aktion sehen:

12345678
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Die Anzahl der Zeilen im DataFrame beträgt 26 (die Größe der Series), daher beträgt die resultierende Anzahl der Bins 5.

Wahrscheinlichkeitsdichte-Approximation

Das ist alles in Ordnung, aber was ist, wenn wir uns die Wahrscheinlichkeitsdichte-Approximation ansehen möchten? Alles, was wir tun müssen, ist, den Parameter density auf True zu setzen.

Jetzt wird die Höhe jedes Bins die Anzahl der Werte im Intervall geteilt durch das Produkt der Gesamtanzahl der Werte (die Größe der Stichprobe) und der Bin-Breite sein. Als Ergebnis wird die Summe der Flächen der Bins gleich 1 sein, was genau das ist, was wir von einer Wahrscheinlichkeitsdichtefunktion benötigen.

Lassen Sie uns nun unser Beispiel modifizieren:

12345678
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Jetzt haben wir eine Approximation der Wahrscheinlichkeitsdichtefunktion für unsere Temperaturdaten.

Wenn Sie mehr über die Parameter der hist()-Funktion erfahren möchten, können Sie deren Dokumentation konsultieren.

Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, eine Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung zu erstellen:

  1. Verwenden Sie die richtige Funktion, um ein Histogramm zu erstellen.
  2. Verwenden Sie normal_sample als Daten für das Histogramm.
  3. Geben Sie die Anzahl der Bins als zweites Argument mit der Sturges-Formel an.
  4. Machen Sie das Histogramm zu einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion, indem Sie das rechteste Argument korrekt angeben.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1
Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
We're sorry to hear that something went wrong. What happened?
some-alt