Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Visualisierung von Verteilungen mit Histogrammen | Abschnitt
Practice
Projects
Quizzes & Challenges
Quizze
Challenges
/
Datenvisualisierung mit Matplotlib

bookVisualisierung von Verteilungen mit Histogrammen

Note
Definition

Histogramme stellen die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer Variablen durch vertikale Balken gleicher Breite dar, die oft als Balken bezeichnet werden.

Das Modul pyplot stellt die Funktion hist zur Erstellung von Histogrammen bereit. Der erforderliche Parameter sind die Daten (x), die ein Array oder eine Sequenz von Arrays sein können. Wenn mehrere Arrays übergeben werden, wird jedes in einer anderen Farbe dargestellt.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalle und Höhe

Eine Series mit jährlichen Temperaturen aus Seattle wurde an hist() übergeben. Standardmäßig wird die Datenreihe in 10 gleich große Intervalle zwischen Minimum und Maximum aufgeteilt. Es erscheinen nur 9 Bins, da ein Intervall keine Werte enthält.

Die Höhe eines Bins zeigt die Häufigkeit an – also wie viele Datenpunkte in jedes Intervall fallen.

Anzahl der Bins

Der optionale Parameter bins kann eine Ganzzahl (Anzahl der Bins), eine Sequenz von Kanten oder ein String sein. In der Regel reicht es aus, die Anzahl der Bins anzugeben.

Eine gängige Regel zur Bestimmung der Bin-Anzahl ist die Sturges-Formel, die auf der Stichprobengröße basiert:

bins = 1 + int(np.log2(n))

wobei n die Größe des Datensatzes ist.

Note
Mehr erfahren

Sie können weitere Methoden zur Bin-Berechnung hier erkunden.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Die Anzahl der Zeilen im DataFrame beträgt 26 (die Größe der Series), daher ergibt sich eine Anzahl von 5 Bins.

Näherung der Wahrscheinlichkeitsdichte

Um eine Wahrscheinlichkeitsdichte zu approximieren, density=True in hist() setzen. Dann ergibt sich für jede Bin-Höhe:

Ho¨he=mnw\text{Höhe} = \frac{m}{n \cdot w}

wobei:

  • nn — Gesamtanzahl der Werte;
  • mm — Anzahl in der Bin;
  • ww — Bin-Breite.

Dadurch entspricht die Gesamtfläche des Histogramms 1 und stimmt mit dem Verhalten einer PDF überein.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Dies liefert eine Annäherung an die Wahrscheinlichkeitsdichtefunktion für die Temperaturdaten.

Note
Mehr erfahren

Wenn Sie mehr über die Parameter von hist() erfahren möchten, können Sie die hist() Dokumentation konsultieren.

Aufgabe

Swipe to start coding

Erstellung einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung:

  1. Verwendung der korrekten Funktion zur Erstellung eines Histogramms.
  2. Nutzung von normal_sample als Datenbasis für das Histogramm.
  3. Angabe der Anzahl der Bins als zweites Argument unter Verwendung der Sturges-Formel.
  4. Umwandlung des Histogramms in eine Annäherung an eine Wahrscheinlichkeitsdichtefunktion durch korrekte Spezifikation des letzten Arguments.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 15
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

close

bookVisualisierung von Verteilungen mit Histogrammen

Swipe um das Menü anzuzeigen

Note
Definition

Histogramme stellen die Häufigkeits- oder Wahrscheinlichkeitsverteilung einer Variablen durch vertikale Balken gleicher Breite dar, die oft als Balken bezeichnet werden.

Das Modul pyplot stellt die Funktion hist zur Erstellung von Histogrammen bereit. Der erforderliche Parameter sind die Daten (x), die ein Array oder eine Sequenz von Arrays sein können. Wenn mehrere Arrays übergeben werden, wird jedes in einer anderen Farbe dargestellt.

12345678910
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a histogram plt.hist(weather_df['Seattle']) plt.show()
copy

Intervalle und Höhe

Eine Series mit jährlichen Temperaturen aus Seattle wurde an hist() übergeben. Standardmäßig wird die Datenreihe in 10 gleich große Intervalle zwischen Minimum und Maximum aufgeteilt. Es erscheinen nur 9 Bins, da ein Intervall keine Werte enthält.

Die Höhe eines Bins zeigt die Häufigkeit an – also wie viele Datenpunkte in jedes Intervall fallen.

Anzahl der Bins

Der optionale Parameter bins kann eine Ganzzahl (Anzahl der Bins), eine Sequenz von Kanten oder ein String sein. In der Regel reicht es aus, die Anzahl der Bins anzugeben.

Eine gängige Regel zur Bestimmung der Bin-Anzahl ist die Sturges-Formel, die auf der Stichprobengröße basiert:

bins = 1 + int(np.log2(n))

wobei n die Größe des Datensatzes ist.

Note
Mehr erfahren

Sie können weitere Methoden zur Bin-Berechnung hier erkunden.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Specifying the number of bins plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df)))) plt.show()
copy

Die Anzahl der Zeilen im DataFrame beträgt 26 (die Größe der Series), daher ergibt sich eine Anzahl von 5 Bins.

Näherung der Wahrscheinlichkeitsdichte

Um eine Wahrscheinlichkeitsdichte zu approximieren, density=True in hist() setzen. Dann ergibt sich für jede Bin-Höhe:

Ho¨he=mnw\text{Höhe} = \frac{m}{n \cdot w}

wobei:

  • nn — Gesamtanzahl der Werte;
  • mm — Anzahl in der Bin;
  • ww — Bin-Breite.

Dadurch entspricht die Gesamtfläche des Histogramms 1 und stimmt mit dem Verhalten einer PDF überein.

12345678910
import pandas as pd import matplotlib.pyplot as plt import numpy as np url = 'https://content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Making a histogram a probability density function approximation plt.hist(weather_df['Seattle'], bins=1 + int(np.log2(len(weather_df))), density=True) plt.show()
copy

Dies liefert eine Annäherung an die Wahrscheinlichkeitsdichtefunktion für die Temperaturdaten.

Note
Mehr erfahren

Wenn Sie mehr über die Parameter von hist() erfahren möchten, können Sie die hist() Dokumentation konsultieren.

Aufgabe

Swipe to start coding

Erstellung einer Annäherung an eine Wahrscheinlichkeitsdichtefunktion mithilfe einer Stichprobe aus der Standardnormalverteilung:

  1. Verwendung der korrekten Funktion zur Erstellung eines Histogramms.
  2. Nutzung von normal_sample als Datenbasis für das Histogramm.
  3. Angabe der Anzahl der Bins als zweites Argument unter Verwendung der Sturges-Formel.
  4. Umwandlung des Histogramms in eine Annäherung an eine Wahrscheinlichkeitsdichtefunktion durch korrekte Spezifikation des letzten Arguments.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 15
single

single

some-alt