Kursinhalt
Statistik Lernen mit Python
Statistik Lernen mit Python
Kovarianz
Kovarianz ist ein Maß für die gemeinsame Variabilität zweier Zufallsvariablen.
Die Formeln für die Stichproben- und Populationskovarianz unterscheiden sich, werden hier jedoch nicht im Detail behandelt. In diesem Kapitel liegt der Fokus auf den Kovarianzen des folgenden Datensatzes:
Store_ID
: the unique id of the store;Store_Area
: the area of the store;Items_Available
: the number of items that are available in the store;Daily_Customer_Count
: the daily number of customers in the store;Store_Sales
: the number of sales in the store.
Kovarianzberechnung mit Python
Zur Berechnung der Kovarianz in Python wird die Funktion np.cov()
aus der NumPy-Bibliothek verwendet. Sie benötigt zwei Parameter: die Datenreihen, für die die Kovarianz berechnet werden soll.
Das Ergebnis befindet sich an der Stelle [0,1]
. In diesem Kurs werden die anderen Werte der Ausgabe nicht behandelt, siehe folgendes Beispiel:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Dies zeigt an, dass sich die Werte in die gleiche Richtung bewegen. Das ist nachvollziehbar, da eine größere Verkaufsfläche mit einer höheren Anzahl an Artikeln einhergeht. Ein wesentlicher Nachteil der Kovarianz ist, dass der Wert unendlich groß werden kann.
Danke für Ihr Feedback!