Kursinnehåll
Lära Sig Statistik med Python
Lära Sig Statistik med Python
Kovarians
Kovarians är ett mått på den gemensamma variabiliteten mellan två stokastiska variabler.
Formlerna för stickprovs- och populationskovarians skiljer sig åt, men kommer inte att behandlas i detalj här. Detta kapitel fokuserar på kovariansen för följande dataset:
Store_ID
: the unique id of the store;Store_Area
: the area of the store;Items_Available
: the number of items that are available in the store;Daily_Customer_Count
: the daily number of customers in the store;Store_Sales
: the number of sales in the store.
Beräkning av kovarians med Python
För att beräkna kovarians i Python, använd funktionen np.cov()
från NumPy-biblioteket. Den tar två parametrar: dataserierna för vilka du vill beräkna kovariansen.
Resultatet finns på index [0,1]
. Den här kursen behandlar inte de andra värdena i utmatningen, se exemplet:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Detta indikerar att värdena rör sig i samma riktning. Det är logiskt eftersom en större butiksyta motsvarar ett större antal varor. En betydande nackdel med kovarians är att värdet kan vara oändligt.
Tack för dina kommentarer!