Kursinnhold
Lære Statistikk med Python
Lære Statistikk med Python
Kovarians
Kovarians er et mål på den felles variasjonen mellom to tilfeldige variabler.
Formlene for utvalgskovarians og populasjonskovarians er forskjellige, men vil ikke bli gjennomgått i detalj her. Dette kapittelet fokuserer på kovariansene i følgende datasett:
Store_ID
: the unique id of the store;Store_Area
: the area of the store;Items_Available
: the number of items that are available in the store;Daily_Customer_Count
: the daily number of customers in the store;Store_Sales
: the number of sales in the store.
Beregning av kovarians med Python
For å beregne kovarians i Python, bruk funksjonen np.cov()
fra NumPy-biblioteket. Den tar to parametere: dataseriene du ønsker å beregne kovariansen for.
Resultatet finnes på indeks [0,1]
. Dette kurset dekker ikke de andre verdiene i utdataene, se eksempelet:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Dette indikerer at verdiene beveger seg i samme retning. Dette er logisk fordi et større butikkområde tilsvarer et større antall varer. En betydelig ulempe med kovarians er at verdien kan være uendelig.
Takk for tilbakemeldingene dine!