Kurssisisältö
Tilastotieteen Opiskelu Pythonilla
Tilastotieteen Opiskelu Pythonilla
Kovarianssi
Kovarianssi on kahden satunnaismuuttujan yhteisvaihtelun mittari.
Otos- ja perusjoukon kovarianssin kaavat eroavat toisistaan, mutta niitä ei käsitellä tässä tarkemmin. Tässä luvussa keskitytään seuraavan tietoaineiston kovariansseihin:
Store_ID
: the unique id of the store;Store_Area
: the area of the store;Items_Available
: the number of items that are available in the store;Daily_Customer_Count
: the daily number of customers in the store;Store_Sales
: the number of sales in the store.
Kovarianssin laskeminen Pythonilla
Kovarianssin laskemiseen Pythonissa käytetään NumPy-kirjaston np.cov()
-funktiota. Se ottaa kaksi parametria: tietojonot, joiden välistä kovarianssia halutaan laskea.
Tulos löytyy indeksistä [0,1]
. Tämän kurssin puitteissa muita tuloksen arvoja ei käsitellä, katso esimerkki:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Tämä osoittaa, että arvot muuttuvat samaan suuntaan. Tämä on loogista, koska suurempi myymäläalue tarkoittaa suurempaa tavaramäärää. Yksi merkittävä kovarianssin haittapuoli on, että sen arvo voi olla ääretön.
Kiitos palautteestasi!