Cursusinhoud
Statistiek Leren Met Python
Statistiek Leren Met Python
Covariantie
Covariantie is een maat voor de gezamenlijke variabiliteit van twee willekeurige variabelen.
De formules voor steekproef- en populatiecovariantie verschillen, maar worden hier niet in detail behandeld. Dit hoofdstuk richt zich op de covarianties van de volgende dataset:
Store_ID
: the unique id of the store;Store_Area
: the area of the store;Items_Available
: the number of items that are available in the store;Daily_Customer_Count
: the daily number of customers in the store;Store_Sales
: the number of sales in the store.
Covariantie berekenen met Python
Gebruik de functie np.cov()
uit de NumPy-bibliotheek om covariantie in Python te berekenen. Deze functie neemt twee parameters: de gegevensreeksen waarvoor je de covariantie wilt berekenen.
Het resultaat is de waarde op index [0,1]
. Deze cursus behandelt de andere waarden in de uitvoer niet, zie het voorbeeld:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Dit geeft aan dat de waarden in dezelfde richting bewegen. Dit is logisch, omdat een groter winkeloppervlak overeenkomt met een groter aantal artikelen. Een belangrijk nadeel van covariantie is dat de waarde oneindig kan zijn.
Bedankt voor je feedback!