Covariance
Covariance est une mesure de la variabilité conjointe de deux variables aléatoires.
La valeur de la covariance | Signification |
---|---|
Positive | Deux variables évoluent dans la même direction |
0 | Deux variables sans relation linéaire |
Négative | Deux variables évoluent dans des directions opposées |
Les formules sont différentes pour l'échantillon et la population, mais nous n'approfondirons pas ce sujet. Dans ce chapitre, nous discuterons des covariances du jeu de données suivant :
Store_ID | Store_Area | Items_Available | Daily_Customer_Count | Store_Sales | |
---|---|---|---|---|---|
0 | 0 | 1659 | 1961 | 530 | 66490 |
1 | 1 | 1461 | 1752 | 210 | 39820 |
2 | 2 | 1340 | 1609 | 720 | 54010 |
3 | 3 | 1451 | 1748 | 620 | 53730 |
4 | 4 | 1770 | 2111 | 450 | 46620 |
Store_ID
- L'identifiant unique du magasin ;Store_Area
- La superficie du magasin ;Items_Available
- Le nombre d'articles disponibles dans le magasin ;Daily_Customer_Count
- Le nombre quotidien de clients dans le magasin ;Store_Sales
- Le nombre de ventes dans le magasin.
Calcul de la Covariance avec Python :
Pour calculer la covariance en Python, vous pouvez utiliser la fonction np.cov()
de la bibliothèque NumPy. Elle nécessite deux paramètres : les séquences de données pour lesquelles vous souhaitez calculer la covariance.
Le résultat est la valeur à l'index [0,1]. Ce cours ne couvrira pas les autres valeurs de la sortie, référez-vous à l'exemple :
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Cela indique que les valeurs évoluent dans la même direction. Cela a du sens car une plus grande superficie de magasin correspond à un plus grand nombre d'articles. Un inconvénient majeur de la covariance est que la valeur peut être infinie.
Merci pour vos commentaires !