Summary  
This chapter shows how to compute covariance between two numeric sequences in Python using NumPy’s np.cov() function, extract the covariance value, and printing the rounded result to assess the direction of their linear relationship.

General domain of usage  
Data analysis

**Covariance** est une mesure de la variabilité conjointe de deux variables aléatoires.

Définition

Les formules de la **covariance d'échantillon** et de la **covariance de population** diffèrent, mais elles ne seront pas détaillées ici. Ce chapitre se concentre sur le calcul de la covariance pour l'ensemble de données suivant :


- `Store_ID` : the unique id of the store;
- `Store_Area` : the area of the store;
- `Items_Available` : the number of items that are available in the store;
- `Daily_Customer_Count` : the daily number of customers in the store;
- `Store_Sales` : the number of sales in the store.

## Calcul du coefficient de covariance avec Python

Pour calculer la covariance en Python, utilisez la fonction `np.cov()` de la bibliothèque **NumPy**. Elle prend deux paramètres : les séquences de données pour lesquelles vous souhaitez calculer la covariance.

Le résultat se trouve à l'indice `[0,1]`. Ce cours ne couvrira pas les autres valeurs de la sortie, référez-vous à l'exemple :

import pandas as pd 
import numpy as np

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv')

# Calculating covariance 
cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1]

print(round(cov, 2))

Cela indique que les valeurs évoluent dans la même direction. Cela est logique car une surface de magasin plus grande correspond à un nombre d'articles plus élevé. Un inconvénient majeur de la covariance est que la valeur peut être infinie.

Acquérir une base solide en statistiques avec Python. Apprendre les concepts statistiques essentiels et les appliquer à l'aide de NumPy et pandas. Passer des mesures de base telles que la moyenne et la variance aux tests d'hypothèses, intervalles de confiance et analyses de données avec une pratique concrète.

Découvrez les principes statistiques fondamentaux, y compris les types de données, les mesures de tendance centrale et les principales différences entre les échantillons et les populations.

Apprenez à calculer et à interpréter la moyenne, la médiane et le mode en utilisant Python. Pratiquez ces opérations avec pandas pour analyser des ensembles de données réels.

Comprendre comment la variance et l'écart type mesurent la dispersion des données. Apprendre à calculer ces deux mesures manuellement et à l'aide des outils Python.

Explorez comment la covariance et la corrélation décrivent les relations entre les variables. Entraînez-vous à calculer et à comparer ces deux mesures en Python.

Maîtrisez les intervalles de confiance pour estimer les paramètres de population. Utilisez NumPy, pandas et des bibliothèques de visualisation pour calculer et interpréter les intervalles avec des données réelles.

Apprenez les bases des tests d'hypothèse et du test t. Comprenez comment concevoir, réaliser et interpréter des tests à l'aide de Python pour soutenir des décisions basées sur les données.