Contenu du cours
Apprendre les Statistiques avec Python
Apprendre les Statistiques avec Python
Corrélation
Corrélation est une mesure statistique qui quantifie le degré d'association ou de relation entre deux variables. En d'autres termes, elle permet de comprendre comment deux variables ont tendance à évoluer l'une par rapport à l'autre.
La corrélation offre un moyen simple d'examiner le résultat. La valeur de corrélation se situe dans l'intervalle [-1, 1]
. Consultez le tableau ci-dessous :
Corrélation avec Python
Pour calculer la corrélation, utilisez la fonction np.corrcoef()
de numpy
, qui nécessite deux paramètres : les séquences de données pour lesquelles la corrélation doit être calculée. Voici un exemple :
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Ici, nous avons extrait la valeur à l’indice [0, 1]
, tout comme dans le cas de la covariance. Dans le chapitre précédent, nous avons obtenu la valeur 74955.85
, et l’interprétation du résultat de la fonction de covariation peut être complexe. Cependant, dans ce cas, nous pouvons conclure que les valeurs sont fortement liées.
Merci pour vos commentaires !