Contenu du cours
Apprendre les Statistiques avec Python
Apprendre les Statistiques avec Python
Corrélation
Corrélation est une mesure statistique qui quantifie le degré d'association ou de relation entre deux variables. En d'autres termes, elle nous aide à comprendre comment deux variables ont tendance à évoluer l'une par rapport à l'autre.
La corrélation fournit un moyen simple d'examiner le résultat. La valeur de corrélation se situe dans la plage de [-1; 1]. Reportez-vous au tableau ci-dessous :
Valeur de Corrélation | Signification |
---|---|
1 | Corrélation positive parfaite : Lorsque l'une des valeurs augmente, l'autre augmente également, et vice versa. |
0 | Aucune corrélation : Il n'y a pas de relation visible entre les variables. |
-1 | Corrélation négative parfaite : Lorsque l'une des valeurs augmente, l'autre diminue, et vice versa. |
Corrélation avec Python :
Pour calculer la corrélation, nous utiliserons la fonction np.corrcoef()
de NumPy avec deux paramètres : les séquences de données pour lesquelles nous voulons trouver la corrélation. Regardez l'exemple :
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Ici, nous avons extrait la valeur à l'index [0, 1], tout comme dans le cas de la covariance. Dans le chapitre précédent, nous avons obtenu la valeur 74955.85
, et interpréter le résultat de la fonction de covariation peut être difficile. Cependant, dans ce cas, nous pouvons conclure que les valeurs sont fortement liées.
Merci pour vos commentaires !