Cursusinhoud
Statistiek Leren Met Python
Statistiek Leren Met Python
Correlatie
Correlatie is een statistische maat die de mate van samenhang of relatie tussen twee variabelen kwantificeert. Met andere woorden, het helpt ons te begrijpen hoe twee variabelen zich ten opzichte van elkaar bewegen.
Correlatie biedt een eenvoudige manier om het resultaat te onderzoeken. De correlatiewaarde ligt binnen het bereik van [-1, 1]
. Zie de onderstaande tabel:
Correlatie met Python
Voor het berekenen van correlatie gebruikt u de functie np.corrcoef()
uit numpy
, die twee parameters vereist: de gegevensreeksen waarvoor de correlatie moet worden berekend. Hier is een voorbeeld:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Hier hebben we de waarde op index [0, 1]
geëxtraheerd, net zoals bij covariantie. In het vorige hoofdstuk verkregen we de waarde 74955.85
, en het interpreteren van het resultaat van de covariatiefunctie kan lastig zijn. In dit geval kunnen we echter concluderen dat de waarden sterk gerelateerd zijn.
Bedankt voor je feedback!