Kursinnehåll
Lära Sig Statistik med Python
Lära Sig Statistik med Python
Korrelation
Korrelation är ett statistiskt mått som kvantifierar graden av samband eller relation mellan två variabler. Med andra ord hjälper det oss att förstå hur två variabler tenderar att röra sig i förhållande till varandra.
Korrelation ger ett enkelt sätt att undersöka resultatet. Korrelationens värde ligger inom intervallet [-1, 1]
. Se tabellen nedan:
Korrelation med Python
För att beräkna korrelation används funktionen np.corrcoef()
från numpy
, som kräver två parametrar: dataserierna för vilka korrelationen ska beräknas. Här är ett exempel:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Här hämtade vi värdet vid index [0, 1]
, precis som i fallet med kovarians. I föregående kapitel fick vi värdet 74955.85
, och att tolka resultatet från kovariansfunktionen kan vara utmanande. I det här fallet kan vi dock dra slutsatsen att värdena är starkt relaterade.
Tack för dina kommentarer!