Kurssisisältö
Tilastotieteen Opiskelu Pythonilla
Tilastotieteen Opiskelu Pythonilla
Korrelaatio
Korrelaatio on tilastollinen mittari, joka kuvaa kahden muuttujan välisen yhteyden tai riippuvuuden astetta. Toisin sanoen, se auttaa ymmärtämään, miten kaksi muuttujaa taipuvat muuttumaan suhteessa toisiinsa.
Korrelaatio tarjoaa yksinkertaisen tavan tarkastella tulosta. Korrelaation arvo sijoittuu välille [-1, 1]
. Katso alla olevaa taulukkoa:
Korrelaatio Pythonilla
Korrelaation laskemiseen käytetään np.corrcoef()
-kirjaston numpy
-funktiota, joka vaatii kaksi parametria: tietojonot, joiden välinen korrelaatio halutaan laskea. Tässä esimerkki:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Tässä poimimme arvon indeksistä [0, 1]
, aivan kuten kovarianssin tapauksessa. Edellisessä luvussa saimme arvoksi 74955.85
, ja kovarianssifunktion tuloksen tulkinta voi olla haastavaa. Tässä tapauksessa voimme kuitenkin päätellä, että arvot ovat vahvasti yhteydessä toisiinsa.
Kiitos palautteestasi!