Зміст курсу
Вивчення Статистики з Python
Вивчення Статистики з Python
Кореляція
Кореляція — це статистична міра, яка кількісно визначає ступінь асоціації або взаємозв'язку між двома змінними. Іншими словами, вона допомагає зрозуміти, як дві змінні схильні змінюватися одна відносно одної.
Кореляція надає простий спосіб оцінити результат. Значення кореляції знаходиться в діапазоні [-1, 1]
. Дивіться таблицю нижче:
Кореляція з Python
Для обчислення кореляції використовуйте функцію np.corrcoef()
з бібліотеки numpy
, яка потребує два параметри: послідовності даних, для яких обчислюється кореляція. Ось приклад:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Тут ми витягли значення за індексом [0, 1]
, так само, як і у випадку з коваріацією. У попередньому розділі ми отримали значення 74955.85
, і інтерпретувати результат функції коваріації може бути складно. Однак у цьому випадку можна зробити висновок, що значення мають сильний зв'язок.
Дякуємо за ваш відгук!