Conteúdo do Curso
Aprendendo Estatística com Python
Aprendendo Estatística com Python
Covariância
Covariância é uma medida da variabilidade conjunta de duas variáveis aleatórias.
As fórmulas para amostra e população de covariância diferem, mas não serão exploradas em detalhes aqui. Este capítulo foca nas covariâncias do seguinte conjunto de dados:
Store_ID
: the unique id of the store;Store_Area
: the area of the store;Items_Available
: the number of items that are available in the store;Daily_Customer_Count
: the daily number of customers in the store;Store_Sales
: the number of sales in the store.
Calculando a Covariância com Python
Para calcular a covariância em Python, utilize a função np.cov()
da biblioteca NumPy. Ela recebe dois parâmetros: as sequências de dados para as quais se deseja calcular a covariância.
O resultado está localizado no índice [0,1]
. Este curso não abordará os outros valores do resultado, consulte o exemplo:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Isso indica que os valores variam na mesma direção. Isso faz sentido, pois uma área de loja maior corresponde a um número maior de itens. Uma limitação significativa da covariância é que o valor pode ser infinito.
Obrigado pelo seu feedback!