Summary  
This chapter shows how to compute covariance between two numeric sequences in Python using NumPy’s np.cov() function, extract the covariance value, and printing the rounded result to assess the direction of their linear relationship.

General domain of usage  
Data analysis

**Covariância** é uma medida da variabilidade conjunta de duas variáveis aleatórias.

Definição

As fórmulas para **amostra** e **população** de covariância diferem, mas não serão discutidas em detalhes aqui. Este capítulo foca no cálculo da covariância para o seguinte conjunto de dados:


- `Store_ID`: the unique id of the store;
- `Store_Area`: the area of the store;
- `Items_Available`: the number of items that are available in the store;
- `Daily_Customer_Count`: the daily number of customers in the store;
- `Store_Sales`: the number of sales in the store.

## Calculando a Covariância com Python

Para calcular a covariância em Python, utilize a função `np.cov()` da biblioteca **NumPy**. Ela recebe dois parâmetros: as sequências de dados para as quais se deseja calcular a covariância.

O resultado está localizado no índice `[0,1]`. Este curso não abordará os outros valores do resultado, consulte o exemplo:

import pandas as pd 
import numpy as np

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv')

# Calculating covariance 
cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1]

print(round(cov, 2))

Isso indica que os valores se movem na mesma direção. Isso faz sentido, pois uma área de loja maior corresponde a um número maior de itens. Uma desvantagem significativa da covariância é que o valor pode ser infinito.

Construa uma base sólida em estatística utilizando Python. Aprenda conceitos estatísticos essenciais e aplique-os por meio do NumPy e pandas. Progrida desde medidas básicas como média e variância até testes de hipótese, intervalos de confiança e insights orientados por dados com prática prática.

Descubra os princípios estatísticos fundamentais, incluindo tipos de dados, medidas de tendência central e principais diferenças entre amostras e populações.

Aprenda a calcular e interpretar média, mediana e moda usando Python. Pratique essas operações com pandas para analisar conjuntos de dados reais.

Compreensão de como a variância e o desvio padrão medem a dispersão dos dados. Aprendizado do cálculo manual e com ferramentas Python.

Explore como a covariância e a correlação descrevem relações entre variáveis. Prática de cálculo e comparação de ambas as métricas em Python.

Domine intervalos de confiança para estimar parâmetros populacionais. Utilize NumPy, pandas e bibliotecas de visualização para calcular e interpretar intervalos com dados reais.

Aprenda os fundamentos dos testes de hipótese e do teste t. Compreenda como planejar, executar e interpretar testes utilizando Python para apoiar decisões baseadas em dados.