Deslize para mostrar o menu

Antes de prosseguirmos para a visualização da distribuição, é sensato examinar as estatísticas descritivas de cada parâmetro no conjunto de dados.

Dentre os principais parâmetros de que precisamos, incluem-se os seguintes:

Número de observações;
Valor médio;
Desvio padrão;
Mediana;
Valor mínimo;
Valor máximo.

Vamos a isso. Temos os resultados de um experimento controlado para dois grupos de usuários.

Testes A/A preliminares mostraram que o experimento foi adequado. Vamos exibir nossos arquivos:


              12345678
            
# Import pandas 
import pandas as pd

# Read .csv file 
df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';')

# Print head of the control dataframe
print(df_control.head())

Nesta tabela, temos 4 colunas:

'Impressão' - o número de visualizações da página do produto; 'Clique' - o número de transições para a página do produto; 'Compra' - o número de compras do produto; 'Lucro' - lucro obtido com a venda do produto.


              12345678
            
# Import pandas
import pandas as pd

# Read .csv file
df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';')

# Print head of the test dataframe
print(df_test.head())

Agora vamos calcular as estatísticas descritivas e exibi-las na tela:


              12345678910111213141516
            
# Import pandas
import pandas as pd

# Read .csv files
df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';')
df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';')

# Calculate descriptive statistics using .agg method
control_descriptive = df_control['Impression'].agg(['count', 'mean', 'std', 'median', 'min', 'max']).round(2)
test_descriptive = df_test['Impression'].agg(['count', 'mean', 'std', 'median', 'min', 'max']).round(2)

# Concat the results of aggregations
result = pd.concat([control_descriptive, test_descriptive], axis=1)
result.columns = ['Control', 'Test']

print(result)

Utilizamos o método .agg() pela conveniência de calcular estatísticas descritivas. Esse método é denominado agregação. Agregações são uma forma de colapsar, resumir ou agrupar dados. Além disso, usamos o método .concat() para exibir de forma conveniente os resultados da agregação na tela.

As médias parecem bastante próximas. Ou não?

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Estatísticas Descritivas