Conteúdo do Curso
A Arte do Teste A/B
A Arte do Teste A/B
Estatísticas Descritivas
Antes de prosseguirmos para a visualização da distribuição, é sensato examinar as estatísticas descritivas de cada parâmetro no conjunto de dados.
Dentre os principais parâmetros de que precisamos, incluem-se os seguintes:
- Número de observações;
- Valor médio;
- Desvio padrão;
- Mediana;
- Valor mínimo;
- Valor máximo.
Vamos a isso. Temos os resultados de um experimento controlado para dois grupos de usuários.
Testes A/A preliminares mostraram que o experimento foi adequado. Vamos exibir nossos arquivos:
# Import pandas import pandas as pd # Read .csv file df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';') # Print head of the control dataframe print(df_control.head())
Nesta tabela, temos 4 colunas:
'Impressão'
- o número de visualizações da página do produto;
'Clique'
- o número de transições para a página do produto;
'Compra'
- o número de compras do produto;
'Lucro'
- lucro obtido com a venda do produto.
# Import pandas import pandas as pd # Read .csv file df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';') # Print head of the test dataframe print(df_test.head())
Agora vamos calcular as estatísticas descritivas e exibi-las na tela:
# Import pandas import pandas as pd # Read .csv files df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';') df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';') # Calculate descriptive statistics using .agg method control_descriptive = df_control['Impression'].agg(['count', 'mean', 'std', 'median', 'min', 'max']).round(2) test_descriptive = df_test['Impression'].agg(['count', 'mean', 'std', 'median', 'min', 'max']).round(2) # Concat the results of aggregations result = pd.concat([control_descriptive, test_descriptive], axis=1) result.columns = ['Control', 'Test'] print(result)
Utilizamos o método .agg()
pela conveniência de calcular estatísticas descritivas. Esse método é denominado agregação. Agregações são uma forma de colapsar, resumir ou agrupar dados.
Além disso, usamos o método .concat()
para exibir de forma conveniente os resultados da agregação na tela.
As médias parecem bastante próximas. Ou não?
Obrigado pelo seu feedback!