Aprenda Métricas

Deslize para mostrar o menu

Então, comparamos par a par as colunas de ambos os conjuntos de dados. Vamos relembrar a Seção 1. Precisamos de uma métrica, ou melhor ainda, de várias métricas. Boas métricas para nossos conjuntos de dados seriam:

Vamos comparar a primeira métrica, Taxa de Conversão, para ambos os conjuntos de dados. Iremos traçar histogramas:


              1234567891011121314151617181920212223242526272829
            
# Import libraries
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

# Read .csv files 
df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';')
df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';')

# Define metric
df_test['Conversion'] = df_test['Purchase'] / df_test['Click']
df_control['Conversion'] = df_control['Purchase'] / df_control['Click']

# Ploting hists
sns.histplot(df_control['Conversion'], color="#1e2635", label="Conversion of Control Group")
sns.histplot(df_test['Conversion'], color="#ff8a00", label="Conversion of Test Group")

# Add mean line
plt.axvline(df_control['Conversion'].mean(), color="#1e2635", linestyle='dashed', linewidth=1, label='Mean Control Group')
plt.axvline(df_test['Conversion'].mean(), color="#ff8a00", linestyle='dashed', linewidth=1, label='Mean Test Group')

# Sign the axes
plt.xlabel('Conversion')
plt.ylabel('Frequency')
plt.legend()
plt.title('Histogram of Conversion')

# Show the results
plt.show()

Bem, parece que não segue uma distribuição normal. Vamos desenhar um gráfico de caixa:


              1234567891011121314151617181920212223242526272829
            
#Import libraries
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

#Read .csv files 
df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';')
df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';')

#Define metric
df_test['Conversion'] = df_test['Purchase'] / df_test['Click']
df_control['Conversion'] = df_control['Purchase'] / df_control['Click']

#We add to the dataframes columns-labels, which mean belonging to either the control or the test group
df_control['group'] = 'Contol group'
df_test['group'] = 'Test group'

#Concat the dataframes and plotting boxplots
df_combined = pd.concat([df_control, df_test])
sns.boxplot(data=df_combined, x='group', y='Conversion', palette=['#1e2635', '#ff8a00'],
            medianprops={'color': 'red'})

#Sign the axis 
plt.xlabel('')
plt.ylabel('Conversion')
plt.title('Comparison of Conversion')

#Show the results
plt.show()

As distribuições estão fortemente inclinadas, sugerindo que é improvável que sejam normais. Vamos confirmar isso realizando o teste de Shapiro-Wilk:


              12345678910111213141516171819202122232425262728
            
# Import libraries
import pandas as pd
from scipy.stats import shapiro

# Read .csv files 
df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';')
df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';')

# Define metric
df_test['Conversion'] = df_test['Purchase'] / df_test['Click']
df_control['Conversion'] = df_control['Purchase'] / df_control['Click']

# Testing normality
stat_control, p_control = shapiro(df_control['Conversion'])
print("Control group: ")
print("Stat: %.4f, p-value: %.4f" % (stat_control, p_control))
if p_control > 0.05:
  print('Control group is likely to normal distribution')
else:
  print('Control group is NOT likely to normal distribution')

stat_control, p_control = shapiro(df_test['Conversion'])
print("Test group: ")
print("Stat: %.4f, p-value: %.4f" % (stat_control, p_control))
if p_control > 0.05:
  print('Control group is likely to normal distribution')
else:
  print('Control group is NOT likely to normal distribution')

O teste de Shapiro-Wilk não forneceu evidências estatísticas suficientes para a normalidade das distribuições da métrica de Conversão. No entanto, isso não nos impede. Mesmo em tal situação, podemos recorrer ao teste U de Mann-Whitney, também conhecido como teste U.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 5. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 5. Capítulo 1