Aprende Prueba de Shapiro | Verificación de Normalidad

La prueba de Shapiro es una prueba estadística que se utiliza para comprobar la hipótesis de una distribución normal. Compara la distribución de los datos con una distribución normal.

La hipótesis nula supone que los datos tienen una distribución normal. Si el valor p es inferior al nivel de significación (inferior a 0,05), se rechaza la hipótesis nula.

En tal caso, podemos afirmar que los datos no se distribuyen normalmente (se acepta la hipótesis alternativa).

Realicemos la prueba de Shapiro para las primeras columnas de los grupos de control y de prueba al mismo tiempo:


              1234567891011121314151617181920212223242526272829
            
# Import libraries 
import pandas as pd
from scipy.stats import shapiro

# Read .csv files
df_control = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_control.csv', delimiter=';')
df_test = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/c3b98ad3-420d-403f-908d-6ab8facc3e28/ab_test.csv', delimiter=';')

# Do the Shapiro test for the control sample
stat_control, p_control = shapiro(df_control['Impression'])
print('Control group: ')
print('Stat: %.4f, p-value: %.4f' % (stat_control, p_control))

# Define the distribution form
if p_control > 0.05:
  print('Control group is likely to normal distribution')
else:
  print('Control group is NOT likely to normal distribution')
  
# Do the Shapiro test for the test sample
stat_test, p_test = shapiro(df_test['Impression'])
print('Test group: ')
print('Stat: %.4f, p-value: %.4f' % (stat_test, p_test))

# Define the distribution form
if p_test > 0.05:
  print('Control group is likely to normal distribution')
else:
  print('Control group is NOT likely to normal distribution')

¡Estupendo! Tenemos dos resultados.

Cuanto mayor es el valor estadístico, más pruebas se encuentran a favor de una distribución normal. El valor p en ambos grupos es alto (superior a 0,05), lo que significa que aceptamos la hipótesis nula.

Ambas columnas están normalmente distribuidas.

Nota

Si tenemos más de 5 000 observaciones, es mejor utilizar la prueba Kolmogorov-Smirnov. Su uso es similar al test de Shapiro.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 7

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla