Aprende Eliminando un Dato "Extra"

El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.

El tratamiento de los valores que faltan es el primer paso importante.

Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN:

df = df.dropna()

Otra opción es sustituir los datos que faltan por la mediana de toda la columna:

med = df['profundidad_factura_mm'].mediana()
df['profundidad_factura_mm'] = df['profundidad_factura_mm'].fillna(med)

Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).

Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.

La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.

La identificación de duplicados en el conjunto de datos es nuestro siguiente paso

Para implementarlo, utilizamos el método .drop_duplicates():

df = df.drop_duplicates()

Eliminar características no informativas es lo último que consideraremos

Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:

num_rows = len(df.index)
baja_informacion_cols = []

for col in df.columnas
    cnts = df[col].value_counts(dropna=False)
    top_pct = (cnts/num_rows).iloc[0]
    
    si top_pct > 0,95
        baja_informacion_cols.append(col)
        print('{0}: {1:.5f}%'.format(col, top_pct*100))
        print(cnts)

Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.

En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.

Tarea

Swipe to start coding

Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv.

Solución

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4

single

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú