Contenido del Curso
Procesamiento Previo de Datos
Procesamiento Previo de Datos
Eliminando un Dato "Extra"
El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.
El tratamiento de los valores que faltan es el primer paso importante.
Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN
:
Otra opción es sustituir los datos que faltan por la mediana de toda la columna:
Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).
Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.
La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.
La identificación de duplicados en el conjunto de datos es nuestro siguiente paso
Para implementarlo, utilizamos el método .drop_duplicates()
:
Eliminar características no informativas es lo último que consideraremos
Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:
Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.
En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.
Tarea
Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv
.
¡Gracias por tus comentarios!
Eliminando un Dato "Extra"
El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.
El tratamiento de los valores que faltan es el primer paso importante.
Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN
:
Otra opción es sustituir los datos que faltan por la mediana de toda la columna:
Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).
Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.
La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.
La identificación de duplicados en el conjunto de datos es nuestro siguiente paso
Para implementarlo, utilizamos el método .drop_duplicates()
:
Eliminar características no informativas es lo último que consideraremos
Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:
Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.
En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.
Tarea
Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv
.
¡Gracias por tus comentarios!
Eliminando un Dato "Extra"
El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.
El tratamiento de los valores que faltan es el primer paso importante.
Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN
:
Otra opción es sustituir los datos que faltan por la mediana de toda la columna:
Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).
Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.
La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.
La identificación de duplicados en el conjunto de datos es nuestro siguiente paso
Para implementarlo, utilizamos el método .drop_duplicates()
:
Eliminar características no informativas es lo último que consideraremos
Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:
Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.
En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.
Tarea
Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv
.
¡Gracias por tus comentarios!
El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.
El tratamiento de los valores que faltan es el primer paso importante.
Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN
:
Otra opción es sustituir los datos que faltan por la mediana de toda la columna:
Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).
Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.
La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.
La identificación de duplicados en el conjunto de datos es nuestro siguiente paso
Para implementarlo, utilizamos el método .drop_duplicates()
:
Eliminar características no informativas es lo último que consideraremos
Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:
Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.
En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.
Tarea
Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv
.