Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Eliminando un Dato "Extra" | Introducción Breve
Procesamiento Previo de Datos
course content

Contenido del Curso

Procesamiento Previo de Datos

Procesamiento Previo de Datos

1. Introducción Breve
2. Procesamiento de Datos Cuantitativos
3. Procesamiento de Datos Categóricos
4. Procesamiento de Datos de Series Temporales
5. Ingeniería de Características
6. Avanzando a Tareas

bookEliminando un Dato "Extra"

El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.

El tratamiento de los valores que faltan es el primer paso importante.

Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN:

Otra opción es sustituir los datos que faltan por la mediana de toda la columna:

Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).

Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.

La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.

La identificación de duplicados en el conjunto de datos es nuestro siguiente paso

Para implementarlo, utilizamos el método .drop_duplicates():

Eliminar características no informativas es lo último que consideraremos

Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:

Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.

En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.

Tarea

Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4
toggle bottom row

bookEliminando un Dato "Extra"

El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.

El tratamiento de los valores que faltan es el primer paso importante.

Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN:

Otra opción es sustituir los datos que faltan por la mediana de toda la columna:

Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).

Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.

La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.

La identificación de duplicados en el conjunto de datos es nuestro siguiente paso

Para implementarlo, utilizamos el método .drop_duplicates():

Eliminar características no informativas es lo último que consideraremos

Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:

Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.

En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.

Tarea

Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 4
toggle bottom row

bookEliminando un Dato "Extra"

El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.

El tratamiento de los valores que faltan es el primer paso importante.

Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN:

Otra opción es sustituir los datos que faltan por la mediana de toda la columna:

Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).

Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.

La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.

La identificación de duplicados en el conjunto de datos es nuestro siguiente paso

Para implementarlo, utilizamos el método .drop_duplicates():

Eliminar características no informativas es lo último que consideraremos

Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:

Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.

En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.

Tarea

Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

El punto del tratamiento de datos, que incluye la eliminación de los datos "extra", es muy variado. Por ello, a continuación repasaremos brevemente sus principales etapas: tratamiento de lagunas, duplicados y valores atípicos.

El tratamiento de los valores que faltan es el primer paso importante.

Lo más sencillo que podemos hacer es eliminar las filas que contienen valores NaN:

Otra opción es sustituir los datos que faltan por la mediana de toda la columna:

Si las filas con valores NaN no superan el 5-8%, pueden eliminarse. Pero si son muchas, es mejor recurrir al método de imputación (sustituir los valores por la media, la mediana o la moda).

Por ejemplo, la imputación de la media se utiliza cuando se trabaja con conjuntos de datos con una distribución simétrica, y puede ser inestable ante un gran número de valores atípicos. Mientras que la imputación por la mediana es adecuada para datos con una distribución sesgada.

La imputación por modo se suele utilizar para características categóricas y variables discretas con un número reducido de valores posibles.

La identificación de duplicados en el conjunto de datos es nuestro siguiente paso

Para implementarlo, utilizamos el método .drop_duplicates():

Eliminar características no informativas es lo último que consideraremos

Una columna con demasiadas filas con los mismos valores no aporta información útil para el proyecto. Utilizando el siguiente algoritmo, podemos compilar una lista de características para las que más del 95% de las filas contienen el mismo valor:

Otro método sencillo para eliminar características no informativas consiste en calcular la correlación entre la característica y la variable objetivo. Si la correlación no alcanza un determinado umbral (que se fija manualmente), la característica puede eliminarse. Por supuesto, la correlación sólo se utiliza para modelos lineales. Cuando se trabaja con dependencias no lineales, se puede evaluar la entropía cruzada de un modelo sin y con determinadas características.

En algunos casos, incluso las características con correlaciones pequeñas pueden proporcionar información útil cuando se combinan con otras características. Las técnicas de selección de características, como la selección hacia delante/hacia atrás o los métodos de regularización, pueden utilizarse para identificar y seleccionar las características más informativas para el modelo.

Tarea

Limpie el conjunto de datos utilizando los 2 métodos anteriores en el conjunto de datos penguins.csv.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
Sección 1. Capítulo 4
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
some-alt