Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Gestión de Variables Categóricas | Preprocesamiento de Datos
Técnicas Avanzadas en Pandas

bookGestión de Variables Categóricas

Ahora, trabajará con el conjunto de datos que no contiene valores faltantes. Los valores NaN de la columna 'Age' fueron reemplazados por la media de la columna, y el valor NaN de la columna 'Fare' fue eliminado. Así que, ahora es momento de aprender cómo gestionar variables categóricas. Categórico significa que tienen algunas categorías. Por ejemplo, en la columna 'Sex', existen 'male' y 'female'; o en la columna 'Embarked', existen 'Q', 'S' y 'C'.

¿Qué se debe hacer para calcular la cantidad de valores en cada categoría o para obtener información sobre ellas?

Ya conoce .loc[], .isin(), .between() y muchas funciones, pero en pandas, existe una forma más elegante y conveniente de hacerlo. Utilice la función .get_dummies(). Como ejemplo, la aplicaremos a la columna 'Embarked'. Observe la implementación y el resultado (mostraremos los nombres de 5 pasajeros aleatorios y las nuevas columnas que creamos).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Examinemos una de las posibles salidas, específicamente una de las posibles combinaciones de cinco filas seleccionadas aleatoriamente. Puede desplazarse horizontalmente por la tabla para ver todas las columnas:

Explicación:

Como resultado, nuestra función dividió la columna 'Embarked' en tres columnas: 'Embarked_C', 'Embarked_Q' y 'Embarked_S'. En total, tenemos tres categorías. Cada pasajero tiene su categoría en la columna 'Embarked'. Así, nuestra función crea tres columnas correspondientes a cada categoría y, en la fila de cada pasajero, llena la columna con 1 si la persona estaba inicialmente relacionada con esa geografía; de lo contrario, coloca 0. De este modo, obtenemos 1 en solo una columna.

pd.get_dummies(data, columns = ['Embarked'])
  • pd.get_dummies() - esta función convierte variables categóricas en variables dummy (1 o 0);
  • data - el data frame que se desea utilizar;
  • columns = ['Embarked'] - columnas que contienen variables categóricas que se desean transformar en variables dummy. Preste atención; es obligatorio colocar los nombres de las columnas en una lista.
Tarea

Swipe to start coding

La tarea consiste en transformar la columna 'Sex' en una con variables dummy en lugar de variables categóricas. Luego, mostrar la suma de los valores en cada categoría.

Solución

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 6
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain why we use dummy variables instead of keeping the original categorical columns?

How can I use get_dummies() for multiple columns at once?

What should I do if my categorical column has many unique values?

close

Awesome!

Completion rate improved to 3.03

bookGestión de Variables Categóricas

Desliza para mostrar el menú

Ahora, trabajará con el conjunto de datos que no contiene valores faltantes. Los valores NaN de la columna 'Age' fueron reemplazados por la media de la columna, y el valor NaN de la columna 'Fare' fue eliminado. Así que, ahora es momento de aprender cómo gestionar variables categóricas. Categórico significa que tienen algunas categorías. Por ejemplo, en la columna 'Sex', existen 'male' y 'female'; o en la columna 'Embarked', existen 'Q', 'S' y 'C'.

¿Qué se debe hacer para calcular la cantidad de valores en cada categoría o para obtener información sobre ellas?

Ya conoce .loc[], .isin(), .between() y muchas funciones, pero en pandas, existe una forma más elegante y conveniente de hacerlo. Utilice la función .get_dummies(). Como ejemplo, la aplicaremos a la columna 'Embarked'. Observe la implementación y el resultado (mostraremos los nombres de 5 pasajeros aleatorios y las nuevas columnas que creamos).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Examinemos una de las posibles salidas, específicamente una de las posibles combinaciones de cinco filas seleccionadas aleatoriamente. Puede desplazarse horizontalmente por la tabla para ver todas las columnas:

Explicación:

Como resultado, nuestra función dividió la columna 'Embarked' en tres columnas: 'Embarked_C', 'Embarked_Q' y 'Embarked_S'. En total, tenemos tres categorías. Cada pasajero tiene su categoría en la columna 'Embarked'. Así, nuestra función crea tres columnas correspondientes a cada categoría y, en la fila de cada pasajero, llena la columna con 1 si la persona estaba inicialmente relacionada con esa geografía; de lo contrario, coloca 0. De este modo, obtenemos 1 en solo una columna.

pd.get_dummies(data, columns = ['Embarked'])
  • pd.get_dummies() - esta función convierte variables categóricas en variables dummy (1 o 0);
  • data - el data frame que se desea utilizar;
  • columns = ['Embarked'] - columnas que contienen variables categóricas que se desean transformar en variables dummy. Preste atención; es obligatorio colocar los nombres de las columnas en una lista.
Tarea

Swipe to start coding

La tarea consiste en transformar la columna 'Sex' en una con variables dummy en lugar de variables categóricas. Luego, mostrar la suma de los valores en cada categoría.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 6
single

single

some-alt