Gestión de Variables Categóricas
Ahora, trabajará con el conjunto de datos que no contiene valores faltantes. Los valores NaN
de la columna 'Age'
fueron reemplazados por la media de la columna, y el valor NaN
de la columna 'Fare'
fue eliminado.
Así que, ahora es momento de aprender cómo gestionar variables categóricas. Categórico significa que tienen algunas categorías. Por ejemplo, en la columna 'Sex'
, existen 'male'
y 'female'
; o en la columna 'Embarked'
, existen 'Q'
, 'S'
y 'C'
.
¿Qué se debe hacer para calcular la cantidad de valores en cada categoría o para obtener información sobre ellas?
Ya conoce .loc[]
, .isin()
, .between()
y muchas funciones, pero en pandas, existe una forma más elegante y conveniente de hacerlo. Utilice la función .get_dummies()
. Como ejemplo, la aplicaremos a la columna 'Embarked'
. Observe la implementación y el resultado (mostraremos los nombres de 5 pasajeros aleatorios y las nuevas columnas que creamos).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Examinemos una de las posibles salidas, específicamente una de las posibles combinaciones de cinco filas seleccionadas aleatoriamente. Puede desplazarse horizontalmente por la tabla para ver todas las columnas:
Explicación:
Como resultado, nuestra función dividió la columna 'Embarked'
en tres columnas: 'Embarked_C'
, 'Embarked_Q'
y 'Embarked_S'
. En total, tenemos tres categorías. Cada pasajero tiene su categoría en la columna 'Embarked'
. Así, nuestra función crea tres columnas correspondientes a cada categoría y, en la fila de cada pasajero, llena la columna con 1
si la persona estaba inicialmente relacionada con esa geografía; de lo contrario, coloca 0
. De este modo, obtenemos 1
en solo una columna.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()
- esta función convierte variables categóricas en variables dummy (1 o 0);data
- el data frame que se desea utilizar;columns = ['Embarked']
- columnas que contienen variables categóricas que se desean transformar en variables dummy. Preste atención; es obligatorio colocar los nombres de las columnas en una lista.
Swipe to start coding
La tarea consiste en transformar la columna 'Sex'
en una con variables dummy en lugar de variables categóricas. Luego, mostrar la suma de los valores en cada categoría.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain why we use dummy variables instead of keeping the original categorical columns?
How can I use get_dummies() for multiple columns at once?
What should I do if my categorical column has many unique values?
Awesome!
Completion rate improved to 3.03
Gestión de Variables Categóricas
Desliza para mostrar el menú
Ahora, trabajará con el conjunto de datos que no contiene valores faltantes. Los valores NaN
de la columna 'Age'
fueron reemplazados por la media de la columna, y el valor NaN
de la columna 'Fare'
fue eliminado.
Así que, ahora es momento de aprender cómo gestionar variables categóricas. Categórico significa que tienen algunas categorías. Por ejemplo, en la columna 'Sex'
, existen 'male'
y 'female'
; o en la columna 'Embarked'
, existen 'Q'
, 'S'
y 'C'
.
¿Qué se debe hacer para calcular la cantidad de valores en cada categoría o para obtener información sobre ellas?
Ya conoce .loc[]
, .isin()
, .between()
y muchas funciones, pero en pandas, existe una forma más elegante y conveniente de hacerlo. Utilice la función .get_dummies()
. Como ejemplo, la aplicaremos a la columna 'Embarked'
. Observe la implementación y el resultado (mostraremos los nombres de 5 pasajeros aleatorios y las nuevas columnas que creamos).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Examinemos una de las posibles salidas, específicamente una de las posibles combinaciones de cinco filas seleccionadas aleatoriamente. Puede desplazarse horizontalmente por la tabla para ver todas las columnas:
Explicación:
Como resultado, nuestra función dividió la columna 'Embarked'
en tres columnas: 'Embarked_C'
, 'Embarked_Q'
y 'Embarked_S'
. En total, tenemos tres categorías. Cada pasajero tiene su categoría en la columna 'Embarked'
. Así, nuestra función crea tres columnas correspondientes a cada categoría y, en la fila de cada pasajero, llena la columna con 1
si la persona estaba inicialmente relacionada con esa geografía; de lo contrario, coloca 0
. De este modo, obtenemos 1
en solo una columna.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()
- esta función convierte variables categóricas en variables dummy (1 o 0);data
- el data frame que se desea utilizar;columns = ['Embarked']
- columnas que contienen variables categóricas que se desean transformar en variables dummy. Preste atención; es obligatorio colocar los nombres de las columnas en una lista.
Swipe to start coding
La tarea consiste en transformar la columna 'Sex'
en una con variables dummy en lugar de variables categóricas. Luego, mostrar la suma de los valores en cada categoría.
Solución
¡Gracias por tus comentarios!
single