single
Gestión de Variables Categóricas
Desliza para mostrar el menú
Ahora trabajarás con el conjunto de datos que no contiene valores faltantes. Los valores NaN de la columna 'Age' fueron reemplazados por el promedio de la columna, y el valor NaN de la columna 'Fare' fue eliminado.
Así que ahora es momento de aprender cómo gestionar variables categóricas. Categórico significa que tienen algunas categorías. Por ejemplo, en la columna 'Sex', están 'male' y 'female'; o en la columna 'Embarked', están 'Q', 'S' y 'C'.
¿Qué debemos hacer para calcular la cantidad de valores en cada categoría o para obtener información sobre ellas?
Ya conoces .loc[], .isin(), .between() y muchas funciones, pero en pandas, existe una forma más elegante y conveniente de hacerlo. Utiliza la función .get_dummies(). Como ejemplo, la aplicaremos a la columna 'Embarked'. Observa la implementación y el resultado (mostraremos los nombres de 5 pasajeros aleatorios y las nuevas columnas que creamos).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Analicemos una de las posibles salidas, específicamente una de las posibles combinaciones de cinco filas seleccionadas aleatoriamente. Puedes desplazarte horizontalmente por la tabla para ver todas las columnas:
Explicación:
Como resultado, nuestra función dividió la columna 'Embarked' en tres columnas: 'Embarked_C', 'Embarked_Q' y 'Embarked_S'. En total, tenemos tres categorías. Cada pasajero tiene su categoría en la columna 'Embarked'. Así, nuestra función crea tres columnas correspondientes a cada categoría y, en la fila de cada pasajero, coloca un 1 en la columna si la persona estaba relacionada inicialmente con esa geografía; de lo contrario, coloca un 0. De este modo, obtenemos un 1 en solo una columna.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()- esta función convierte variables categóricas en variables dummy (1 o 0);data- el data frame que se desea utilizar;columns = ['Embarked']- columnas que contienen variables categóricas que se desean transformar en variables dummy. Atención: es obligatorio colocar los nombres de las columnas en una lista.
Desliza para comenzar a programar
La tarea consiste en transformar la columna 'Sex' en una con variables dummy en lugar de variables categóricas. Luego, mostrar la suma de los valores en cada categoría.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla