Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Codificación One-Hot | Procesamiento de Datos Categóricos
Procesamiento Previo de Datos
course content

Contenido del Curso

Procesamiento Previo de Datos

Procesamiento Previo de Datos

1. Introducción Breve
2. Procesamiento de Datos Cuantitativos
3. Procesamiento de Datos Categóricos
4. Procesamiento de Datos de Series Temporales
5. Ingeniería de Características
6. Avanzando a Tareas

bookCodificación One-Hot

Así pues, empecemos a comprender cuándo y qué métodos de codificación es mejor utilizar.

Por lo general, es mejor utilizar la codificación única cuando la variable categórica no tiene un orden o jerarquía natural entre las categorías y cuando el número de categorías únicas es relativamente pequeño. Se suele utilizar para datos categóricos nominales, en los que las categorías no tienen un orden o relación inherente entre ellas.

Vea algunos ejemplos de datos categóricos nominales:

  • Colores: rojo, azul, verde, amarillo, etc;
  • Países: EE.UU., Canadá, México, Japón, etc;
  • Diferentes mascotas: perro, gato, pájaro, pez, etc;
  • Géneros musicales: pop, rock, hip hop, country, etc;
  • Estado civil: soltero, casado, divorciado, viudo, etc.

La idea básica de la codificación one-hot es crear una variable binaria (0/1) para cada categoría de la variable categórica.

Podemos realizar la codificación one-hot utilizando el método pd.get_dummies(), que crea 3 nuevas columnas binarias para cada uno de los tres valores de color únicos. El conjunto de datos resultante muestra la representación binaria de cada valor de color:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarea

Utilice el método de codificación de una sola vez en el conjunto de datos 'cars.csv'.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2
toggle bottom row

bookCodificación One-Hot

Así pues, empecemos a comprender cuándo y qué métodos de codificación es mejor utilizar.

Por lo general, es mejor utilizar la codificación única cuando la variable categórica no tiene un orden o jerarquía natural entre las categorías y cuando el número de categorías únicas es relativamente pequeño. Se suele utilizar para datos categóricos nominales, en los que las categorías no tienen un orden o relación inherente entre ellas.

Vea algunos ejemplos de datos categóricos nominales:

  • Colores: rojo, azul, verde, amarillo, etc;
  • Países: EE.UU., Canadá, México, Japón, etc;
  • Diferentes mascotas: perro, gato, pájaro, pez, etc;
  • Géneros musicales: pop, rock, hip hop, country, etc;
  • Estado civil: soltero, casado, divorciado, viudo, etc.

La idea básica de la codificación one-hot es crear una variable binaria (0/1) para cada categoría de la variable categórica.

Podemos realizar la codificación one-hot utilizando el método pd.get_dummies(), que crea 3 nuevas columnas binarias para cada uno de los tres valores de color únicos. El conjunto de datos resultante muestra la representación binaria de cada valor de color:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarea

Utilice el método de codificación de una sola vez en el conjunto de datos 'cars.csv'.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2
toggle bottom row

bookCodificación One-Hot

Así pues, empecemos a comprender cuándo y qué métodos de codificación es mejor utilizar.

Por lo general, es mejor utilizar la codificación única cuando la variable categórica no tiene un orden o jerarquía natural entre las categorías y cuando el número de categorías únicas es relativamente pequeño. Se suele utilizar para datos categóricos nominales, en los que las categorías no tienen un orden o relación inherente entre ellas.

Vea algunos ejemplos de datos categóricos nominales:

  • Colores: rojo, azul, verde, amarillo, etc;
  • Países: EE.UU., Canadá, México, Japón, etc;
  • Diferentes mascotas: perro, gato, pájaro, pez, etc;
  • Géneros musicales: pop, rock, hip hop, country, etc;
  • Estado civil: soltero, casado, divorciado, viudo, etc.

La idea básica de la codificación one-hot es crear una variable binaria (0/1) para cada categoría de la variable categórica.

Podemos realizar la codificación one-hot utilizando el método pd.get_dummies(), que crea 3 nuevas columnas binarias para cada uno de los tres valores de color únicos. El conjunto de datos resultante muestra la representación binaria de cada valor de color:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarea

Utilice el método de codificación de una sola vez en el conjunto de datos 'cars.csv'.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Así pues, empecemos a comprender cuándo y qué métodos de codificación es mejor utilizar.

Por lo general, es mejor utilizar la codificación única cuando la variable categórica no tiene un orden o jerarquía natural entre las categorías y cuando el número de categorías únicas es relativamente pequeño. Se suele utilizar para datos categóricos nominales, en los que las categorías no tienen un orden o relación inherente entre ellas.

Vea algunos ejemplos de datos categóricos nominales:

  • Colores: rojo, azul, verde, amarillo, etc;
  • Países: EE.UU., Canadá, México, Japón, etc;
  • Diferentes mascotas: perro, gato, pájaro, pez, etc;
  • Géneros musicales: pop, rock, hip hop, country, etc;
  • Estado civil: soltero, casado, divorciado, viudo, etc.

La idea básica de la codificación one-hot es crear una variable binaria (0/1) para cada categoría de la variable categórica.

Podemos realizar la codificación one-hot utilizando el método pd.get_dummies(), que crea 3 nuevas columnas binarias para cada uno de los tres valores de color únicos. El conjunto de datos resultante muestra la representación binaria de cada valor de color:

12345678910
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
copy

Tarea

Utilice el método de codificación de una sola vez en el conjunto de datos 'cars.csv'.

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
Sección 3. Capítulo 2
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
some-alt