Conteúdo do Curso
Pré-processamento de Dados
Pré-processamento de Dados
Codificação One-Hot
Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.
A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.
Veja alguns exemplos de dados categóricos nominais:
- Cores: vermelho, azul, verde, amarelo, etc.;
- Países: EUA, Canadá, México, Japão, etc.;
- Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
- Gêneros de música: pop, rock, hip hop, country, etc.;
- Estado civil: solteiro, casado, divorciado, viúvo, etc..
A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.
Podemos realizar a codificação one-hot usando o método pd.get_dummies()
, que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
Tarefa
Utilize o método de codificação one-hot no dataset 'cars.csv'
.
Obrigado pelo seu feedback!
Codificação One-Hot
Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.
A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.
Veja alguns exemplos de dados categóricos nominais:
- Cores: vermelho, azul, verde, amarelo, etc.;
- Países: EUA, Canadá, México, Japão, etc.;
- Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
- Gêneros de música: pop, rock, hip hop, country, etc.;
- Estado civil: solteiro, casado, divorciado, viúvo, etc..
A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.
Podemos realizar a codificação one-hot usando o método pd.get_dummies()
, que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
Tarefa
Utilize o método de codificação one-hot no dataset 'cars.csv'
.
Obrigado pelo seu feedback!
Codificação One-Hot
Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.
A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.
Veja alguns exemplos de dados categóricos nominais:
- Cores: vermelho, azul, verde, amarelo, etc.;
- Países: EUA, Canadá, México, Japão, etc.;
- Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
- Gêneros de música: pop, rock, hip hop, country, etc.;
- Estado civil: solteiro, casado, divorciado, viúvo, etc..
A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.
Podemos realizar a codificação one-hot usando o método pd.get_dummies()
, que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
Tarefa
Utilize o método de codificação one-hot no dataset 'cars.csv'
.
Obrigado pelo seu feedback!
Então, vamos começar a entender quando e quais métodos de codificação são melhores para usar.
A codificação one-hot geralmente é melhor usar quando a variável categórica não tem uma ordenação ou hierarquia natural entre as categorias e quando o número de categorias únicas é relativamente pequeno. É comumente usado para dados categóricos nominais, onde as categorias não têm uma ordem ou relação inerente entre elas.
Veja alguns exemplos de dados categóricos nominais:
- Cores: vermelho, azul, verde, amarelo, etc.;
- Países: EUA, Canadá, México, Japão, etc.;
- Diferentes animais de estimação: cachorro, gato, pássaro, peixe, etc.;
- Gêneros de música: pop, rock, hip hop, country, etc.;
- Estado civil: solteiro, casado, divorciado, viúvo, etc..
A ideia básica por trás da codificação one-hot é criar uma variável binária (0/1) para cada categoria na variável categórica.
Podemos realizar a codificação one-hot usando o método pd.get_dummies()
, que cria 3 novas colunas binárias para cada um dos três valores únicos de cor. O conjunto de dados resultante mostra a representação binária de cada valor de cor:
import pandas as pd # Create a sample dataset with categorical data dataset = pd.DataFrame({'color': ['red', 'green', 'blue', 'red', 'blue']}) # Perform one-hot encoding one_hot_encoded = pd.get_dummies(dataset['color']) # Display the one-hot encoded dataframe print(one_hot_encoded)
Tarefa
Utilize o método de codificação one-hot no dataset 'cars.csv'
.