Conteúdo do Curso
Pré-processamento de Dados
Pré-processamento de Dados
Métodos para Codificar os Dados Categóricos
Dados categóricos representam um tipo de dado que exprime características qualitativas ou descritivas. Frequentemente são não numéricos. Podem ser marcas de carros, profissões, nível de educação, etc. Mas então, qual é a diferença entre dados de texto simples e dados categóricos? A principal diferença entre dados categóricos e dados de texto é que os dados categóricos são um tipo estruturado de dados com categorias discretas, enquanto os dados de texto são um tipo não estruturado de dados que requerem passos adicionais de pré-processamento para extrair informações relevantes. É por isso que, por exemplo, os nomes das pessoas em um banco de dados com currículos de usuários não são dados categóricos, mas sim dados de texto.
Antes de mais nada, vamos entender porque precisamos codificar os dados categóricos. A maioria dos algoritmos de aprendizado de máquina requer dados de entrada numéricos para que possam realizar seus cálculos, portanto, os dados categóricos precisam ser transformados em uma representação numérica antes de serem utilizados.
Existem muitos métodos de codificação de dados: codificação por rótulos, codificação one-hot, codificação binária, codificação alvo, entre outros, cujas diferenças discutiremos nos capítulos seguintes.
Você pode ver a diferença entre a codificação one-hot e a codificação por rótulos nas imagens abaixo:
Obrigado pelo seu feedback!