Contenido del Curso
Procesamiento Previo de Datos
Procesamiento Previo de Datos
Métodos para Codificar los Datos Categóricos
Los datos categóricos son un tipo de datos que representan características cualitativas o descriptivas. A menudo no son numéricos. Pueden ser marcas de coches, profesiones, nivel de estudios, etc. Pero entonces, ¿cuál es la diferencia entre los datos de texto plano y los datos categóricos? La principal diferencia entre los datos categóricos y los datos de texto es que los datos categóricos son un tipo de datos estructurados con categorías discretas, mientras que los datos de texto son un tipo de datos no estructurados que requieren pasos adicionales de preprocesamiento para extraer la información relevante. Por eso, por ejemplo, los nombres de las personas de un conjunto de datos con currículos de usuarios no son datos categóricos, sino datos de texto.
En primer lugar, averigüemos por qué necesitamos codificar datos categóricos. La mayoría de los algoritmos de aprendizaje automático requieren datos numéricos de entrada para poder realizar sus cálculos, por lo que los datos categóricos deben transformarse en una representación numérica antes de poder utilizarse.
Hay muchos métodos de codificación de datos: codificación de etiquetas, codificación de un punto, codificación binaria, codificación de objetivos y otros, cuyas diferencias discutiremos en los siguientes capítulos.
En las imágenes siguientes se puede ver la diferencia entre la codificación de una sola vez y la codificación de etiquetas:
¡Gracias por tus comentarios!