Sección 2. Capítulo 6
single
Desafío: Preprocesamiento del Conjunto de Datos
Desliza para mostrar el menú
Tarea
Desliza para comenzar a programar
Se proporciona un conjunto de datos sintético almacenado en la variable data. La tarea consiste en gestionar los valores faltantes y codificar correctamente las características categóricas.
Siga estos pasos:
- Sustituir los valores faltantes en la columna
'Age'por el valor medio de dicha columna. Sobrescribir la columna original con el resultado. - Crear una instancia de
OneHotEncodery almacenarla en la variablecity_encoder. Asegúrese de especificardrop='first'para evitar la trampa de variables ficticias. - Por defecto, este codificador devuelve una matriz dispersa. Para que sea compatible con Pandas posteriormente, establezca el parámetro
sparse_output=False(osparse=Falsepara versiones anteriores) durante la inicialización, O bien agregue.toarray()al transformar los datos. - Codificar los valores de la columna
'City'utilizandocity_encoder.fit_transform()y almacenar el arreglo resultante en la variablecity_encoded. - Crear una instancia de
OrdinalEncodery almacenarla en la variableincome_encoder. Dado que los datos tienen una jerarquía natural, defina explícitamente el orden utilizando el parámetrocategories(tenga en cuenta que'Low'<'Middle'<'High'). - Codificar los valores de la columna
'Income'utilizandoincome_encodery sobrescribir la columna original'Income'con el resultado.
Solución
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 2. Capítulo 6
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla