Sección 2. Capítulo 6
single
Desafío: Preprocesamiento del Conjunto de Datos
Desliza para mostrar el menú
Tarea
Swipe to start coding
Se proporciona un conjunto de datos sintético almacenado en la variable data. La tarea consiste en gestionar los valores faltantes y codificar correctamente las características categóricas.
Siga estos pasos:
- Sustituir los valores faltantes en la columna
'Age'por el valor medio de dicha columna. Sobrescribir la columna original con el resultado. - Crear una instancia de
OneHotEncodery almacenarla en la variablecity_encoder. Asegúrese de especificardrop='first'para evitar la trampa de variables ficticias. - Por defecto, este codificador devuelve una matriz dispersa. Para que sea compatible con Pandas posteriormente, establezca el parámetro
sparse_output=False(osparse=Falsepara versiones anteriores) durante la inicialización, O bien agregue.toarray()al transformar los datos. - Codificar los valores de la columna
'City'utilizandocity_encoder.fit_transform()y almacenar el arreglo resultante en la variablecity_encoded. - Crear una instancia de
OrdinalEncodery almacenarla en la variableincome_encoder. Dado que los datos tienen una jerarquía natural, defina explícitamente el orden utilizando el parámetrocategories(tenga en cuenta que'Low'<'Middle'<'High'). - Codificar los valores de la columna
'Income'utilizandoincome_encodery sobrescribir la columna original'Income'con el resultado.
Solución
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 2. Capítulo 6
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla