Desliza para mostrar el menú

Comenzar el preprocesamiento explorando el conjunto de datos. A lo largo de este curso, se utilizará el conjunto de datos de pingüinos, con la tarea de predecir la especie de un pingüino.

Existen tres opciones posibles, a menudo denominadas clases en aprendizaje automático:

Las características son: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' y 'sex'.

El conjunto de datos está almacenado en el archivo penguins.csv. Se puede cargar desde un enlace con la función pd.read_csv() para examinar su contenido:


              12345
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Este conjunto de datos presenta varios problemas que deben abordarse:

Datos faltantes;
Variables categóricas;
Diferentes escalas de características.

Datos faltantes

La mayoría de los algoritmos de aprendizaje automático no pueden procesar valores faltantes directamente, por lo que deben ser tratados antes del entrenamiento. Los valores faltantes pueden ser eliminados o imputados (reemplazados por valores sustitutos).

En pandas, las celdas vacías se representan como NaN. Muchos modelos de aprendizaje automático generarán un error si el conjunto de datos contiene incluso un solo NaN.

Datos categóricos

El conjunto de datos incluye variables categóricas, que los modelos de aprendizaje automático no pueden procesar directamente.

Los datos categóricos deben ser codificados en formato numérico.

Diferentes escalas

Los valores de 'culmen_depth_mm' varían de 13.1 a 21.5, mientras que los valores de 'body_mass_g' varían de 2700 a 6300. Debido a esto, algunos modelos de aprendizaje automático pueden considerar la característica 'body_mass_g' mucho más importante que 'culmen_depth_mm'.

El escalado resuelve este problema. Se abordará en capítulos posteriores.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Getting Familiar with the Dataset