Familiarización con el Conjunto de Datos
Comience el preprocesamiento explorando el conjunto de datos. A lo largo de este curso, se utilizará el conjunto de datos de pingüinos, con la tarea de predecir la especie de un pingüino.
Existen tres opciones posibles, comúnmente denominadas clases en aprendizaje automático:
Las características son: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
y 'sex'
.
El conjunto de datos se almacena en el archivo penguins.csv
. Puede cargarse desde un enlace utilizando la función pd.read_csv()
para examinar su contenido:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Este conjunto de datos presenta varios problemas que deben abordarse:
- Datos faltantes;
- Variables categóricas;
- Diferentes escalas de características.
Datos faltantes
La mayoría de los algoritmos de aprendizaje automático no pueden procesar valores faltantes directamente, por lo que estos deben ser tratados antes del entrenamiento. Los valores faltantes pueden ser eliminados o imputados (reemplazados por valores sustitutos).
En pandas
, las celdas vacías se representan como NaN
. Muchos modelos de aprendizaje automático generarán un error si el conjunto de datos contiene incluso un solo NaN
.
Datos categóricos
El conjunto de datos incluye variables categóricas, que los modelos de aprendizaje automático no pueden procesar directamente.
Los datos categóricos deben ser codificados en formato numérico.
Diferentes escalas
Los valores de 'culmen_depth_mm'
varían de 13.1 a 21.5, mientras que los valores de 'body_mass_g'
varían de 2700 a 6300. Debido a esto, algunos modelos de aprendizaje automático pueden considerar la característica 'body_mass_g'
mucho más importante que 'culmen_depth_mm'
.
El escalado resuelve este problema. Se abordará en capítulos posteriores.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 3.13
Familiarización con el Conjunto de Datos
Desliza para mostrar el menú
Comience el preprocesamiento explorando el conjunto de datos. A lo largo de este curso, se utilizará el conjunto de datos de pingüinos, con la tarea de predecir la especie de un pingüino.
Existen tres opciones posibles, comúnmente denominadas clases en aprendizaje automático:
Las características son: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
y 'sex'
.
El conjunto de datos se almacena en el archivo penguins.csv
. Puede cargarse desde un enlace utilizando la función pd.read_csv()
para examinar su contenido:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Este conjunto de datos presenta varios problemas que deben abordarse:
- Datos faltantes;
- Variables categóricas;
- Diferentes escalas de características.
Datos faltantes
La mayoría de los algoritmos de aprendizaje automático no pueden procesar valores faltantes directamente, por lo que estos deben ser tratados antes del entrenamiento. Los valores faltantes pueden ser eliminados o imputados (reemplazados por valores sustitutos).
En pandas
, las celdas vacías se representan como NaN
. Muchos modelos de aprendizaje automático generarán un error si el conjunto de datos contiene incluso un solo NaN
.
Datos categóricos
El conjunto de datos incluye variables categóricas, que los modelos de aprendizaje automático no pueden procesar directamente.
Los datos categóricos deben ser codificados en formato numérico.
Diferentes escalas
Los valores de 'culmen_depth_mm'
varían de 13.1 a 21.5, mientras que los valores de 'body_mass_g'
varían de 2700 a 6300. Debido a esto, algunos modelos de aprendizaje automático pueden considerar la característica 'body_mass_g'
mucho más importante que 'culmen_depth_mm'
.
El escalado resuelve este problema. Se abordará en capítulos posteriores.
¡Gracias por tus comentarios!