Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Getting Familiar with the Dataset | Preprocesamiento de Datos con Scikit-learn
Introducción al Aprendizaje Automático con Python

Getting Familiar with the Dataset

Desliza para mostrar el menú

Comenzar el preprocesamiento explorando el conjunto de datos. A lo largo de este curso, se utilizará el conjunto de datos de pingüinos, con la tarea de predecir la especie de un pingüino.

qué pingüino

Existen tres opciones posibles, a menudo denominadas clases en aprendizaje automático:

Pingüinos

Las características son: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' y 'sex'.

El conjunto de datos está almacenado en el archivo penguins.csv. Se puede cargar desde un enlace con la función pd.read_csv() para examinar su contenido:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))

Este conjunto de datos presenta varios problemas que deben abordarse:

  • Datos faltantes;
  • Variables categóricas;
  • Diferentes escalas de características.

Datos faltantes

La mayoría de los algoritmos de aprendizaje automático no pueden procesar valores faltantes directamente, por lo que deben ser tratados antes del entrenamiento. Los valores faltantes pueden ser eliminados o imputados (reemplazados por valores sustitutos).

En pandas, las celdas vacías se representan como NaN. Muchos modelos de aprendizaje automático generarán un error si el conjunto de datos contiene incluso un solo NaN.

Valores faltantes

Datos categóricos

El conjunto de datos incluye variables categóricas, que los modelos de aprendizaje automático no pueden procesar directamente.

Columnas categóricas

Los datos categóricos deben ser codificados en formato numérico.

Diferentes escalas

Los valores de 'culmen_depth_mm' varían de 13.1 a 21.5, mientras que los valores de 'body_mass_g' varían de 2700 a 6300. Debido a esto, algunos modelos de aprendizaje automático pueden considerar la característica 'body_mass_g' mucho más importante que 'culmen_depth_mm'.

Escala diferente

El escalado resuelve este problema. Se abordará en capítulos posteriores.

question-icon

Relaciona el problema con una forma de resolverlo.

Missing values –
Categorical data –

Different Scales –

Haz clic o arrastra y suelta elementos y completa los espacios

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 2. Capítulo 2
some-alt