Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Familiarización con el Conjunto de Datos | Preprocesamiento de Datos con Scikit-learn
Introducción al ML con Scikit-learn

bookFamiliarización con el Conjunto de Datos

Comience el preprocesamiento explorando el conjunto de datos. A lo largo de este curso, se utilizará el conjunto de datos de pingüinos, con la tarea de predecir la especie de un pingüino.

Existen tres opciones posibles, comúnmente denominadas clases en aprendizaje automático:

Las características son: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' y 'sex'.

El conjunto de datos se almacena en el archivo penguins.csv. Puede cargarse desde un enlace utilizando la función pd.read_csv() para examinar su contenido:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Este conjunto de datos presenta varios problemas que deben abordarse:

  • Datos faltantes;
  • Variables categóricas;
  • Diferentes escalas de características.

Datos faltantes

La mayoría de los algoritmos de aprendizaje automático no pueden procesar valores faltantes directamente, por lo que estos deben ser tratados antes del entrenamiento. Los valores faltantes pueden ser eliminados o imputados (reemplazados por valores sustitutos).

En pandas, las celdas vacías se representan como NaN. Muchos modelos de aprendizaje automático generarán un error si el conjunto de datos contiene incluso un solo NaN.

Datos categóricos

El conjunto de datos incluye variables categóricas, que los modelos de aprendizaje automático no pueden procesar directamente.

Los datos categóricos deben ser codificados en formato numérico.

Diferentes escalas

Los valores de 'culmen_depth_mm' varían de 13.1 a 21.5, mientras que los valores de 'body_mass_g' varían de 2700 a 6300. Debido a esto, algunos modelos de aprendizaje automático pueden considerar la característica 'body_mass_g' mucho más importante que 'culmen_depth_mm'.

El escalado resuelve este problema. Se abordará en capítulos posteriores.

question-icon

Relaciona el problema con una forma de resolverlo.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 3.13

bookFamiliarización con el Conjunto de Datos

Desliza para mostrar el menú

Comience el preprocesamiento explorando el conjunto de datos. A lo largo de este curso, se utilizará el conjunto de datos de pingüinos, con la tarea de predecir la especie de un pingüino.

Existen tres opciones posibles, comúnmente denominadas clases en aprendizaje automático:

Las características son: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' y 'sex'.

El conjunto de datos se almacena en el archivo penguins.csv. Puede cargarse desde un enlace utilizando la función pd.read_csv() para examinar su contenido:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Este conjunto de datos presenta varios problemas que deben abordarse:

  • Datos faltantes;
  • Variables categóricas;
  • Diferentes escalas de características.

Datos faltantes

La mayoría de los algoritmos de aprendizaje automático no pueden procesar valores faltantes directamente, por lo que estos deben ser tratados antes del entrenamiento. Los valores faltantes pueden ser eliminados o imputados (reemplazados por valores sustitutos).

En pandas, las celdas vacías se representan como NaN. Muchos modelos de aprendizaje automático generarán un error si el conjunto de datos contiene incluso un solo NaN.

Datos categóricos

El conjunto de datos incluye variables categóricas, que los modelos de aprendizaje automático no pueden procesar directamente.

Los datos categóricos deben ser codificados en formato numérico.

Diferentes escalas

Los valores de 'culmen_depth_mm' varían de 13.1 a 21.5, mientras que los valores de 'body_mass_g' varían de 2700 a 6300. Debido a esto, algunos modelos de aprendizaje automático pueden considerar la característica 'body_mass_g' mucho más importante que 'culmen_depth_mm'.

El escalado resuelve este problema. Se abordará en capítulos posteriores.

question-icon

Relaciona el problema con una forma de resolverlo.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2
some-alt