Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Desafío: Integrando Todo | Modelado
Introducción al ML con Scikit-learn

bookDesafío: Integrando Todo

En este desafío, aplica el flujo de trabajo completo aprendido en el curso: desde el preprocesamiento de datos hasta el entrenamiento y la evaluación del modelo.

Tarea

Swipe to start coding

Se proporciona un conjunto de datos de pingüinos. El objetivo es construir una canalización de aprendizaje automático que clasifique las especies de pingüinos utilizando un modelo de K-Nearest Neighbors (KNN), gestionando adecuadamente la codificación, los valores faltantes y la optimización de parámetros.

  1. Codificar la variable objetivo utilizando LabelEncoder.
  2. Dividir el conjunto de datos en conjuntos de entrenamiento y prueba con test_size=0.33.
  3. Crear un ColumnTransformer (ct) que codifique únicamente las columnas 'island' y 'sex' usando un codificador adecuado para datos nominales (OneHotEncoder) y deje las demás columnas sin modificar.
  4. Definir una rejilla de parámetros (param_grid) que incluya los siguientes valores para n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25].
  5. Crear un objeto GridSearchCV con KNeighborsClassifier como estimador base y param_grid como sus parámetros.
  6. Construir una canalización que consista en:
  • el ColumnTransformer (ct);
  • un SimpleImputer (estrategia = 'most_frequent');
  • un StandardScaler;
  • y el GridSearchCV como paso final.
  1. Entrenar la canalización utilizando los datos de entrenamiento (X_train, y_train).
  2. Evaluar el modelo en los datos de prueba imprimiendo su .score(X_test, y_test).
  3. Predecir sobre el conjunto de prueba e imprimir las primeras 5 predicciones decodificadas usando label_enc.inverse_transform().
  4. Finalmente, imprimir el mejor estimador encontrado por GridSearchCV.

Solución

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 10
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the steps involved in the full workflow shown here?

What is the purpose of each tool or method depicted in the images?

Can you provide a summary of how these components work together in a machine learning project?

close

Awesome!

Completion rate improved to 3.13

bookDesafío: Integrando Todo

Desliza para mostrar el menú

En este desafío, aplica el flujo de trabajo completo aprendido en el curso: desde el preprocesamiento de datos hasta el entrenamiento y la evaluación del modelo.

Tarea

Swipe to start coding

Se proporciona un conjunto de datos de pingüinos. El objetivo es construir una canalización de aprendizaje automático que clasifique las especies de pingüinos utilizando un modelo de K-Nearest Neighbors (KNN), gestionando adecuadamente la codificación, los valores faltantes y la optimización de parámetros.

  1. Codificar la variable objetivo utilizando LabelEncoder.
  2. Dividir el conjunto de datos en conjuntos de entrenamiento y prueba con test_size=0.33.
  3. Crear un ColumnTransformer (ct) que codifique únicamente las columnas 'island' y 'sex' usando un codificador adecuado para datos nominales (OneHotEncoder) y deje las demás columnas sin modificar.
  4. Definir una rejilla de parámetros (param_grid) que incluya los siguientes valores para n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25].
  5. Crear un objeto GridSearchCV con KNeighborsClassifier como estimador base y param_grid como sus parámetros.
  6. Construir una canalización que consista en:
  • el ColumnTransformer (ct);
  • un SimpleImputer (estrategia = 'most_frequent');
  • un StandardScaler;
  • y el GridSearchCV como paso final.
  1. Entrenar la canalización utilizando los datos de entrenamiento (X_train, y_train).
  2. Evaluar el modelo en los datos de prueba imprimiendo su .score(X_test, y_test).
  3. Predecir sobre el conjunto de prueba e imprimir las primeras 5 predicciones decodificadas usando label_enc.inverse_transform().
  4. Finalmente, imprimir el mejor estimador encontrado por GridSearchCV.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 10
single

single

some-alt