Desafío: Integrando Todo
En este desafío, aplica el flujo de trabajo completo aprendido en el curso: desde el preprocesamiento de datos hasta el entrenamiento y la evaluación del modelo.
Swipe to start coding
Se proporciona un conjunto de datos de pingüinos. El objetivo es construir una canalización de aprendizaje automático que clasifique las especies de pingüinos utilizando un modelo de K-Nearest Neighbors (KNN), gestionando adecuadamente la codificación, los valores faltantes y la optimización de parámetros.
- Codificar la variable objetivo utilizando
LabelEncoder. - Dividir el conjunto de datos en conjuntos de entrenamiento y prueba con
test_size=0.33. - Crear un ColumnTransformer (
ct) que codifique únicamente las columnas'island'y'sex'usando un codificador adecuado para datos nominales (OneHotEncoder) y deje las demás columnas sin modificar. - Definir una rejilla de parámetros (
param_grid) que incluya los siguientes valores paran_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25]. - Crear un objeto
GridSearchCVconKNeighborsClassifiercomo estimador base yparam_gridcomo sus parámetros. - Construir una canalización que consista en:
- el
ColumnTransformer(ct); - un
SimpleImputer(estrategia ='most_frequent'); - un
StandardScaler; - y el
GridSearchCVcomo paso final.
- Entrenar la canalización utilizando los datos de entrenamiento (
X_train,y_train). - Evaluar el modelo en los datos de prueba imprimiendo su
.score(X_test, y_test). - Predecir sobre el conjunto de prueba e imprimir las primeras 5 predicciones decodificadas usando
label_enc.inverse_transform(). - Finalmente, imprimir el mejor estimador encontrado por
GridSearchCV.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Desafío: Integrando Todo
Desliza para mostrar el menú
En este desafío, aplica el flujo de trabajo completo aprendido en el curso: desde el preprocesamiento de datos hasta el entrenamiento y la evaluación del modelo.
Swipe to start coding
Se proporciona un conjunto de datos de pingüinos. El objetivo es construir una canalización de aprendizaje automático que clasifique las especies de pingüinos utilizando un modelo de K-Nearest Neighbors (KNN), gestionando adecuadamente la codificación, los valores faltantes y la optimización de parámetros.
- Codificar la variable objetivo utilizando
LabelEncoder. - Dividir el conjunto de datos en conjuntos de entrenamiento y prueba con
test_size=0.33. - Crear un ColumnTransformer (
ct) que codifique únicamente las columnas'island'y'sex'usando un codificador adecuado para datos nominales (OneHotEncoder) y deje las demás columnas sin modificar. - Definir una rejilla de parámetros (
param_grid) que incluya los siguientes valores paran_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25]. - Crear un objeto
GridSearchCVconKNeighborsClassifiercomo estimador base yparam_gridcomo sus parámetros. - Construir una canalización que consista en:
- el
ColumnTransformer(ct); - un
SimpleImputer(estrategia ='most_frequent'); - un
StandardScaler; - y el
GridSearchCVcomo paso final.
- Entrenar la canalización utilizando los datos de entrenamiento (
X_train,y_train). - Evaluar el modelo en los datos de prueba imprimiendo su
.score(X_test, y_test). - Predecir sobre el conjunto de prueba e imprimir las primeras 5 predicciones decodificadas usando
label_enc.inverse_transform(). - Finalmente, imprimir el mejor estimador encontrado por
GridSearchCV.
Solución
¡Gracias por tus comentarios!
single