Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Modeling Summary | Modelado
Introducción al Aprendizaje Automático con Python

Modeling Summary

Desliza para mostrar el menú

Ahora sabes cómo construir un modelo, utilizar pipelines y ajustar hiperparámetros. También aprendiste dos métodos de evaluación: división de entrenamiento-prueba y validación cruzada. El siguiente paso es combinar la evaluación y el ajuste utilizando GridSearchCV o RandomizedSearchCV.

Note
Nota

Dado que nuestro conjunto de datos es muy pequeño, utilizaremos GridSearchCV, pero todo lo mencionado a continuación también aplica para RandomizedSearchCV.

Como la validación cruzada es más estable que una sola división de entrenamiento-prueba, el objetivo es lograr la mayor puntuación de validación cruzada. GridSearchCV busca entre los hiperparámetros y encuentra aquellos que maximizan esta puntuación. La mejor puntuación se almacena en .best_score_.

Note
Nota

Los hiperparámetros que funcionan mejor para un conjunto de datos pueden no generalizarse cuando llegan nuevos datos. Por lo tanto, .best_score_ puede ser mayor que el rendimiento del modelo en datos completamente no vistos.

Flujo de trabajo común: dividir en conjuntos de entrenamiento y prueba; ejecutar validación cruzada en el conjunto de entrenamiento para ajustar el modelo; luego evaluar el modelo optimizado en el conjunto de prueba para medir el rendimiento en el mundo real.

División entrenamiento-prueba

Para resumir:

  1. Preprocesamiento de los datos;
  2. División en conjuntos de entrenamiento y prueba;
  3. Uso de validación cruzada en el conjunto de entrenamiento para encontrar la mejor configuración;
  4. Evaluación en el conjunto de prueba.
Note
Estudiar más

El tercer paso generalmente implica probar múltiples algoritmos y ajustar sus hiperparámetros para identificar la mejor opción. Por simplicidad, en este curso solo se utilizó un único algoritmo.

La validación cruzada no siempre es la mejor opción. Para conjuntos de datos grandes, calcular las puntuaciones de validación cruzada resulta costoso, mientras que una división entrenamiento-prueba se vuelve más estable gracias al gran tamaño del conjunto de prueba.

Los conjuntos de datos grandes suelen dividirse en conjuntos de entrenamiento, validación y prueba. Los hiperparámetros se seleccionan en función del rendimiento en el conjunto de validación. Finalmente, el modelo seleccionado se evalúa en el conjunto de prueba para verificar qué tan bien generaliza.

División en entrenamiento, prueba y validación

El conjunto de datos de pingüinos es pequeño, con solo 342 instancias. Debido a este tamaño limitado, en el próximo capítulo se utilizará la puntuación de validación cruzada para la evaluación.

question mark

¿Por qué la validación cruzada es especialmente valiosa para el ajuste de hiperparámetros en conjuntos de datos pequeños, en comparación con conjuntos de datos grandes donde se podrían preferir divisiones de entrenamiento y prueba?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 9

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 4. Capítulo 9
some-alt