Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Resumen de Modelado | Modelado
Introducción al ML con Scikit-Learn

bookResumen de Modelado

¡Felicidades por llegar tan lejos! Ya sabes cómo construir un modelo, utilizarlo en un pipeline y ajustar los hiperparámetros. También aprendiste dos formas de evaluar el modelo: la división en conjunto de entrenamiento y prueba, y la puntuación de validación cruzada.

Ahora, abordemos la combinación de la evaluación del modelo y el ajuste de hiperparámetros realizada por GridSearchCV (o RandomizedSearchCV).

En general, se busca obtener la mejor puntuación de validación cruzada en el conjunto de datos, ya que la validación cruzada es más estable y menos sensible a la forma en que se divide la información en comparación con la división entrenamiento-prueba.

El objetivo es identificar los hiperparámetros que proporcionan la mejor puntuación de validación cruzada, que es precisamente para lo que está diseñado GridSearchCV. Este proceso da como resultado un modelo ajustado que funciona de manera óptima en el conjunto de entrenamiento. GridSearchCV también ofrece el atributo .best_score_, que refleja la puntuación de validación cruzada más alta alcanzada durante el ajuste de hiperparámetros.

Normalmente, el conjunto de datos se divide primero en conjuntos de entrenamiento y prueba. Luego, se ajusta el modelo en todo el conjunto de entrenamiento utilizando validación cruzada para identificar el mejor modelo. Finalmente, se evalúa el rendimiento del modelo en el conjunto de prueba, que consiste en datos completamente no vistos, para estimar su aplicabilidad en el mundo real.

Resumamos todo. Necesitamos:

  1. Preprocesar los datos;
  2. Realizar una división entre entrenamiento y prueba;
  3. Encontrar el modelo con la mejor puntuación de validación cruzada en el conjunto de entrenamiento;
  4. Evaluar el mejor modelo en el conjunto de prueba.

Antes de pasar al desafío final, es importante señalar que la validación cruzada no es el único método para ajustar modelos. A medida que los conjuntos de datos crecen, calcular las puntuaciones de validación cruzada se vuelve más lento, y la división regular entre entrenamiento y prueba ofrece mayor estabilidad debido al tamaño incrementado del conjunto de prueba.

En consecuencia, los conjuntos de datos grandes suelen dividirse en tres conjuntos: un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba. El modelo se entrena en el conjunto de entrenamiento y se evalúa en el conjunto de validación para seleccionar el modelo o los hiperparámetros que mejor funcionan.

Esta selección utiliza las puntuaciones del conjunto de validación en lugar de las puntuaciones de validación cruzada. Finalmente, el modelo elegido se evalúa en el conjunto de prueba, que consiste en datos completamente no vistos, para verificar su rendimiento.

Nuestro conjunto de datos de pingüinos no es grande. De hecho, es muy pequeño (342 instancias), por lo que utilizaremos el enfoque de puntuación de validación cruzada en el próximo capítulo.

question mark

¿Por qué la validación cruzada es especialmente valiosa para el ajuste de hiperparámetros en conjuntos de datos pequeños, en comparación con conjuntos de datos grandes donde se podrían preferir divisiones de entrenamiento y prueba?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 9

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 3.13

bookResumen de Modelado

Desliza para mostrar el menú

¡Felicidades por llegar tan lejos! Ya sabes cómo construir un modelo, utilizarlo en un pipeline y ajustar los hiperparámetros. También aprendiste dos formas de evaluar el modelo: la división en conjunto de entrenamiento y prueba, y la puntuación de validación cruzada.

Ahora, abordemos la combinación de la evaluación del modelo y el ajuste de hiperparámetros realizada por GridSearchCV (o RandomizedSearchCV).

En general, se busca obtener la mejor puntuación de validación cruzada en el conjunto de datos, ya que la validación cruzada es más estable y menos sensible a la forma en que se divide la información en comparación con la división entrenamiento-prueba.

El objetivo es identificar los hiperparámetros que proporcionan la mejor puntuación de validación cruzada, que es precisamente para lo que está diseñado GridSearchCV. Este proceso da como resultado un modelo ajustado que funciona de manera óptima en el conjunto de entrenamiento. GridSearchCV también ofrece el atributo .best_score_, que refleja la puntuación de validación cruzada más alta alcanzada durante el ajuste de hiperparámetros.

Normalmente, el conjunto de datos se divide primero en conjuntos de entrenamiento y prueba. Luego, se ajusta el modelo en todo el conjunto de entrenamiento utilizando validación cruzada para identificar el mejor modelo. Finalmente, se evalúa el rendimiento del modelo en el conjunto de prueba, que consiste en datos completamente no vistos, para estimar su aplicabilidad en el mundo real.

Resumamos todo. Necesitamos:

  1. Preprocesar los datos;
  2. Realizar una división entre entrenamiento y prueba;
  3. Encontrar el modelo con la mejor puntuación de validación cruzada en el conjunto de entrenamiento;
  4. Evaluar el mejor modelo en el conjunto de prueba.

Antes de pasar al desafío final, es importante señalar que la validación cruzada no es el único método para ajustar modelos. A medida que los conjuntos de datos crecen, calcular las puntuaciones de validación cruzada se vuelve más lento, y la división regular entre entrenamiento y prueba ofrece mayor estabilidad debido al tamaño incrementado del conjunto de prueba.

En consecuencia, los conjuntos de datos grandes suelen dividirse en tres conjuntos: un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba. El modelo se entrena en el conjunto de entrenamiento y se evalúa en el conjunto de validación para seleccionar el modelo o los hiperparámetros que mejor funcionan.

Esta selección utiliza las puntuaciones del conjunto de validación en lugar de las puntuaciones de validación cruzada. Finalmente, el modelo elegido se evalúa en el conjunto de prueba, que consiste en datos completamente no vistos, para verificar su rendimiento.

Nuestro conjunto de datos de pingüinos no es grande. De hecho, es muy pequeño (342 instancias), por lo que utilizaremos el enfoque de puntuación de validación cruzada en el próximo capítulo.

question mark

¿Por qué la validación cruzada es especialmente valiosa para el ajuste de hiperparámetros en conjuntos de datos pequeños, en comparación con conjuntos de datos grandes donde se podrían preferir divisiones de entrenamiento y prueba?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 4. Capítulo 9
some-alt