Aprende Conjunto de datos: Prueba y Entrenamiento

Sección 1. Capítulo 3

single

Desliza para mostrar el menú

Después de leer el archivo y preprocesar los datos, hay otra etapa importante: dividir el conjunto de datos en conjuntos de prueba y de entrenamiento. ¿Para qué sirve?

El conjunto de datos se divide en conjuntos de entrenamiento y de prueba para evaluar la capacidad de generalización del modelo a nuevos datos. Al entrenar el modelo en una parte de los datos (conjunto de datos de entrenamiento) y evaluarlo en otra parte (conjunto de datos de prueba), podemos estimar el rendimiento del modelo en datos nuevos y desconocidos.

El objetivo es evaluar el rendimiento de un modelo de aprendizaje automático con datos nuevos: datos que no se han utilizado para entrenar el modelo.

Esta división se realiza mediante el método .train_test_split():

from sklearn.model_selection import train_test_split

X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(
    X, y, tamaño_prueba=0,33, estado_aleatorio=42)

Puede controlar el tamaño del conjunto de datos de entrenamiento utilizando el argumento tamaño_prueba. Para elegir el tamaño de la proporción entre el conjunto de datos de prueba y el de entrenamiento, pruebe distintas combinaciones de 80-20 (muestra de entrenamiento y de prueba, respectivamente), 70-30 y 65-35, y elija la que ofrezca el mejor resultado de rendimiento. La única regla que debe respetarse es que el tamaño del conjunto de datos de prueba debe ser menor que el de entrenamiento.

Si no hay datos suficientes para un modelo de aprendizaje automático (ajuste insuficiente, diferencias significativas entre el rendimiento de entrenamiento y el de prueba, etc.), tiene 2 opciones:

Validación cruzada**. Utilice la validación cruzada para evaluar el rendimiento de su modelo en lugar de dividir su conjunto de datos en un conjunto de entrenamiento y otro de prueba;
Aprendizaje por transferencia. Consiste en utilizar un modelo previamente entrenado en un conjunto de datos más amplio y adaptarlo al propio conjunto de datos. Esto puede ser útil cuando se trabaja con conjuntos de datos pequeños, ya que puede ayudar a aprovechar los conocimientos aprendidos de un conjunto de datos más grande para mejorar el rendimiento de su modelo.

Tarea

Desliza para comenzar a programar

Cargue el conjunto de datos iris y utilice el método train_test_split (test_size debe ser 0.2).

Solución

Cambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3

single

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla