Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Desafío: Aplicar Sobremuestreo | Técnicas de Muestreo para Grandes Datos
Gestión de Grandes Datos con Python
Sección 2. Capítulo 4
single

single

Desafío: Aplicar Sobremuestreo

Desliza para mostrar el menú

En este desafío, se practicará el manejo del desbalance de clases en un conjunto de datos grande mediante la aplicación de sobremuestreo. Se proporciona un DataFrame de pandas que contiene una columna objetivo con clases desbalanceadas. El objetivo es crear un nuevo DataFrame en el que la clase minoritaria esté sobremuestreada para que ambas clases tengan el mismo número de filas. Esta técnica es útil en escenarios donde se desea evitar que los modelos estén sesgados hacia la clase mayoritaria.

Tarea

Desliza para comenzar a programar

Dado un DataFrame de pandas con un desequilibrio de clases en la columna objetivo, crear un nuevo DataFrame donde la clase minoritaria se sobremuestree de modo que cada clase tenga el mismo número de filas que la clase mayoritaria.

  • Identificación de la cantidad de clases en la columna objetivo.
  • Determinación de la clase con el mayor recuento.
  • Para cada clase, muestreo con reemplazo hasta alcanzar el recuento máximo.
  • Concatenación de los subconjuntos balanceados en un nuevo DataFrame.
  • Devolución del DataFrame balanceado.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 4
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

some-alt