Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Desafio: Aplicar Oversampling | Técnicas de Amostragem para Grandes Volumes de Dados
Manipulação de Grandes Volumes de Dados com Python
Seção 2. Capítulo 4
single

single

Desafio: Aplicar Oversampling

Deslize para mostrar o menu

Neste desafio, será praticado o tratamento do desbalanceamento de classes em um grande conjunto de dados por meio da sobreamostragem. É fornecido um DataFrame do pandas que contém uma coluna alvo com classes desbalanceadas. O objetivo é criar um novo DataFrame em que a classe minoritária seja sobreamostrada, de modo que ambas as classes tenham o mesmo número de linhas. Essa técnica é útil em cenários nos quais se deseja evitar que modelos fiquem tendenciosos para a classe majoritária.

Tarefa

Deslize para começar a programar

Dado um DataFrame do pandas com desequilíbrio de classes na coluna alvo, criar um novo DataFrame onde a classe minoritária seja superamostrada para que cada classe tenha o mesmo número de linhas que a classe majoritária.

  • Identificação das contagens de cada classe na coluna alvo.
  • Determinação da classe com a contagem máxima.
  • Para cada classe, amostragem com reposição até atingir a contagem máxima.
  • Concatenação dos subconjuntos balanceados em um novo DataFrame.
  • Retorno do DataFrame balanceado.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 4
single

single

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

some-alt