single
Desafio: Aplicar Undersampling
Deslize para mostrar o menu
Em muitos conjuntos de dados do mundo real, é comum encontrar o problema de desbalanceamento de classes—quando uma classe (a majoritária) possui muito mais exemplos do que a outra (a minoritária). Esse desbalanceamento pode enviesar os modelos para preverem a classe majoritária, reduzindo a precisão preditiva para a classe minoritária. Uma solução comum é o subamostragem (undersampling), onde se reduz aleatoriamente o número de amostras da classe majoritária para igualar à quantidade da classe minoritária. Este desafio proporciona prática com essa técnica. Você receberá um DataFrame contendo uma coluna alvo categórica com duas classes. O objetivo é retornar um novo DataFrame onde ambas as classes estejam presentes em quantidades iguais, alcançado por meio da subamostragem aleatória da classe majoritária.
Deslize para começar a programar
Dado um DataFrame contendo uma coluna alvo categórica com duas classes, retornar um novo DataFrame onde ambas as classes possuam o mesmo número de amostras por meio da subamostragem aleatória da classe majoritária.
- Identificação da classe minoritária e da classe majoritária por meio da contagem de amostras de cada classe.
- Seleção aleatória de amostras da classe majoritária para igualar sua quantidade à da classe minoritária.
- Concatenação das amostras selecionadas da classe majoritária com todas as amostras da classe minoritária.
- Embaralhamento do DataFrame resultante e redefinição do índice.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo