single
Challenge: Appliquer la Sous-échantillonnage
Glissez pour afficher le menu
Dans de nombreux jeux de données réels, il est fréquent de rencontrer un problème de déséquilibre de classes—lorsqu'une classe (la majorité) est largement plus représentée que l'autre (la minorité). Ce déséquilibre peut biaiser les modèles en faveur de la classe majoritaire, réduisant ainsi la précision prédictive pour la classe minoritaire. Une solution courante est l'undersampling, qui consiste à réduire aléatoirement le nombre d'échantillons de la classe majoritaire afin d'égaler le nombre de la classe minoritaire. Ce défi vous permettra de mettre en pratique cette technique. Vous recevrez un DataFrame contenant une colonne cible catégorielle avec deux classes. L'objectif est de retourner un nouveau DataFrame où les deux classes sont présentes en nombre égal, obtenu en sous-échantillonnant aléatoirement la classe majoritaire.
Glissez pour commencer à coder
Étant donné un DataFrame contenant une colonne cible catégorielle avec deux classes, retourner un nouveau DataFrame où les deux classes possèdent le même nombre d'échantillons en sous-échantillonnant aléatoirement la classe majoritaire.
- Identifier la classe minoritaire et la classe majoritaire en comptant le nombre d'échantillons pour chaque classe.
- Sélectionner aléatoirement des échantillons de la classe majoritaire afin que son effectif corresponde à celui de la classe minoritaire.
- Concaténer les échantillons sélectionnés de la classe majoritaire avec tous les échantillons de la classe minoritaire.
- Mélanger le DataFrame obtenu et réinitialiser l'index.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion