single
Challenge: Appliquer la Suréchantillonnage
Glissez pour afficher le menu
Dans ce défi, mise en pratique de la gestion du déséquilibre des classes dans un grand ensemble de données en appliquant la suréchantillonnage. Un DataFrame pandas est fourni, contenant une colonne cible avec des classes déséquilibrées. L'objectif est de créer un nouveau DataFrame dans lequel la classe minoritaire est suréchantillonnée afin que les deux classes aient le même nombre de lignes. Cette technique est utile dans les situations où il est nécessaire d'éviter que les modèles ne soient biaisés en faveur de la classe majoritaire.
Glissez pour commencer à coder
Étant donné un DataFrame pandas présentant un déséquilibre de classes dans la colonne cible, créer un nouveau DataFrame où la classe minoritaire est suréchantillonnée afin que chaque classe ait le même nombre de lignes que la classe majoritaire.
- Identifier le nombre d'occurrences de chaque classe dans la colonne cible.
- Déterminer la classe ayant le nombre maximal d'occurrences.
- Pour chaque classe, effectuer un échantillonnage avec remise afin d'atteindre ce nombre maximal.
- Fusionner les sous-ensembles équilibrés dans un nouveau DataFrame.
- Retourner le DataFrame équilibré.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion