Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Challenge: Appliquer la Suréchantillonnage | Techniques d'Échantillonnage pour les Grandes Données
Gestion de Grandes Données avec Python
Section 2. Chapitre 4
single

single

Challenge: Appliquer la Suréchantillonnage

Glissez pour afficher le menu

Dans ce défi, mise en pratique de la gestion du déséquilibre des classes dans un grand ensemble de données en appliquant la suréchantillonnage. Un DataFrame pandas est fourni, contenant une colonne cible avec des classes déséquilibrées. L'objectif est de créer un nouveau DataFrame dans lequel la classe minoritaire est suréchantillonnée afin que les deux classes aient le même nombre de lignes. Cette technique est utile dans les situations où il est nécessaire d'éviter que les modèles ne soient biaisés en faveur de la classe majoritaire.

Tâche

Glissez pour commencer à coder

Étant donné un DataFrame pandas présentant un déséquilibre de classes dans la colonne cible, créer un nouveau DataFrame où la classe minoritaire est suréchantillonnée afin que chaque classe ait le même nombre de lignes que la classe majoritaire.

  • Identifier le nombre d'occurrences de chaque classe dans la colonne cible.
  • Déterminer la classe ayant le nombre maximal d'occurrences.
  • Pour chaque classe, effectuer un échantillonnage avec remise afin d'atteindre ce nombre maximal.
  • Fusionner les sous-ensembles équilibrés dans un nouveau DataFrame.
  • Retourner le DataFrame équilibré.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

some-alt