single
Challenge: Toepassen van Undersampling
Veeg om het menu te tonen
In veel echte datasets kom je vaak een probleem met klasse-ongelijkheid tegen—waarbij één klasse (de meerderheid) veel vaker voorkomt dan de andere (de minderheid). Deze ongelijkheid kan modellen bevooroordelen richting het voorspellen van de meerderheid, waardoor de voorspellende nauwkeurigheid voor de minderheidsklasse afneemt. Een veelgebruikte oplossing is undersampling, waarbij je willekeurig het aantal voorbeelden in de meerderheid terugbrengt tot het aantal van de minderheid. Deze uitdaging biedt praktische oefening met deze techniek. Je krijgt een DataFrame met een categorische doeldkolom met twee klassen. Het doel is om een nieuwe DataFrame te retourneren waarin beide klassen in gelijke aantallen aanwezig zijn, bereikt door willekeurig undersampling van de meerderheid.
Veeg om te beginnen met coderen
Gegeven een DataFrame met een categorische doeldkolom met twee klassen, retourneer een nieuwe DataFrame waarin beide klassen hetzelfde aantal samples bevatten door willekeurig de meerderheidklasse te ondersamplen.
- Bepaal welke klasse de minderheid en welke de meerderheid is door het aantal samples per klasse te tellen.
- Selecteer willekeurig samples uit de meerderheidklasse zodat het aantal overeenkomt met de minderheidklasse.
- Concateneer de willekeurig geselecteerde meerderheid samples met alle minderheid samples.
- Shuffle de resulterende DataFrame en reset de index.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.