Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Challenge: Anvend Undersampling | Udtagningsmetoder til Store Data
Håndtering af Store Datamængder med Python
Sektion 2. Kapitel 6
single

single

Challenge: Anvend Undersampling

Stryg for at vise menuen

I mange virkelige datasæt støder du ofte på et problem med klasseubalance—hvor én klasse (majoriteten) er langt større end den anden (minoriteten). Denne ubalance kan forårsage, at modeller favoriserer forudsigelser af majoritetsklassen, hvilket reducerer den prædiktive nøjagtighed for minoritetsklassen. En almindelig løsning er undersampling, hvor antallet af eksempler i majoritetsklassen tilfældigt reduceres, så det matcher antallet i minoritetsklassen. Denne udfordring giver praktisk erfaring med denne teknik. Du får et DataFrame, der indeholder en kategorisk målkolonne med to klasser. Målet er at returnere et nyt DataFrame, hvor begge klasser er repræsenteret i lige stort antal, opnået ved tilfældig undersampling af majoritetsklassen.

Opgave

Swipe to start coding

Givet en DataFrame med en kategorisk målkolonne med to klasser, returnér en ny DataFrame, hvor begge klasser har samme antal prøver ved tilfældigt at undersample majoritetsklassen.

  • Bestem hvilken klasse der er minoritet, og hvilken der er majoritet, ved at tælle antallet af prøver for hver klasse.
  • Udvælg tilfældigt prøver fra majoritetsklassen, så dens antal matcher minoritetsklassens.
  • Sammenkæd de tilfældigt udvalgte majoritetsprøver med alle minoritetsprøver.
  • Bland den resulterende DataFrame og nulstil indekset.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 6
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

some-alt