single
Challenge: Tillämpa Undersampling
Svep för att visa menyn
I många verkliga datamängder stöter du ofta på problemet med obalanserade klasser—där en klass (majoriteten) är betydligt större än den andra (minoriteten). Denna obalans kan leda till att modeller favoriserar majoritetsklassen, vilket minskar träffsäkerheten för minoritetsklassen. En vanlig lösning är undersampling, där du slumpmässigt minskar antalet observationer i majoritetsklassen så att det matchar antalet i minoritetsklassen. Denna utmaning ger dig praktisk erfarenhet av denna teknik. Du får en DataFrame som innehåller en kategorisk målkolumn med två klasser. Målet är att returnera en ny DataFrame där båda klasserna finns representerade i lika stort antal, vilket uppnås genom att slumpmässigt undersampla majoritetsklassen.
Svep för att börja koda
Givet en DataFrame med en kategorisk målkolumn med två klasser, returnera en ny DataFrame där båda klasserna har samma antal observationer genom att slumpmässigt undersampla majoritetsklassen.
- Identifiera vilken klass som är minoritet och vilken som är majoritet genom att räkna antalet observationer för varje klass.
- Välj slumpmässigt ut observationer från majoritetsklassen så att dess antal matchar minoritetsklassen.
- Slå samman de slumpmässigt valda majoritetsobservationerna med samtliga minoritetsobservationer.
- Blanda den resulterande DataFrame och återställ indexet.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal