single
Herausforderung: Anwendung von Undersampling
Swipe um das Menü anzuzeigen
In vielen realen Datensätzen tritt häufig das Problem eines Klassenungleichgewichts auf – eine Klasse (die Mehrheitsklasse) ist deutlich häufiger vertreten als die andere (die Minderheitsklasse). Dieses Ungleichgewicht kann Modelle dazu verleiten, bevorzugt die Mehrheitsklasse vorherzusagen, wodurch die Vorhersagegenauigkeit für die Minderheitsklasse sinkt. Eine gängige Lösung ist das Undersampling, bei dem die Anzahl der Stichproben der Mehrheitsklasse zufällig reduziert wird, um sie an die Anzahl der Minderheitsklasse anzupassen. In dieser Aufgabe wird diese Technik praktisch angewendet. Sie erhalten ein DataFrame mit einer kategorialen Zielspalte mit zwei Klassen. Ziel ist es, ein neues DataFrame zurückzugeben, in dem beide Klassen in gleicher Anzahl vertreten sind, indem die Mehrheitsklasse zufällig unterabgetastet wird.
Wischen, um mit dem Codieren zu beginnen
Gegeben ist ein DataFrame mit einer kategorialen Zielspalte, die zwei Klassen enthält. Gib ein neues DataFrame zurück, in dem beide Klassen durch zufälliges Untersampling der Mehrheitsklasse die gleiche Anzahl an Stichproben aufweisen.
- Bestimme anhand der Anzahl der Stichproben pro Klasse, welche Klasse die Minderheit und welche die Mehrheit ist.
- Wähle zufällig Stichproben aus der Mehrheitsklasse aus, sodass deren Anzahl der der Minderheitsklasse entspricht.
- Füge die zufällig ausgewählten Stichproben der Mehrheitsklasse mit allen Stichproben der Minderheitsklasse zusammen.
- Mische das resultierende DataFrame und setze den Index zurück.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen