Leer Ondersamplingstechnieken | Bemonsteringstechnieken voor Grote Data

Veeg om het menu te tonen

Bij het werken met grote datasets die uit balans zijn, kom je vaak situaties tegen waarin één klasse (de meerderheidsklasse) veel vaker voorkomt dan een andere (de minderheidsklasse). Deze onbalans kan het voor modellen moeilijk maken om zinvolle patronen over de minderheidsklasse te leren, wat leidt tot een slechte voorspellende prestatie. Undersampling is een techniek die wordt gebruikt om dit probleem aan te pakken door het aantal voorbeelden in de meerderheidsklasse te verminderen, zodat de dataset meer in balans komt.

Undersampling is aan te raden wanneer je dataset te groot is om praktisch te verwerken of wanneer de meerderheidsklasse zo dominant is dat het model de minderheidsklasse negeert. Deze techniek is vooral geschikt als je een zeer grote dataset hebt en het verlies van enkele voorbeelden uit de meerderheidsklasse geen belangrijke informatie kost. Het is minder geschikt wanneer de dataset al klein is of wanneer de meerderheidsklasse zeldzame maar belangrijke voorbeelden bevat.


              123456789101112131415161718192021222324
            
import pandas as pd

# Create a sample imbalanced dataset
data = {
    "feature": range(20),
    "class": ["majority"] * 16 + ["minority"] * 4
}
df = pd.DataFrame(data)

# Count the number of samples in each class
class_counts = df["class"].value_counts()
minority_count = class_counts["minority"]

# Randomly sample from the majority class to match the minority class count
majority_sample = df[df["class"] == "majority"].sample(n=minority_count, random_state=42)
minority_sample = df[df["class"] == "minority"]

# Combine samples to get a balanced dataset
balanced_df = pd.concat([majority_sample, minority_sample])

print("Original class distribution:")
print(df["class"].value_counts())
print("\nBalanced class distribution after undersampling:")
print(balanced_df["class"].value_counts())

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 5

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 2. Hoofdstuk 5