Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Ondersamplingstechnieken | Bemonsteringstechnieken voor Grote Data
Grote Data Verwerking met Python

Ondersamplingstechnieken

Veeg om het menu te tonen

Bij het werken met grote datasets die uit balans zijn, kom je vaak situaties tegen waarin één klasse (de meerderheidsklasse) veel vaker voorkomt dan een andere (de minderheidsklasse). Deze onbalans kan het voor modellen moeilijk maken om zinvolle patronen over de minderheidsklasse te leren, wat leidt tot een slechte voorspellende prestatie. Undersampling is een techniek die wordt gebruikt om dit probleem aan te pakken door het aantal voorbeelden in de meerderheidsklasse te verminderen, zodat de dataset meer in balans komt.

Undersampling is aan te raden wanneer je dataset te groot is om praktisch te verwerken of wanneer de meerderheidsklasse zo dominant is dat het model de minderheidsklasse negeert. Deze techniek is vooral geschikt als je een zeer grote dataset hebt en het verlies van enkele voorbeelden uit de meerderheidsklasse geen belangrijke informatie kost. Het is minder geschikt wanneer de dataset al klein is of wanneer de meerderheidsklasse zeldzame maar belangrijke voorbeelden bevat.

123456789101112131415161718192021222324
import pandas as pd # Create a sample imbalanced dataset data = { "feature": range(20), "class": ["majority"] * 16 + ["minority"] * 4 } df = pd.DataFrame(data) # Count the number of samples in each class class_counts = df["class"].value_counts() minority_count = class_counts["minority"] # Randomly sample from the majority class to match the minority class count majority_sample = df[df["class"] == "majority"].sample(n=minority_count, random_state=42) minority_sample = df[df["class"] == "minority"] # Combine samples to get a balanced dataset balanced_df = pd.concat([majority_sample, minority_sample]) print("Original class distribution:") print(df["class"].value_counts()) print("\nBalanced class distribution after undersampling:") print(balanced_df["class"].value_counts())
question mark

Wat is een mogelijk risico van undersampling?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 2. Hoofdstuk 5
some-alt