Leer Monitoring van Model- en Datadrift

Veeg om het menu te tonen

Machine learning-modellen in productie worden geconfronteerd met een dynamische omgeving waarin zowel de data als de onderliggende zakelijke context in de loop van de tijd kunnen veranderen. Twee belangrijke verschijnselen om op te letten zijn modeldrift en datadrift.

Modeldrift verwijst naar de achteruitgang van de modelprestaties wanneer de relatie tussen invoerkenmerken en de doelvariabele verandert. Er zijn twee hoofdtypen modeldrift:

Conceptdrift: de statistische relatie tussen kenmerken en de doelvariabele verandert in de tijd; dit betekent dat de onderliggende aannames van het model niet langer geldig zijn, waardoor voorspellingen minder nauwkeurig worden;
Prestatie-drift: de nauwkeurigheid of andere evaluatiemaatstaven van het model nemen af, zelfs als de relatie tussen kenmerken en doel stabiel lijkt; dit kan het gevolg zijn van veranderingen in externe factoren of veranderende bedrijfsdoelstellingen.

Datadrift daarentegen treedt op wanneer de verdeling van de invoergegevens zelf verschuift ten opzichte van de data waarop het model oorspronkelijk is getraind. Datadrift kan worden gecategoriseerd als:

Covariaatdrift: de verdeling van invoerkenmerken verandert, maar de relatie tussen kenmerken en doel blijft hetzelfde;
Prior probability drift: de verdeling van de doelvariabele verandert, zoals een verschuiving in de proportie van klassen bij classificatieproblemen;
Kenmerkverdelingsdrift: specifieke invoerkenmerken ondergaan veranderingen in hun statistische eigenschappen, zoals gemiddelde of variantie, wat invloed kan hebben op de modelvoorspellingen.

Het monitoren van deze veranderingen is essentieel: als drift niet wordt gedetecteerd, kunnen de voorspellingen van het model onbetrouwbaar worden, wat kan leiden tot slechte bedrijfsresultaten of zelfs kritieke fouten in geautomatiseerde beslissystemen. Effectieve monitoring stelt u in staat deze problemen vroegtijdig te signaleren en indien nodig hertraining, modelupdates of diepgaandere analyses te initiëren.

Definitie

Modeldrift treedt op wanneer de prestaties van een model achteruitgaan als gevolg van veranderingen in de dataverdeling.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Welke uitspraak beschrijft het beste de verschillen tussen concept drift, performance drift, covariate drift en prior probability drift?

Select the correct answer

Covariate drift is een verandering in modelnauwkeurigheid door nieuwe externe factoren, terwijl concept drift een verschuiving is in de verdeling van de doelvariabele.

Performance drift is een verandering in de verdeling van kenmerken, terwijl prior probability drift een verandering is in de relatie tussen kenmerken en doelvariabele.

Concept drift is een verandering in de relatie tussen kenmerken en doelvariabele, terwijl covariate drift een verandering is in de verdeling van kenmerken met een onveranderde relatie tussen kenmerk en doelvariabele.

Prior probability drift is een verandering in de verdeling van invoerkenmerken, terwijl performance drift een verandering is in de statistische eigenschappen van de doelvariabele.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 13

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 13