Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Monitoring van Model- en Datadrift | Sectie
Mlops Fundamentals

bookMonitoring van Model- en Datadrift

Machine learning-modellen in productie worden geconfronteerd met een dynamische omgeving waarin zowel de data als de onderliggende zakelijke context in de loop van de tijd kunnen veranderen. Twee belangrijke verschijnselen om op te letten zijn modeldrift en datadrift.

Modeldrift verwijst naar de achteruitgang van de modelprestaties wanneer de relatie tussen invoerkenmerken en de doelvariabele verandert. Er zijn twee hoofdtypen modeldrift:

  • Conceptdrift: de statistische relatie tussen kenmerken en de doelvariabele verandert in de tijd; dit betekent dat de onderliggende aannames van het model niet langer geldig zijn, waardoor voorspellingen minder nauwkeurig worden;
  • Prestatie-drift: de nauwkeurigheid of andere evaluatiemaatstaven van het model nemen af, zelfs als de relatie tussen kenmerken en doel stabiel lijkt; dit kan het gevolg zijn van veranderingen in externe factoren of veranderende bedrijfsdoelstellingen.

Datadrift daarentegen treedt op wanneer de verdeling van de invoergegevens zelf verschuift ten opzichte van de data waarop het model oorspronkelijk is getraind. Datadrift kan worden gecategoriseerd als:

  • Covariaatdrift: de verdeling van invoerkenmerken verandert, maar de relatie tussen kenmerken en doel blijft hetzelfde;
  • Prior probability drift: de verdeling van de doelvariabele verandert, zoals een verschuiving in de proportie van klassen bij classificatieproblemen;
  • Kenmerkverdelingsdrift: specifieke invoerkenmerken ondergaan veranderingen in hun statistische eigenschappen, zoals gemiddelde of variantie, wat invloed kan hebben op de modelvoorspellingen.

Het monitoren van deze veranderingen is essentieel: als drift niet wordt gedetecteerd, kunnen de voorspellingen van het model onbetrouwbaar worden, wat kan leiden tot slechte bedrijfsresultaten of zelfs kritieke fouten in geautomatiseerde beslissystemen. Effectieve monitoring stelt u in staat deze problemen vroegtijdig te signaleren en indien nodig hertraining, modelupdates of diepgaandere analyses te initiëren.

Note
Definitie

Modeldrift treedt op wanneer de prestaties van een model achteruitgaan als gevolg van veranderingen in de dataverdeling.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Welke uitspraak beschrijft het beste de verschillen tussen concept drift, performance drift, covariate drift en prior probability drift?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 13

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

bookMonitoring van Model- en Datadrift

Veeg om het menu te tonen

Machine learning-modellen in productie worden geconfronteerd met een dynamische omgeving waarin zowel de data als de onderliggende zakelijke context in de loop van de tijd kunnen veranderen. Twee belangrijke verschijnselen om op te letten zijn modeldrift en datadrift.

Modeldrift verwijst naar de achteruitgang van de modelprestaties wanneer de relatie tussen invoerkenmerken en de doelvariabele verandert. Er zijn twee hoofdtypen modeldrift:

  • Conceptdrift: de statistische relatie tussen kenmerken en de doelvariabele verandert in de tijd; dit betekent dat de onderliggende aannames van het model niet langer geldig zijn, waardoor voorspellingen minder nauwkeurig worden;
  • Prestatie-drift: de nauwkeurigheid of andere evaluatiemaatstaven van het model nemen af, zelfs als de relatie tussen kenmerken en doel stabiel lijkt; dit kan het gevolg zijn van veranderingen in externe factoren of veranderende bedrijfsdoelstellingen.

Datadrift daarentegen treedt op wanneer de verdeling van de invoergegevens zelf verschuift ten opzichte van de data waarop het model oorspronkelijk is getraind. Datadrift kan worden gecategoriseerd als:

  • Covariaatdrift: de verdeling van invoerkenmerken verandert, maar de relatie tussen kenmerken en doel blijft hetzelfde;
  • Prior probability drift: de verdeling van de doelvariabele verandert, zoals een verschuiving in de proportie van klassen bij classificatieproblemen;
  • Kenmerkverdelingsdrift: specifieke invoerkenmerken ondergaan veranderingen in hun statistische eigenschappen, zoals gemiddelde of variantie, wat invloed kan hebben op de modelvoorspellingen.

Het monitoren van deze veranderingen is essentieel: als drift niet wordt gedetecteerd, kunnen de voorspellingen van het model onbetrouwbaar worden, wat kan leiden tot slechte bedrijfsresultaten of zelfs kritieke fouten in geautomatiseerde beslissystemen. Effectieve monitoring stelt u in staat deze problemen vroegtijdig te signaleren en indien nodig hertraining, modelupdates of diepgaandere analyses te initiëren.

Note
Definitie

Modeldrift treedt op wanneer de prestaties van een model achteruitgaan als gevolg van veranderingen in de dataverdeling.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Welke uitspraak beschrijft het beste de verschillen tussen concept drift, performance drift, covariate drift en prior probability drift?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 13
some-alt