Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Overvågning af Model- og Datadrift | Sektion
Practice
Projects
Quizzes & Challenges
Quizzer
Challenges
/
Mlops Grundlæggende

bookOvervågning af Model- og Datadrift

Maskinlæringsmodeller i produktion opererer i et dynamisk miljø, hvor både data og den underliggende forretningskontekst kan ændre sig over tid. To centrale fænomener, der skal overvåges, er modeldrift og datadrift.

Modeldrift henviser til fald i modellens ydeevne, når forholdet mellem inputfunktioner og målvariabel ændrer sig. Der findes to hovedtyper af modeldrift:

  • Konceptdrift: det statistiske forhold mellem funktioner og målvariabel ændrer sig over tid; dette betyder, at modellens underliggende antagelser ikke længere gælder, hvilket gør forudsigelserne mindre præcise;
  • Ydelsesdrift: modellens nøjagtighed eller andre evalueringsmetrikker forringes, selvom forholdet mellem funktioner og mål synes stabilt; dette kan skyldes ændringer i eksterne faktorer eller udviklende forretningsmål.

Datadrift opstår derimod, når fordelingen af inputdata ændrer sig i forhold til det, modellen oprindeligt blev trænet på. Datadrift kan kategoriseres som:

  • Kovariatdrift: fordelingen af inputfunktioner ændrer sig, men forholdet mellem funktioner og mål forbliver det samme;
  • Prior sandsynlighedsdrift: fordelingen af målvariablen ændrer sig, såsom en ændring i andelen af klasser i klassifikationsproblemer;
  • Funktionfordelingsdrift: specifikke inputfunktioner oplever ændringer i deres statistiske egenskaber, såsom gennemsnit eller varians, hvilket kan påvirke modellens forudsigelser.

Overvågning af disse ændringer er afgørende: hvis du ikke opdager drift, kan modellens forudsigelser blive upålidelige, hvilket kan føre til dårlige forretningsresultater eller endda kritiske fejl i automatiserede beslutningssystemer. Effektiv overvågning gør det muligt at opdage disse problemer tidligt og igangsætte genoptræning, modelopdateringer eller dybere undersøgelser efter behov.

Note
Definition

Modeldrift opstår, når en models ydeevne forringes på grund af ændringer i datadistributionen.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Hvilken erklæring beskriver bedst forskellene mellem konceptdrift, performancedrift, kovariatdrift og prior sandsynlighedsdrift?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 13

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

bookOvervågning af Model- og Datadrift

Stryg for at vise menuen

Maskinlæringsmodeller i produktion opererer i et dynamisk miljø, hvor både data og den underliggende forretningskontekst kan ændre sig over tid. To centrale fænomener, der skal overvåges, er modeldrift og datadrift.

Modeldrift henviser til fald i modellens ydeevne, når forholdet mellem inputfunktioner og målvariabel ændrer sig. Der findes to hovedtyper af modeldrift:

  • Konceptdrift: det statistiske forhold mellem funktioner og målvariabel ændrer sig over tid; dette betyder, at modellens underliggende antagelser ikke længere gælder, hvilket gør forudsigelserne mindre præcise;
  • Ydelsesdrift: modellens nøjagtighed eller andre evalueringsmetrikker forringes, selvom forholdet mellem funktioner og mål synes stabilt; dette kan skyldes ændringer i eksterne faktorer eller udviklende forretningsmål.

Datadrift opstår derimod, når fordelingen af inputdata ændrer sig i forhold til det, modellen oprindeligt blev trænet på. Datadrift kan kategoriseres som:

  • Kovariatdrift: fordelingen af inputfunktioner ændrer sig, men forholdet mellem funktioner og mål forbliver det samme;
  • Prior sandsynlighedsdrift: fordelingen af målvariablen ændrer sig, såsom en ændring i andelen af klasser i klassifikationsproblemer;
  • Funktionfordelingsdrift: specifikke inputfunktioner oplever ændringer i deres statistiske egenskaber, såsom gennemsnit eller varians, hvilket kan påvirke modellens forudsigelser.

Overvågning af disse ændringer er afgørende: hvis du ikke opdager drift, kan modellens forudsigelser blive upålidelige, hvilket kan føre til dårlige forretningsresultater eller endda kritiske fejl i automatiserede beslutningssystemer. Effektiv overvågning gør det muligt at opdage disse problemer tidligt og igangsætte genoptræning, modelopdateringer eller dybere undersøgelser efter behov.

Note
Definition

Modeldrift opstår, når en models ydeevne forringes på grund af ændringer i datadistributionen.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Hvilken erklæring beskriver bedst forskellene mellem konceptdrift, performancedrift, kovariatdrift og prior sandsynlighedsdrift?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 13
some-alt