Lære Overvågning af Model- og Datadrift

Stryg for at vise menuen

Maskinlæringsmodeller i produktion opererer i et dynamisk miljø, hvor både data og den underliggende forretningskontekst kan ændre sig over tid. To centrale fænomener, der skal overvåges, er modeldrift og datadrift.

Modeldrift henviser til fald i modellens ydeevne, når forholdet mellem inputfunktioner og målvariabel ændrer sig. Der findes to hovedtyper af modeldrift:

Konceptdrift: det statistiske forhold mellem funktioner og målvariabel ændrer sig over tid; dette betyder, at modellens underliggende antagelser ikke længere gælder, hvilket gør forudsigelserne mindre præcise;
Ydelsesdrift: modellens nøjagtighed eller andre evalueringsmetrikker forringes, selvom forholdet mellem funktioner og mål synes stabilt; dette kan skyldes ændringer i eksterne faktorer eller udviklende forretningsmål.

Datadrift opstår derimod, når fordelingen af inputdata ændrer sig i forhold til det, modellen oprindeligt blev trænet på. Datadrift kan kategoriseres som:

Kovariatdrift: fordelingen af inputfunktioner ændrer sig, men forholdet mellem funktioner og mål forbliver det samme;
Prior sandsynlighedsdrift: fordelingen af målvariablen ændrer sig, såsom en ændring i andelen af klasser i klassifikationsproblemer;
Funktionfordelingsdrift: specifikke inputfunktioner oplever ændringer i deres statistiske egenskaber, såsom gennemsnit eller varians, hvilket kan påvirke modellens forudsigelser.

Overvågning af disse ændringer er afgørende: hvis du ikke opdager drift, kan modellens forudsigelser blive upålidelige, hvilket kan føre til dårlige forretningsresultater eller endda kritiske fejl i automatiserede beslutningssystemer. Effektiv overvågning gør det muligt at opdage disse problemer tidligt og igangsætte genoptræning, modelopdateringer eller dybere undersøgelser efter behov.

Definition

Modeldrift opstår, når en models ydeevne forringes på grund af ændringer i datadistributionen.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 13

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 1. Kapitel 13