Lære Overvåking av Modell- og Datadrift

Sveip for å vise menyen

Maskinlæringsmodeller i produksjon opererer i et dynamisk miljø der både data og den underliggende forretningskonteksten kan endre seg over tid. To sentrale fenomener å overvåke er modell-drift og data-drift.

Modell-drift refererer til nedgang i modellens ytelse når forholdet mellom inndatafunksjoner og målvariabelen endres. Det finnes to hovedtyper av modell-drift:

Konseptdrift: det statistiske forholdet mellom funksjoner og målvariabel endres over tid; dette betyr at modellens underliggende antakelser ikke lenger gjelder, og prediksjonene blir mindre nøyaktige;
Ytelsesdrift: modellens nøyaktighet eller andre evalueringsmetrikker forverres, selv om forholdet mellom funksjoner og mål virker stabilt; dette kan skyldes endringer i eksterne faktorer eller utviklende forretningsmål.

Data-drift, derimot, oppstår når fordelingen av inndata endrer seg fra det modellen opprinnelig ble trent på. Data-drift kan kategoriseres som:

Kovariatdrift: fordelingen av inndatafunksjoner endres, men forholdet mellom funksjoner og mål forblir det samme;
Prior sannsynlighetsdrift: fordelingen av målvariabelen endres, for eksempel en endring i andelen klasser i klassifiseringsproblemer;
Funksjonsfordelingsdrift: spesifikke inndatafunksjoner opplever endringer i sine statistiske egenskaper, som gjennomsnitt eller varians, noe som kan påvirke modellens prediksjoner.

Overvåking av disse endringene er avgjørende: hvis du ikke oppdager drift, kan modellens prediksjoner bli upålitelige, noe som kan føre til dårlige forretningsresultater eller til og med kritiske feil i automatiserte beslutningssystemer. Effektiv overvåking gjør det mulig å oppdage slike problemer tidlig og utløse retrening, modelloppdateringer eller grundigere undersøkelser etter behov.

Definisjon

Modell-drift oppstår når en modells ytelse forverres på grunn av endringer i datadistribusjonen.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 13

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 1. Kapittel 13