Lära Övervakning av Modell- och Datadrift

Svep för att visa menyn

Maskininlärningsmodeller i produktion verkar i en dynamisk miljö där både data och det underliggande affärssammanhanget kan förändras över tid. Två centrala fenomen att övervaka är modellförändring och dataförändring.

Modellförändring avser en försämring av modellens prestanda när sambandet mellan indatafunktioner och målvariabeln förändras. Det finns två huvudsakliga typer av modellförändring:

Konceptförändring: det statistiska sambandet mellan funktioner och målvariabel förändras över tid; detta innebär att modellens underliggande antaganden inte längre gäller, vilket leder till mindre träffsäkra förutsägelser;
Prestandaförändring: modellens noggrannhet eller andra utvärderingsmått försämras, även om sambandet mellan funktioner och mål verkar stabilt; detta kan bero på förändringar i externa faktorer eller förändrade affärsmål.

Dataförändring uppstår däremot när fördelningen av indata förändras jämfört med vad modellen ursprungligen tränades på. Dataförändring kan kategoriseras som:

Kovariatförändring: fördelningen av indatafunktioner förändras, men sambandet mellan funktioner och mål förblir detsamma;
Förändring i prior-sannolikhet: fördelningen av målvariabeln förändras, till exempel en förändring i andelen klasser vid klassificeringsproblem;
Förändring i funktionsfördelning: specifika indatafunktioner uppvisar förändringar i sina statistiska egenskaper, såsom medelvärde eller varians, vilket kan påverka modellens förutsägelser.

Att övervaka dessa förändringar är avgörande: om du inte upptäcker förändringar kan modellens förutsägelser bli opålitliga, vilket leder till dåliga affärsresultat eller till och med kritiska fel i automatiserade beslutsystem. Effektiv övervakning gör det möjligt att identifiera dessa problem tidigt och utlösa ominlärning, modelluppdateringar eller djupare analyser vid behov.

Definition

Modellförändring uppstår när en modells prestanda försämras på grund av förändringar i datadistributionen.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Vilket påstående beskriver bäst skillnaderna mellan konceptdrift, prestandadrift, kovariatdrift och prior probability drift?

Vänligen välj det korrekta svaret

Kovariatdrift är en förändring i modellens noggrannhet på grund av nya externa faktorer, medan konceptdrift är en förskjutning i målvariabelns fördelning.

Prestandadrift är en förändring i funktionernas fördelning, medan prior probability drift är en förändring i relationen mellan funktioner och mål.

Konceptdrift är en förändring i relationen mellan funktioner och mål, medan kovariatdrift är en förändring i funktionernas fördelning med oförändrad funktion-mål-relation.

Prior probability drift är en förändring i indatafunktionernas fördelning, medan prestandadrift är en förändring i målvariabelns statistiska egenskaper.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 13

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 1. Kapitel 13