Lernen Überwachung von Modell- und Daten-Drift

Swipe um das Menü anzuzeigen

Machine-Learning-Modelle im Produktionseinsatz befinden sich in einem dynamischen Umfeld, in dem sich sowohl die Daten als auch der zugrunde liegende Geschäftskontext im Laufe der Zeit verändern können. Zwei zentrale Phänomene, die beobachtet werden sollten, sind Modelldrift und Datendrift.

Modelldrift bezeichnet den Rückgang der Modellleistung, wenn sich die Beziehung zwischen Eingabemerkmalen und Zielvariable verändert. Es gibt zwei Haupttypen der Modelldrift:

Konzeptrift: Die statistische Beziehung zwischen Merkmalen und Zielvariable verändert sich im Zeitverlauf; das bedeutet, dass die zugrunde liegenden Annahmen des Modells nicht mehr gelten und die Vorhersagen dadurch ungenauer werden;
Leistungsdrift: Die Genauigkeit oder andere Bewertungsmetriken des Modells verschlechtern sich, auch wenn die Beziehung zwischen Merkmalen und Ziel stabil erscheint; dies kann durch Veränderungen externer Faktoren oder sich entwickelnde Geschäftsziele verursacht werden.

Datendrift hingegen tritt auf, wenn sich die Verteilung der Eingabedaten von derjenigen unterscheidet, auf der das Modell ursprünglich trainiert wurde. Datendrift kann wie folgt kategorisiert werden:

Kovariaten-Drift: Die Verteilung der Eingabemerkmale verändert sich, aber die Beziehung zwischen Merkmalen und Ziel bleibt gleich;
Prior-Wahrscheinlichkeitsdrift: Die Verteilung der Zielvariable verändert sich, beispielsweise durch eine Verschiebung des Anteils der Klassen bei Klassifikationsproblemen;
Merkmalsverteilungsdrift: Bestimmte Eingabemerkmale erfahren Veränderungen in ihren statistischen Eigenschaften, wie Mittelwert oder Varianz, was die Modellvorhersagen beeinflussen kann.

Die Überwachung dieser Veränderungen ist essenziell: Wenn Drift nicht erkannt wird, können die Vorhersagen des Modells unzuverlässig werden, was zu schlechten Geschäftsergebnissen oder sogar zu kritischen Fehlern in automatisierten Entscheidungssystemen führen kann. Effektives Monitoring ermöglicht es, diese Probleme frühzeitig zu erkennen und Maßnahmen wie erneutes Training, Modellaktualisierungen oder weitergehende Analysen einzuleiten.

Definition

Modelldrift tritt auf, wenn die Leistung eines Modells aufgrund von Veränderungen in der Datenverteilung abnimmt.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Welche Aussage beschreibt am besten die Unterschiede zwischen Concept Drift, Performance Drift, Covariate Drift und Prior Probability Drift?

Select the correct answer

Covariate Drift ist eine Veränderung der Modellgenauigkeit aufgrund neuer externer Faktoren, während Concept Drift eine Verschiebung in der Verteilung der Zielvariablen ist.

Performance Drift ist eine Veränderung der Merkmalsverteilung, während Prior Probability Drift eine Veränderung in der Beziehung zwischen Merkmalen und Ziel ist.

Concept Drift ist eine Veränderung in der Beziehung zwischen Merkmalen und Ziel, während Covariate Drift eine Veränderung in der Merkmalsverteilung bei unveränderter Merkmal-Ziel-Beziehung ist.

Prior Probability Drift ist eine Veränderung in der Verteilung der Eingabemerkmale, während Performance Drift eine Veränderung in den statistischen Eigenschaften der Zielvariablen ist.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 13

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 13