Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Überwachung von Modell- und Daten-Drift | Abschnitt
Practice
Projects
Quizzes & Challenges
Quizze
Challenges
/
MLOps-Grundlagen

bookÜberwachung von Modell- und Daten-Drift

Machine-Learning-Modelle im Produktionseinsatz befinden sich in einem dynamischen Umfeld, in dem sich sowohl die Daten als auch der zugrunde liegende Geschäftskontext im Laufe der Zeit verändern können. Zwei zentrale Phänomene, die beobachtet werden sollten, sind Modelldrift und Datendrift.

Modelldrift bezeichnet den Rückgang der Modellleistung, wenn sich die Beziehung zwischen Eingabemerkmalen und Zielvariable verändert. Es gibt zwei Haupttypen der Modelldrift:

  • Konzeptrift: Die statistische Beziehung zwischen Merkmalen und Zielvariable verändert sich im Zeitverlauf; das bedeutet, dass die zugrunde liegenden Annahmen des Modells nicht mehr gelten und die Vorhersagen dadurch ungenauer werden;
  • Leistungsdrift: Die Genauigkeit oder andere Bewertungsmetriken des Modells verschlechtern sich, auch wenn die Beziehung zwischen Merkmalen und Ziel stabil erscheint; dies kann durch Veränderungen externer Faktoren oder sich entwickelnde Geschäftsziele verursacht werden.

Datendrift hingegen tritt auf, wenn sich die Verteilung der Eingabedaten von derjenigen unterscheidet, auf der das Modell ursprünglich trainiert wurde. Datendrift kann wie folgt kategorisiert werden:

  • Kovariaten-Drift: Die Verteilung der Eingabemerkmale verändert sich, aber die Beziehung zwischen Merkmalen und Ziel bleibt gleich;
  • Prior-Wahrscheinlichkeitsdrift: Die Verteilung der Zielvariable verändert sich, beispielsweise durch eine Verschiebung des Anteils der Klassen bei Klassifikationsproblemen;
  • Merkmalsverteilungsdrift: Bestimmte Eingabemerkmale erfahren Veränderungen in ihren statistischen Eigenschaften, wie Mittelwert oder Varianz, was die Modellvorhersagen beeinflussen kann.

Die Überwachung dieser Veränderungen ist essenziell: Wenn Drift nicht erkannt wird, können die Vorhersagen des Modells unzuverlässig werden, was zu schlechten Geschäftsergebnissen oder sogar zu kritischen Fehlern in automatisierten Entscheidungssystemen führen kann. Effektives Monitoring ermöglicht es, diese Probleme frühzeitig zu erkennen und Maßnahmen wie erneutes Training, Modellaktualisierungen oder weitergehende Analysen einzuleiten.

Note
Definition

Modelldrift tritt auf, wenn die Leistung eines Modells aufgrund von Veränderungen in der Datenverteilung abnimmt.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Welche Aussage beschreibt am besten die Unterschiede zwischen Concept Drift, Performance Drift, Covariate Drift und Prior Probability Drift?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 13

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookÜberwachung von Modell- und Daten-Drift

Swipe um das Menü anzuzeigen

Machine-Learning-Modelle im Produktionseinsatz befinden sich in einem dynamischen Umfeld, in dem sich sowohl die Daten als auch der zugrunde liegende Geschäftskontext im Laufe der Zeit verändern können. Zwei zentrale Phänomene, die beobachtet werden sollten, sind Modelldrift und Datendrift.

Modelldrift bezeichnet den Rückgang der Modellleistung, wenn sich die Beziehung zwischen Eingabemerkmalen und Zielvariable verändert. Es gibt zwei Haupttypen der Modelldrift:

  • Konzeptrift: Die statistische Beziehung zwischen Merkmalen und Zielvariable verändert sich im Zeitverlauf; das bedeutet, dass die zugrunde liegenden Annahmen des Modells nicht mehr gelten und die Vorhersagen dadurch ungenauer werden;
  • Leistungsdrift: Die Genauigkeit oder andere Bewertungsmetriken des Modells verschlechtern sich, auch wenn die Beziehung zwischen Merkmalen und Ziel stabil erscheint; dies kann durch Veränderungen externer Faktoren oder sich entwickelnde Geschäftsziele verursacht werden.

Datendrift hingegen tritt auf, wenn sich die Verteilung der Eingabedaten von derjenigen unterscheidet, auf der das Modell ursprünglich trainiert wurde. Datendrift kann wie folgt kategorisiert werden:

  • Kovariaten-Drift: Die Verteilung der Eingabemerkmale verändert sich, aber die Beziehung zwischen Merkmalen und Ziel bleibt gleich;
  • Prior-Wahrscheinlichkeitsdrift: Die Verteilung der Zielvariable verändert sich, beispielsweise durch eine Verschiebung des Anteils der Klassen bei Klassifikationsproblemen;
  • Merkmalsverteilungsdrift: Bestimmte Eingabemerkmale erfahren Veränderungen in ihren statistischen Eigenschaften, wie Mittelwert oder Varianz, was die Modellvorhersagen beeinflussen kann.

Die Überwachung dieser Veränderungen ist essenziell: Wenn Drift nicht erkannt wird, können die Vorhersagen des Modells unzuverlässig werden, was zu schlechten Geschäftsergebnissen oder sogar zu kritischen Fehlern in automatisierten Entscheidungssystemen führen kann. Effektives Monitoring ermöglicht es, diese Probleme frühzeitig zu erkennen und Maßnahmen wie erneutes Training, Modellaktualisierungen oder weitergehende Analysen einzuleiten.

Note
Definition

Modelldrift tritt auf, wenn die Leistung eines Modells aufgrund von Veränderungen in der Datenverteilung abnimmt.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Welche Aussage beschreibt am besten die Unterschiede zwischen Concept Drift, Performance Drift, Covariate Drift und Prior Probability Drift?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 13
some-alt