Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Surveillance du Modèle et Dérive des Données | Section
Fondamentaux du MLOps

bookSurveillance du Modèle et Dérive des Données

Les modèles d'apprentissage automatique en production évoluent dans un environnement dynamique où les données et le contexte métier sous-jacent peuvent changer au fil du temps. Deux phénomènes clés à surveiller sont la dérive du modèle et la dérive des données.

La dérive du modèle désigne la diminution des performances du modèle lorsque la relation entre les variables d'entrée et la variable cible évolue. Il existe deux principaux types de dérive du modèle :

  • Dérive de concept : la relation statistique entre les caractéristiques et la variable cible change au fil du temps ; cela signifie que les hypothèses sous-jacentes du modèle ne sont plus valides, rendant les prédictions moins précises ;
  • Dérive de performance : la précision du modèle ou d'autres métriques d'évaluation se dégradent, même si la relation caractéristique-cible semble stable ; cela peut résulter de changements dans des facteurs externes ou d'objectifs métier en évolution.

La dérive des données, quant à elle, se produit lorsque la distribution des données d'entrée s'écarte de celle sur laquelle le modèle a été initialement entraîné. La dérive des données peut être catégorisée comme suit :

  • Dérive des covariables : la distribution des variables d'entrée change, mais la relation entre les caractéristiques et la cible reste identique ;
  • Dérive de la probabilité a priori : la distribution de la variable cible change, comme un changement dans la proportion des classes dans les problèmes de classification ;
  • Dérive de la distribution des caractéristiques : certaines variables d'entrée subissent des modifications de leurs propriétés statistiques, telles que la moyenne ou la variance, ce qui peut impacter les prédictions du modèle.

La surveillance de ces changements est essentielle : si la dérive n'est pas détectée, les prédictions du modèle peuvent devenir peu fiables, entraînant de mauvais résultats métier, voire des défaillances critiques dans les systèmes de décision automatisés. Une surveillance efficace permet de détecter ces problèmes rapidement et de déclencher une réentraînement, une mise à jour du modèle ou des investigations approfondies si nécessaire.

Note
Définition

La dérive du modèle survient lorsque les performances d'un modèle se dégradent en raison de changements dans la distribution des données.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Quelle affirmation décrit le mieux les différences entre la dérive de concept, la dérive de performance, la dérive de covariables et la dérive de probabilité a priori ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 13

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

bookSurveillance du Modèle et Dérive des Données

Glissez pour afficher le menu

Les modèles d'apprentissage automatique en production évoluent dans un environnement dynamique où les données et le contexte métier sous-jacent peuvent changer au fil du temps. Deux phénomènes clés à surveiller sont la dérive du modèle et la dérive des données.

La dérive du modèle désigne la diminution des performances du modèle lorsque la relation entre les variables d'entrée et la variable cible évolue. Il existe deux principaux types de dérive du modèle :

  • Dérive de concept : la relation statistique entre les caractéristiques et la variable cible change au fil du temps ; cela signifie que les hypothèses sous-jacentes du modèle ne sont plus valides, rendant les prédictions moins précises ;
  • Dérive de performance : la précision du modèle ou d'autres métriques d'évaluation se dégradent, même si la relation caractéristique-cible semble stable ; cela peut résulter de changements dans des facteurs externes ou d'objectifs métier en évolution.

La dérive des données, quant à elle, se produit lorsque la distribution des données d'entrée s'écarte de celle sur laquelle le modèle a été initialement entraîné. La dérive des données peut être catégorisée comme suit :

  • Dérive des covariables : la distribution des variables d'entrée change, mais la relation entre les caractéristiques et la cible reste identique ;
  • Dérive de la probabilité a priori : la distribution de la variable cible change, comme un changement dans la proportion des classes dans les problèmes de classification ;
  • Dérive de la distribution des caractéristiques : certaines variables d'entrée subissent des modifications de leurs propriétés statistiques, telles que la moyenne ou la variance, ce qui peut impacter les prédictions du modèle.

La surveillance de ces changements est essentielle : si la dérive n'est pas détectée, les prédictions du modèle peuvent devenir peu fiables, entraînant de mauvais résultats métier, voire des défaillances critiques dans les systèmes de décision automatisés. Une surveillance efficace permet de détecter ces problèmes rapidement et de déclencher une réentraînement, une mise à jour du modèle ou des investigations approfondies si nécessaire.

Note
Définition

La dérive du modèle survient lorsque les performances d'un modèle se dégradent en raison de changements dans la distribution des données.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Quelle affirmation décrit le mieux les différences entre la dérive de concept, la dérive de performance, la dérive de covariables et la dérive de probabilité a priori ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 13
some-alt