Glissez pour afficher le menu

Les modèles d'apprentissage automatique en production évoluent dans un environnement dynamique où les données et le contexte métier sous-jacent peuvent changer au fil du temps. Deux phénomènes clés à surveiller sont la dérive du modèle et la dérive des données.

La dérive du modèle désigne la diminution des performances du modèle lorsque la relation entre les variables d'entrée et la variable cible évolue. Il existe deux principaux types de dérive du modèle :

Dérive de concept : la relation statistique entre les caractéristiques et la variable cible change au fil du temps ; cela signifie que les hypothèses sous-jacentes du modèle ne sont plus valides, rendant les prédictions moins précises ;
Dérive de performance : la précision du modèle ou d'autres métriques d'évaluation se dégradent, même si la relation caractéristique-cible semble stable ; cela peut résulter de changements dans des facteurs externes ou d'objectifs métier en évolution.

La dérive des données, quant à elle, se produit lorsque la distribution des données d'entrée s'écarte de celle sur laquelle le modèle a été initialement entraîné. La dérive des données peut être catégorisée comme suit :

Dérive des covariables : la distribution des variables d'entrée change, mais la relation entre les caractéristiques et la cible reste identique ;
Dérive de la probabilité a priori : la distribution de la variable cible change, comme un changement dans la proportion des classes dans les problèmes de classification ;
Dérive de la distribution des caractéristiques : certaines variables d'entrée subissent des modifications de leurs propriétés statistiques, telles que la moyenne ou la variance, ce qui peut impacter les prédictions du modèle.

La surveillance de ces changements est essentielle : si la dérive n'est pas détectée, les prédictions du modèle peuvent devenir peu fiables, entraînant de mauvais résultats métier, voire des défaillances critiques dans les systèmes de décision automatisés. Une surveillance efficace permet de détecter ces problèmes rapidement et de déclencher une réentraînement, une mise à jour du modèle ou des investigations approfondies si nécessaire.

Définition

La dérive du modèle survient lorsque les performances d'un modèle se dégradent en raison de changements dans la distribution des données.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Quelle affirmation décrit le mieux les différences entre la dérive de concept, la dérive de performance, la dérive de covariables et la dérive de probabilité a priori ?

Sélectionnez la réponse correcte

La dérive de covariables est une modification de la précision du modèle due à de nouveaux facteurs externes, tandis que la dérive de concept est un changement dans la distribution de la variable cible.

La dérive de performance est une modification de la distribution des caractéristiques, tandis que la dérive de probabilité a priori est un changement dans la relation entre les caractéristiques et la cible.

La dérive de concept est une modification de la relation entre les caractéristiques et la cible, tandis que la dérive de covariables est un changement dans la distribution des caractéristiques avec une relation caractéristique-cible inchangée.

La dérive de probabilité a priori est une modification de la distribution des caractéristiques d'entrée, tandis que la dérive de performance est un changement dans les propriétés statistiques de la variable cible.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 13

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Surveillance du Modèle et Dérive des Données

Dérive de concept : la relation statistique entre les caractéristiques et la variable cible change au fil du temps ; cela signifie que les hypothèses sous-jacentes du modèle ne sont plus valides, rendant les prédictions moins précises ;
Dérive de performance : la précision du modèle ou d'autres métriques d'évaluation se dégradent, même si la relation caractéristique-cible semble stable ; cela peut résulter de changements dans des facteurs externes ou d'objectifs métier en évolution.

Dérive des covariables : la distribution des variables d'entrée change, mais la relation entre les caractéristiques et la cible reste identique ;
Dérive de la probabilité a priori : la distribution de la variable cible change, comme un changement dans la proportion des classes dans les problèmes de classification ;
Dérive de la distribution des caractéristiques : certaines variables d'entrée subissent des modifications de leurs propriétés statistiques, telles que la moyenne ou la variance, ce qui peut impacter les prédictions du modèle.

Définition

La dérive du modèle survient lorsque les performances d'un modèle se dégradent en raison de changements dans la distribution des données.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 13