Desliza para mostrar el menú

Los modelos de aprendizaje automático en producción enfrentan un entorno dinámico donde tanto los datos como el contexto empresarial subyacente pueden cambiar con el tiempo. Dos fenómenos clave a vigilar son el desplazamiento del modelo y el desplazamiento de los datos.

El desplazamiento del modelo se refiere a la disminución del rendimiento del modelo a medida que cambia la relación entre las características de entrada y la variable objetivo. Existen dos tipos principales de desplazamiento del modelo:

Desplazamiento de concepto: la relación estadística entre las características y la variable objetivo cambia con el tiempo; esto significa que los supuestos subyacentes del modelo ya no se cumplen, por lo que las predicciones se vuelven menos precisas;
Desplazamiento de rendimiento: la precisión del modelo u otras métricas de evaluación se degradan, incluso si la relación característica-objetivo parece estable; esto puede deberse a cambios en factores externos u objetivos empresariales en evolución.

Por otro lado, el desplazamiento de los datos ocurre cuando la distribución de los datos de entrada cambia respecto a aquellos con los que el modelo fue entrenado originalmente. El desplazamiento de los datos puede clasificarse como:

Desplazamiento de covariables: la distribución de las características de entrada cambia, pero la relación entre características y objetivo permanece igual;
Desplazamiento de probabilidad previa: la distribución de la variable objetivo cambia, como un cambio en la proporción de clases en problemas de clasificación;
Desplazamiento en la distribución de características: características de entrada específicas experimentan cambios en sus propiedades estadísticas, como la media o la varianza, lo que puede afectar las predicciones del modelo.

El monitoreo de estos cambios es esencial: si no se detecta el desplazamiento, las predicciones del modelo pueden volverse poco confiables, lo que conduce a malos resultados empresariales o incluso a fallos críticos en sistemas de decisión automatizados. Un monitoreo efectivo permite detectar estos problemas a tiempo y activar el reentrenamiento, actualizaciones del modelo o investigaciones más profundas según sea necesario.

Definición

El desplazamiento del modelo ocurre cuando el rendimiento de un modelo se degrada debido a cambios en la distribución de los datos.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

¿Qué afirmación describe mejor las diferencias entre drift de concepto, drift de rendimiento, drift de covariables y drift de probabilidad previa?

Selecciona la respuesta correcta

El drift de covariables es un cambio en la precisión del modelo debido a nuevos factores externos, mientras que el drift de concepto es un cambio en la distribución de la variable objetivo.

El drift de rendimiento es un cambio en la distribución de características, mientras que el drift de probabilidad previa es un cambio en la relación entre características y objetivo.

El drift de concepto es un cambio en la relación entre características y objetivo, mientras que el drift de covariables es un cambio en la distribución de características con la relación característica-objetivo sin cambios.

El drift de probabilidad previa es un cambio en la distribución de las características de entrada, mientras que el drift de rendimiento es un cambio en las propiedades estadísticas de la variable objetivo.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 13

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Monitoreo de Modelos y Desviación de Datos

Desplazamiento de concepto: la relación estadística entre las características y la variable objetivo cambia con el tiempo; esto significa que los supuestos subyacentes del modelo ya no se cumplen, por lo que las predicciones se vuelven menos precisas;
Desplazamiento de rendimiento: la precisión del modelo u otras métricas de evaluación se degradan, incluso si la relación característica-objetivo parece estable; esto puede deberse a cambios en factores externos u objetivos empresariales en evolución.

Desplazamiento de covariables: la distribución de las características de entrada cambia, pero la relación entre características y objetivo permanece igual;
Desplazamiento de probabilidad previa: la distribución de la variable objetivo cambia, como un cambio en la proporción de clases en problemas de clasificación;
Desplazamiento en la distribución de características: características de entrada específicas experimentan cambios en sus propiedades estadísticas, como la media o la varianza, lo que puede afectar las predicciones del modelo.

Definición

El desplazamiento del modelo ocurre cuando el rendimiento de un modelo se degrada debido a cambios en la distribución de los datos.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 13