Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Monitoramento de Modelo e Desvio de Dados | Seção
Fundamentos de MLOps

bookMonitoramento de Modelo e Desvio de Dados

Modelos de aprendizado de máquina em produção enfrentam um ambiente dinâmico, onde tanto os dados quanto o contexto de negócios subjacente podem mudar ao longo do tempo. Dois fenômenos principais a serem observados são o desvio de modelo e o desvio de dados.

O desvio de modelo refere-se à queda no desempenho do modelo à medida que a relação entre as variáveis de entrada e a variável alvo muda. Existem dois tipos principais de desvio de modelo:

  • Desvio de conceito: a relação estatística entre as variáveis de entrada e a variável alvo muda ao longo do tempo; isso significa que as premissas subjacentes do modelo deixam de ser válidas, tornando as previsões menos precisas;
  • Desvio de desempenho: a acurácia do modelo ou outras métricas de avaliação se degradam, mesmo que a relação entre as variáveis de entrada e a variável alvo pareça estável; isso pode resultar de mudanças em fatores externos ou de objetivos de negócios em evolução.

O desvio de dados, por outro lado, ocorre quando a distribuição dos dados de entrada se afasta do que foi originalmente utilizado para treinar o modelo. O desvio de dados pode ser categorizado como:

  • Desvio de covariáveis: a distribuição das variáveis de entrada muda, mas a relação entre as variáveis de entrada e a variável alvo permanece a mesma;
  • Desvio de probabilidade a priori: a distribuição da variável alvo muda, como uma alteração na proporção das classes em problemas de classificação;
  • Desvio na distribuição de características: variáveis de entrada específicas apresentam mudanças em suas propriedades estatísticas, como média ou variância, o que pode impactar as previsões do modelo.

Monitorar essas mudanças é essencial: se o desvio não for detectado, as previsões do modelo podem se tornar não confiáveis, levando a resultados de negócios insatisfatórios ou até mesmo falhas críticas em sistemas de decisão automatizados. Um monitoramento eficaz permite identificar esses problemas precocemente e acionar re-treinamento, atualizações do modelo ou investigações mais profundas conforme necessário.

Note
Definição

Desvio de modelo ocorre quando o desempenho de um modelo se degrada devido a mudanças na distribuição dos dados.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Qual afirmação melhor descreve as diferenças entre deriva de conceito, deriva de desempenho, deriva de covariáveis e deriva de probabilidade prévia?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 13

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookMonitoramento de Modelo e Desvio de Dados

Deslize para mostrar o menu

Modelos de aprendizado de máquina em produção enfrentam um ambiente dinâmico, onde tanto os dados quanto o contexto de negócios subjacente podem mudar ao longo do tempo. Dois fenômenos principais a serem observados são o desvio de modelo e o desvio de dados.

O desvio de modelo refere-se à queda no desempenho do modelo à medida que a relação entre as variáveis de entrada e a variável alvo muda. Existem dois tipos principais de desvio de modelo:

  • Desvio de conceito: a relação estatística entre as variáveis de entrada e a variável alvo muda ao longo do tempo; isso significa que as premissas subjacentes do modelo deixam de ser válidas, tornando as previsões menos precisas;
  • Desvio de desempenho: a acurácia do modelo ou outras métricas de avaliação se degradam, mesmo que a relação entre as variáveis de entrada e a variável alvo pareça estável; isso pode resultar de mudanças em fatores externos ou de objetivos de negócios em evolução.

O desvio de dados, por outro lado, ocorre quando a distribuição dos dados de entrada se afasta do que foi originalmente utilizado para treinar o modelo. O desvio de dados pode ser categorizado como:

  • Desvio de covariáveis: a distribuição das variáveis de entrada muda, mas a relação entre as variáveis de entrada e a variável alvo permanece a mesma;
  • Desvio de probabilidade a priori: a distribuição da variável alvo muda, como uma alteração na proporção das classes em problemas de classificação;
  • Desvio na distribuição de características: variáveis de entrada específicas apresentam mudanças em suas propriedades estatísticas, como média ou variância, o que pode impactar as previsões do modelo.

Monitorar essas mudanças é essencial: se o desvio não for detectado, as previsões do modelo podem se tornar não confiáveis, levando a resultados de negócios insatisfatórios ou até mesmo falhas críticas em sistemas de decisão automatizados. Um monitoramento eficaz permite identificar esses problemas precocemente e acionar re-treinamento, atualizações do modelo ou investigações mais profundas conforme necessário.

Note
Definição

Desvio de modelo ocorre quando o desempenho de um modelo se degrada devido a mudanças na distribuição dos dados.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Qual afirmação melhor descreve as diferenças entre deriva de conceito, deriva de desempenho, deriva de covariáveis e deriva de probabilidade prévia?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 13
some-alt