Вивчайте Моніторинг Моделі та Дрейфу Даних

Свайпніть щоб показати меню

Моделі машинного навчання у продакшені працюють у динамічному середовищі, де як дані, так і бізнес-контекст можуть змінюватися з часом. Два ключові явища, за якими слід стежити, — це дрейф моделі та дрейф даних.

Дрейф моделі означає зниження продуктивності моделі внаслідок зміни зв'язку між вхідними ознаками та цільовою змінною. Існує два основних типи дрейфу моделі:

Концептуальний дрейф: статистичний зв'язок між ознаками та цільовою змінною змінюється з часом; це означає, що базові припущення моделі більше не є актуальними, тому точність прогнозів знижується;
Дрейф продуктивності: точність моделі або інші оціночні метрики погіршуються, навіть якщо зв'язок між ознаками та ціллю залишається стабільним; це може бути наслідком змін зовнішніх факторів або еволюції бізнес-цілей.

Дрейф даних, у свою чергу, виникає, коли розподіл вхідних даних змінюється порівняно з тими, на яких модель навчалася. Дрейф даних можна класифікувати як:

Коваріативний дрейф: розподіл вхідних ознак змінюється, але зв'язок між ознаками та ціллю залишається незмінним;
Дрейф апріорної ймовірності: розподіл цільової змінної змінюється, наприклад, змінюється частка класів у задачах класифікації;
Дрейф розподілу ознак: окремі вхідні ознаки зазнають змін у своїх статистичних характеристиках, таких як середнє чи дисперсія, що може вплинути на прогнози моделі.

Моніторинг цих змін є критично важливим: якщо не виявити дрейф, прогнози моделі можуть стати ненадійними, що призведе до негативних бізнес-наслідків або навіть критичних збоїв в автоматизованих системах прийняття рішень. Ефективний моніторинг дозволяє своєчасно виявляти ці проблеми та ініціювати перенавчання, оновлення моделі або глибший аналіз за потреби.

Визначення

Дрейф моделі виникає, коли продуктивність моделі погіршується через зміни у розподілі даних.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Яке твердження найкраще описує відмінності між зміною концепції, зміщенням продуктивності, зміщенням коваріат та зміщенням апріорної ймовірності?

Select the correct answer

Зміщення коваріат — це зміна точності моделі через нові зовнішні фактори, тоді як зміна концепції — це зсув у розподілі цільової змінної.

Зміщення продуктивності — це зміна розподілу ознак, а зміщення апріорної ймовірності — це зміна взаємозв'язку між ознаками та ціллю.

Зміна концепції — це зміна у взаємозв'язку між ознаками та ціллю, тоді як зміщення коваріат — це зміна розподілу ознак при незмінному зв'язку з ціллю.

Зміщення апріорної ймовірності — це зміна розподілу вхідних ознак, а зміщення продуктивності — це зміна статистичних властивостей цільової змінної.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 13

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 13