Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Моніторинг Моделі та Дрейфу Даних | Розділ
Основи MLOps

bookМоніторинг Моделі та Дрейфу Даних

Моделі машинного навчання у продакшені працюють у динамічному середовищі, де як дані, так і бізнес-контекст можуть змінюватися з часом. Два ключові явища, за якими слід стежити, — це дрейф моделі та дрейф даних.

Дрейф моделі означає зниження продуктивності моделі внаслідок зміни зв'язку між вхідними ознаками та цільовою змінною. Існує два основних типи дрейфу моделі:

  • Концептуальний дрейф: статистичний зв'язок між ознаками та цільовою змінною змінюється з часом; це означає, що базові припущення моделі більше не є актуальними, тому точність прогнозів знижується;
  • Дрейф продуктивності: точність моделі або інші оціночні метрики погіршуються, навіть якщо зв'язок між ознаками та ціллю залишається стабільним; це може бути наслідком змін зовнішніх факторів або еволюції бізнес-цілей.

Дрейф даних, у свою чергу, виникає, коли розподіл вхідних даних змінюється порівняно з тими, на яких модель навчалася. Дрейф даних можна класифікувати як:

  • Коваріативний дрейф: розподіл вхідних ознак змінюється, але зв'язок між ознаками та ціллю залишається незмінним;
  • Дрейф апріорної ймовірності: розподіл цільової змінної змінюється, наприклад, змінюється частка класів у задачах класифікації;
  • Дрейф розподілу ознак: окремі вхідні ознаки зазнають змін у своїх статистичних характеристиках, таких як середнє чи дисперсія, що може вплинути на прогнози моделі.

Моніторинг цих змін є критично важливим: якщо не виявити дрейф, прогнози моделі можуть стати ненадійними, що призведе до негативних бізнес-наслідків або навіть критичних збоїв в автоматизованих системах прийняття рішень. Ефективний моніторинг дозволяє своєчасно виявляти ці проблеми та ініціювати перенавчання, оновлення моделі або глибший аналіз за потреби.

Note
Визначення

Дрейф моделі виникає, коли продуктивність моделі погіршується через зміни у розподілі даних.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Яке твердження найкраще описує відмінності між зміною концепції, зміщенням продуктивності, зміщенням коваріат та зміщенням апріорної ймовірності?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 13

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

bookМоніторинг Моделі та Дрейфу Даних

Свайпніть щоб показати меню

Моделі машинного навчання у продакшені працюють у динамічному середовищі, де як дані, так і бізнес-контекст можуть змінюватися з часом. Два ключові явища, за якими слід стежити, — це дрейф моделі та дрейф даних.

Дрейф моделі означає зниження продуктивності моделі внаслідок зміни зв'язку між вхідними ознаками та цільовою змінною. Існує два основних типи дрейфу моделі:

  • Концептуальний дрейф: статистичний зв'язок між ознаками та цільовою змінною змінюється з часом; це означає, що базові припущення моделі більше не є актуальними, тому точність прогнозів знижується;
  • Дрейф продуктивності: точність моделі або інші оціночні метрики погіршуються, навіть якщо зв'язок між ознаками та ціллю залишається стабільним; це може бути наслідком змін зовнішніх факторів або еволюції бізнес-цілей.

Дрейф даних, у свою чергу, виникає, коли розподіл вхідних даних змінюється порівняно з тими, на яких модель навчалася. Дрейф даних можна класифікувати як:

  • Коваріативний дрейф: розподіл вхідних ознак змінюється, але зв'язок між ознаками та ціллю залишається незмінним;
  • Дрейф апріорної ймовірності: розподіл цільової змінної змінюється, наприклад, змінюється частка класів у задачах класифікації;
  • Дрейф розподілу ознак: окремі вхідні ознаки зазнають змін у своїх статистичних характеристиках, таких як середнє чи дисперсія, що може вплинути на прогнози моделі.

Моніторинг цих змін є критично важливим: якщо не виявити дрейф, прогнози моделі можуть стати ненадійними, що призведе до негативних бізнес-наслідків або навіть критичних збоїв в автоматизованих системах прийняття рішень. Ефективний моніторинг дозволяє своєчасно виявляти ці проблеми та ініціювати перенавчання, оновлення моделі або глибший аналіз за потреби.

Note
Визначення

Дрейф моделі виникає, коли продуктивність моделі погіршується через зміни у розподілі даних.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Яке твердження найкраще описує відмінності між зміною концепції, зміщенням продуктивності, зміщенням коваріат та зміщенням апріорної ймовірності?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 13
some-alt