Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Що таке дріфт | Розділ
Виявлення та моніторинг дрейфу у виробничих ML-системах

Що таке дріфт

Свайпніть щоб показати меню

У машинному навчанні дріфт означає зміну у вихідних даних або у взаємозв'язках, на які модель спирається для здійснення прогнозів. Існує три основні типи дріфту, які варто розуміти: дріфт даних, дріфт ознак та концептуальний дріфт.

Note
Визначення

Дріфт даних — це загальний термін, що описує будь-які зміни статистичних властивостей вхідних даних з часом. Це може означати, що загальний розподіл датасету змістився, що може вплинути на продуктивність моделі, навіть якщо взаємозв'язки між ознаками та цільовими змінними залишаються незмінними.

Note
Визначення

Дріфт ознак — це більш конкретний випадок, коли змінюється розподіл однієї або декількох окремих ознак. Наприклад, середній вік клієнтів у вашому датасеті може з часом збільшуватися, або діапазон значень для показника сенсора може зміщуватися.

Note
Визначення

Зміна концепції виникає, коли змінюється зв'язок між вхідними ознаками та цільовою змінною. Це означає, що навіть якщо вхідні дані виглядають подібними, спосіб їх відповідності виходу змінився. Наприклад, якщо модель прогнозує, чи є електронний лист спамом, але спамери починають використовувати нові тактики, ознаки, які раніше вказували на спам, можуть більше не бути надійними.

Розуміння відмінностей між цими типами дрейфу є ключовим для підтримки надійних конвеєрів машинного навчання. Якщо не здійснювати моніторинг дрейфу, моделі можуть втрачати точність, що призводить до неправильних рішень і результатів.

Note
Примітка

Поширені причини дрейфу:

  • Темпоральні зміни: дані природно змінюються з часом;
  • Вибіркова упередженість: змінюються методи або джерела збору даних, що призводить до появи нових патернів;
  • Поведінкові зсуви: користувачі, клієнти або системи змінюють свою поведінку, що спричиняє нові тенденції у даних.
12345678910111213141516
import numpy as np import matplotlib.pyplot as plt # Generate synthetic feature data for two time periods np.random.seed(42) feature_period1 = np.random.normal(loc=50, scale=5, size=1000) feature_period2 = np.random.normal(loc=55, scale=7, size=1000) plt.figure(figsize=(8, 5)) plt.hist(feature_period1, bins=30, alpha=0.6, label="Period 1", color="blue", density=True) plt.hist(feature_period2, bins=30, alpha=0.6, label="Period 2", color="orange", density=True) plt.title("Feature Distribution Over Time") plt.xlabel("Feature Value") plt.ylabel("Density") plt.legend() plt.show()

Часто можна виявити дрейф ознак шляхом візуального порівняння розподілів ознак за різні часові періоди, як на графіку вище. Якщо форма, центр або розмах розподілів помітно змінюються, це є сильним індикатором дрейфу. Наприклад, якщо гістограма для "Period 2" зміщена вправо і має ширший розмах, ніж у "Period 1", це означає, що середнє значення та варіативність ознаки змінилися. Такі зміни можуть впливати на передбачення моделі та можуть вимагати перенавчання або коригування.

question mark

Який сценарій найкраще описує дрейф концепції?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 1
some-alt