Pyyhkäise näyttääksesi valikon

Koneoppimismallit tuotantoympäristössä kohtaavat dynaamisen ympäristön, jossa sekä data että liiketoimintaympäristö voivat muuttua ajan myötä. Kaksi keskeistä ilmiötä, joita tulee seurata, ovat mallin ajautuminen (model drift) ja datan ajautuminen (data drift).

Mallin ajautuminen tarkoittaa mallin suorituskyvyn heikkenemistä, kun syöteominaisuuksien ja tavoitemuuttujan välinen suhde muuttuu. Mallin ajautumista on kahta päätyyppiä:

Käsitteen ajautuminen (concept drift): tilastollinen suhde ominaisuuksien ja tavoitemuuttujan välillä muuttuu ajan myötä; tämä tarkoittaa, että mallin taustaoletukset eivät enää päde, jolloin ennusteiden tarkkuus heikkenee;
Suorituskyvyn ajautuminen (performance drift): mallin tarkkuus tai muut arviointimittarit heikkenevät, vaikka ominaisuuksien ja tavoitemuuttujan suhde näyttäisi pysyvän vakaana; tämä voi johtua ulkoisten tekijöiden muutoksista tai liiketoimintatavoitteiden kehittymisestä.

Datan ajautuminen puolestaan tapahtuu, kun syötedatan jakauma muuttuu siitä, mihin malli alun perin koulutettiin. Datan ajautuminen voidaan luokitella seuraavasti:

Kovariaattien ajautuminen (covariate drift): syöteominaisuuksien jakauma muuttuu, mutta ominaisuuksien ja tavoitemuuttujan välinen suhde pysyy samana;
Prioritodennäköisyyden ajautuminen (prior probability drift): tavoitemuuttujan jakauma muuttuu, esimerkiksi luokkien osuudet luokittelutehtävissä vaihtuvat;
Ominaisuusjakauman ajautuminen (feature distribution drift): yksittäisten syöteominaisuuksien tilastolliset ominaisuudet, kuten keskiarvo tai varianssi, muuttuvat, mikä voi vaikuttaa mallin ennusteisiin.

Näiden muutosten seuranta on olennaista: jos ajautumista ei havaita, mallin ennusteet voivat muuttua epäluotettaviksi, mikä voi johtaa huonoihin liiketoimintatuloksiin tai jopa kriittisiin virheisiin automatisoiduissa päätöksentekojärjestelmissä. Tehokas seuranta mahdollistaa ongelmien varhaisen havaitsemisen ja käynnistää tarvittaessa uudelleenkoulutuksen, mallin päivityksen tai syvällisemmät selvitykset.

Määritelmä

Mallin ajautuminen tapahtuu, kun mallin suorituskyky heikkenee datan jakauman muutosten vuoksi.


              123456789101112131415161718192021222324252627
            
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import ks_2samp

# Simulated training data and recent production data
np.random.seed(42)
training_feature = np.random.normal(loc=0, scale=1, size=1000)
recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000)

# Plot distributions
plt.figure(figsize=(10, 5))
plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True)
plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True)
plt.legend()
plt.title("Feature Distribution: Training vs. Recent Data")
plt.xlabel("Feature Value")
plt.ylabel("Density")
plt.show()

# Use Kolmogorov-Smirnov test to compare distributions
statistic, p_value = ks_2samp(training_feature, recent_feature)
print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}")

if p_value < 0.05:
    print("Significant data drift detected.")
else:
    print("No significant data drift detected.")

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 13

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Mallin ja Datan Muutosten Seuranta