Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Overvåking av Modell- og Datadrift | Seksjon
MLOps-Grunnleggende

bookOvervåking av Modell- og Datadrift

Maskinlæringsmodeller i produksjon opererer i et dynamisk miljø der både data og den underliggende forretningskonteksten kan endre seg over tid. To sentrale fenomener å overvåke er modell-drift og data-drift.

Modell-drift refererer til nedgang i modellens ytelse når forholdet mellom inndatafunksjoner og målvariabelen endres. Det finnes to hovedtyper av modell-drift:

  • Konseptdrift: det statistiske forholdet mellom funksjoner og målvariabel endres over tid; dette betyr at modellens underliggende antakelser ikke lenger gjelder, og prediksjonene blir mindre nøyaktige;
  • Ytelsesdrift: modellens nøyaktighet eller andre evalueringsmetrikker forverres, selv om forholdet mellom funksjoner og mål virker stabilt; dette kan skyldes endringer i eksterne faktorer eller utviklende forretningsmål.

Data-drift, derimot, oppstår når fordelingen av inndata endrer seg fra det modellen opprinnelig ble trent på. Data-drift kan kategoriseres som:

  • Kovariatdrift: fordelingen av inndatafunksjoner endres, men forholdet mellom funksjoner og mål forblir det samme;
  • Prior sannsynlighetsdrift: fordelingen av målvariabelen endres, for eksempel en endring i andelen klasser i klassifiseringsproblemer;
  • Funksjonsfordelingsdrift: spesifikke inndatafunksjoner opplever endringer i sine statistiske egenskaper, som gjennomsnitt eller varians, noe som kan påvirke modellens prediksjoner.

Overvåking av disse endringene er avgjørende: hvis du ikke oppdager drift, kan modellens prediksjoner bli upålitelige, noe som kan føre til dårlige forretningsresultater eller til og med kritiske feil i automatiserte beslutningssystemer. Effektiv overvåking gjør det mulig å oppdage slike problemer tidlig og utløse retrening, modelloppdateringer eller grundigere undersøkelser etter behov.

Note
Definisjon

Modell-drift oppstår når en modells ytelse forverres på grunn av endringer i datadistribusjonen.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Hvilken påstand beskriver best forskjellene mellom konseptdrift, ytelsesdrift, kovariatdrift og prior sannsynlighetsdrift?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 13

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

bookOvervåking av Modell- og Datadrift

Sveip for å vise menyen

Maskinlæringsmodeller i produksjon opererer i et dynamisk miljø der både data og den underliggende forretningskonteksten kan endre seg over tid. To sentrale fenomener å overvåke er modell-drift og data-drift.

Modell-drift refererer til nedgang i modellens ytelse når forholdet mellom inndatafunksjoner og målvariabelen endres. Det finnes to hovedtyper av modell-drift:

  • Konseptdrift: det statistiske forholdet mellom funksjoner og målvariabel endres over tid; dette betyr at modellens underliggende antakelser ikke lenger gjelder, og prediksjonene blir mindre nøyaktige;
  • Ytelsesdrift: modellens nøyaktighet eller andre evalueringsmetrikker forverres, selv om forholdet mellom funksjoner og mål virker stabilt; dette kan skyldes endringer i eksterne faktorer eller utviklende forretningsmål.

Data-drift, derimot, oppstår når fordelingen av inndata endrer seg fra det modellen opprinnelig ble trent på. Data-drift kan kategoriseres som:

  • Kovariatdrift: fordelingen av inndatafunksjoner endres, men forholdet mellom funksjoner og mål forblir det samme;
  • Prior sannsynlighetsdrift: fordelingen av målvariabelen endres, for eksempel en endring i andelen klasser i klassifiseringsproblemer;
  • Funksjonsfordelingsdrift: spesifikke inndatafunksjoner opplever endringer i sine statistiske egenskaper, som gjennomsnitt eller varians, noe som kan påvirke modellens prediksjoner.

Overvåking av disse endringene er avgjørende: hvis du ikke oppdager drift, kan modellens prediksjoner bli upålitelige, noe som kan føre til dårlige forretningsresultater eller til og med kritiske feil i automatiserte beslutningssystemer. Effektiv overvåking gjør det mulig å oppdage slike problemer tidlig og utløse retrening, modelloppdateringer eller grundigere undersøkelser etter behov.

Note
Definisjon

Modell-drift oppstår når en modells ytelse forverres på grunn av endringer i datadistribusjonen.

123456789101112131415161718192021222324252627
import numpy as np import matplotlib.pyplot as plt from scipy.stats import ks_2samp # Simulated training data and recent production data np.random.seed(42) training_feature = np.random.normal(loc=0, scale=1, size=1000) recent_feature = np.random.normal(loc=0.5, scale=1.2, size=1000) # Plot distributions plt.figure(figsize=(10, 5)) plt.hist(training_feature, bins=30, alpha=0.5, label="Training Data", density=True) plt.hist(recent_feature, bins=30, alpha=0.5, label="Recent Data", density=True) plt.legend() plt.title("Feature Distribution: Training vs. Recent Data") plt.xlabel("Feature Value") plt.ylabel("Density") plt.show() # Use Kolmogorov-Smirnov test to compare distributions statistic, p_value = ks_2samp(training_feature, recent_feature) print(f"KS Statistic: {statistic:.3f}, p-value: {p_value:.3f}") if p_value < 0.05: print("Significant data drift detected.") else: print("No significant data drift detected.")
copy
question mark

Hvilken påstand beskriver best forskjellene mellom konseptdrift, ytelsesdrift, kovariatdrift og prior sannsynlighetsdrift?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 13
some-alt