Lære Bayesiansk Inferens og Markov-prosesser

Sveip for å vise menyen

Forståelse av Bayesiansk inferens i KI

Hva er Bayesiansk inferens?

Bayesiansk inferens er en statistisk metode som brukes til å oppdatere sannsynligheter basert på nye bevis. KI-systemer benytter Bayesiansk inferens for å forbedre sine prediksjoner etter hvert som de samler inn mer data.

Tenk deg at du skal forutsi været. Hvis det vanligvis er sol i byen din, men du ser mørke skyer samle seg, justerer du forventningen og forutser regn. Dette illustrerer hvordan Bayesiansk inferens fungerer—man starter med en opprinnelig antakelse (prior), inkorporerer nye data, og oppdaterer antakelsen deretter.

P(H|D)=\frac{P(D|H)\cdot P(H)}{P(D)}

hvor:

$P(H|D)$ er posterior-sannsynligheten, den oppdaterte sannsynligheten for hypotesen $H$ gitt data $D$ ;
$P(D|H)$ er likelihood, som representerer hvor godt hypotesen $H$ forklarer data $D$ ;
$P(H)$ er prior-sannsynligheten, den opprinnelige antakelsen før man observerer $D$ ;
$P(D)$ er marginal likelihood, som fungerer som en normaliseringskonstant.

Problemstilling: Et AI-spamfilter bruker Bayesiansk klassifisering.

20 % av e-poster er spam (P(Spam) = 0.2);
80 % av e-poster er ikke spam (P(Ikke spam) = 0.8);
90 % av spam-eposter inneholder ordet «urgent» (P(Urgent | Spam) = 0.9);
10 % av vanlige e-poster inneholder ordet «urgent» (P(Urgent | Ikke spam) = 0.1).

Spørsmål:
Hvis en e-post inneholder ordet "urgent", hva er sannsynligheten for at det er spam (P(Spam | Urgent))?

Markov-prosesser: Forutsi fremtiden

Hva er en Markov-kjede?

En Markov-kjede er en matematisk modell der neste tilstand kun avhenger av nåværende tilstand og ikke av de foregående. Den brukes mye i AI for å modellere sekvensielle data og beslutningsprosesser. Her er de viktigste formlene brukt i Markov-prosesser:

1. Formel for overgangssannsynlighet
Sannsynligheten for at et system er i tilstand $S_j$ ved tid $t$ gitt forrige tilstand $S_i$ ved tid $t-1$ :

P(S_j|S_i)=T_{ij}

hvor $T_{ij}$ er overgangssannsynligheten fra tilstand $S_i$ til $S_j$ ;

2. Oppdatering av tilstandssannsynlighet
Sannsynlighetsfordelingen over tilstander ved tid $t$ :

P_t=P_{t-1}\cdot T

hvor:

$P_t$ er tilstandssannsynligheten ved tid $t$ .
$P_{t-1}$ er tilstandssannsynligheten ved tid $t-1$ .
$T$ er overgangsmatrisen.

3. Stasjonær sannsynlighet (Langtidsatferd)
For en Markov-prosess som pågår over lang tid, tilfredsstiller den stasjonære sannsynligheten $P_s$ følgende:

P_s=P_s \cdot T

Denne ligningen løses for å finne likevektsfordelingen der sannsynlighetene ikke endrer seg over tid.

Problemstilling: I en bestemt by veksler været mellom solrike og regnfulle dager. Sannsynligheten for overgang mellom disse tilstandene er gitt av følgende overgangsmatrise:

T = \begin{bmatrix} 0.7&0.3\\0.6&0.4 \end{bmatrix}

Hvor:

0.7 er sannsynligheten for at etter en solrik dag kommer en ny solrik dag;
0.3 er sannsynligheten for at en solrik dag blir til en regnfull dag;
0.6 er sannsynligheten for at en regnfull dag blir til en solrik dag;
0.4 er sannsynligheten for at etter en regnfull dag kommer en ny regnfull dag.

Hvis dagens vær er solrikt, hva er sannsynligheten for at det blir regnfullt om to dager?

Markov beslutningsprosesser (MDP): Lære AI å ta beslutninger

MDP utvider Markov-kjeder ved å introdusere handlinger og belønninger, slik at AI kan ta optimale beslutninger i stedet for bare å forutsi tilstander.

Eksempel: En robot i en labyrint

En robot som navigerer i en labyrint lærer hvilke veier som fører til utgangen ved å vurdere:

Handlinger: bevege seg til venstre, høyre, opp eller ned;
Belønninger: å nå målet, treffe en vegg eller møte en hindring;
Optimal strategi: velge handlinger som maksimerer belønningen.

MDP brukes mye innen spill-AI, robotikk og anbefalingssystemer for å optimalisere beslutningstaking.

Skjulte Markov-modeller (HMM): Forstå skjulte mønstre

En HMM er en Markov-modell der noen tilstander er skjulte, og AI må utlede dem basert på observerte data.

Eksempel: Talegjenkjenning

Når du snakker til Siri eller Alexa, ser ikke AI direkte ordene. I stedet prosesserer den lydbølger og forsøker å bestemme den mest sannsynlige sekvensen av ord.

HMM er essensielle innen:

Tale- og tekstgjenkjenning: AI tolker talespråk og håndskrift;
Aksjemarkedsprediksjoner: AI modellerer skjulte trender for å forutsi markedsendringer;
Robotikk og spill: AI-styrte agenter utleder skjulte tilstander fra observerbare hendelser.

Konklusjon

Bayesiansk inferens gir en streng metode for å oppdatere sannsynligheter i AI-modeller, mens Markov-prosesser tilbyr kraftige verktøy for å modellere sekvensielle avhengigheter. Disse prinsippene danner grunnlaget for sentrale generative AI-applikasjoner, inkludert forsterkende læring, sannsynlighetsbaserte grafmodeller og strukturert sekvensgenerering.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår