Lære Vektorrumsmodeller | Grundlæggende Tekstmodeller

Stryg for at vise menuen

Behovet for numerisk repræsentation

Computere kan ikke fortolke tekst på samme måde som mennesker. Hvor vi udleder mening fra sprog gennem kontekst, kultur og erfaring, ser computere kun sekvenser af tegn.

For at gøre tekst tilgængelig for maskiner skal vi oversætte den til deres modersmål: tal. Ved at repræsentere tekst med vektorer og matricer muliggøres det for matematiske og statistiske modeller at afdække mønstre, relationer og indsigter, som ellers ville forblive skjulte i rå tekst.

Forståelse af vektorrumsmodeller

Heldigvis findes der allerede effektive løsninger til at konvertere tekst til numerisk form. En af de mest udbredte metoder er brugen af vektorrumsmodeller.

Definition

Vektorrumsmodel (VSM) er en matematisk model, der repræsenterer tekstdokumenter, ord eller andre elementer som vektorer i et multidimensionelt rum.

Der findes mange måder at konstruere sådanne vektorrum for tekst-dokumenter. En simpel tilgang er at anvende hele korpusvokabularet, hvor hver dimension i rummet tildeles et unikt term.

Definition

Vokabular er det komplette sæt af unikke termer, der optræder i et givet korpus.

Lad korpusvokabularet betegnes som $V$ og mængden af dokumenter som $D$ . Så kan hvert dokument $d_i \in D$ repræsenteres som en vektor i $\R^N$ :

d_i = (w_{1,i}, w_{2,i}, ..., w_{N,i})

hvor:

$N = |V|$ er det samlede antal unikke termer i vokabularet;
$w_{j,i}$ angiver vægten eller vigtigheden af termen $W_j \in V$ i dokumentet $d_i$ .

Her er et simpelt eksempel med kun 2 dokumenter og 2 unikke termer, visualiseret i et 2D-vektorrum:

Ved at anvende disse vektorrepræsentationer kan der beregnes en similaritetsscore mellem dokumenter ved at måle vinklen mellem deres vektorer, typisk ved brug af cosinus-similaritet.

Ord som vektorer

Ideen bag VSM'er kan udvides til individuelle ordrepræsentationer gennem teknikken kendt som word embeddings. Word embeddings bygger på et lignende matematisk princip, men fokuserer på at repræsentere individuelle ord som vektorer i stedet for hele dokumenter. Dimensionerne i disse vektorer indfanger latente semantiske egenskaber, som ikke er direkte fortolkelige.

Her er et eksempel med todimensionale embeddings for tre ord:

Som illustreret på billedet er vektorerne for "woman" og "queen" samt for "queen" og "king" placeret tæt på hinanden, hvilket indikerer stærk semantisk lighed. I modsætning hertil antyder den større vinkel mellem "woman" og "king" en større semantisk forskel.

Bemærk

Bekymr dig ikke om word embeddings lige nu, vi gennemgår dem senere.

Anvendelser af vektorrummodeller

Vektorrummodeller anvendes i en bred vifte af NLP-opgaver:

Semantisk lighed: beregning af ligheden mellem tekst-dokumenter eller ord baseret på deres vektorrepræsentationer;
Informationssøgning: forbedring af søgemaskiner og anbefalingssystemer til at finde indhold, der er relevant for en brugers forespørgsel;
Tekstklassificering og klyngedannelse: automatisk kategorisering af dokumenter i foruddefinerede klasser eller gruppering af lignende dokumenter;
Forståelse af naturligt sprog: muliggør dybere sproglig analyse, der baner vejen for anvendelser som sentimentanalyse, emnemodellering og mere.

Var alt klart?

Tak for dine kommentarer!

Sektion 3. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 3. Kapitel 1