Typer av Vektorrommodeller
Sveip for å vise menyen
Vektorrommodeller kan kategoriseres etter hvordan de representerer tekst, fra enkle frekvensbaserte metoder til mer avanserte, kontekstbevisste innbeddinger. Hver tilnærming har sine egne fordeler og egner seg til ulike typer NLP-oppgaver.
Bag of Words
Bag of words (BoW) er en vektorrommodell som representerer dokumenter som vektorer der hver dimensjon tilsvarer et unikt ord. Den kan være binær (indikerer om ordet er til stede) eller frekvensbasert (indikerer antall forekomster av ordet).
Her er et eksempel på en frekvensbasert BoW:
Som du ser, representeres hvert dokument av en vektor, der hver dimensjon tilsvarer frekvensen av et spesifikt ord i det dokumentet. I en binær bag of words-modell vil hver vektor kun inneholde 0 eller 1 for hvert ord, som indikerer fravær eller tilstedeværelse.
Tekstforbehandling er et nødvendig steg før man bruker BoW eller lignende modeller.
TF-IDF
TF-IDF (term frequency-inverse document frequency)-modellen utvider bag-of-words (BoW)-tilnærmingen ved å justere ordfrekvenser basert på forekomsten deres på tvers av alle dokumenter. Den fremhever ord som er unike for et dokument, og gir dermed mer spesifikke innsikter i dokumentets innhold.
Dette oppnås ved å kombinere termfrekvens (antall ganger et ord forekommer i et dokument) med invers dokumentfrekvens (et mål på hvor vanlig eller sjeldent et ord er i hele datasettet).
Her er resultatet av å bruke TF-IDF på dokumentene fra det forrige eksemplet:
De resulterende vektorene, beriket av TF-IDF, viser større variasjon og gir dypere innsikt i dokumentets innhold.
Ordinnbeddinger og dokumentinnbeddinger
Ordinnbeddinger tilordner enkeltord til tette vektorer i et lavdimensjonalt, kontinuerlig rom, og fanger opp semantiske likheter som ikke er direkte tolkbare.
Dokumentinnbeddinger genererer derimot tette vektorer som representerer hele dokumenter, og fanger opp deres overordnede semantiske betydning.
Dimensjonaliteten (størrelsen) til innbeddinger velges vanligvis basert på prosjektkrav og tilgjengelige beregningsressurser. Å velge riktig størrelse er avgjørende for å oppnå en balanse mellom å fange opp rik semantisk informasjon og å opprettholde modeleffektivitet.
Her er et eksempel på hvordan ordinnbeddinger for ordene "cat", "kitten", "dog" og "house" kan se ut:
Selv om de numeriske verdiene i denne tabellen er vilkårlige, illustrerer de hvordan embeddinger kan representere meningsfulle relasjoner mellom ord.
I virkelige applikasjoner læres slike embeddinger ved å trene en modell på et stort tekstkorpus, slik at den kan oppdage subtile mønstre og semantiske relasjoner i naturlig språk.
Et ytterligere fremskritt innen tette representasjoner, kontekstuelle embeddinger (generert av modeller som BERT og GPT), tar hensyn til konteksten et ord opptrer i for å generere vektoren. Dette betyr at det samme ordet kan ha forskjellige embeddinger avhengig av bruken i ulike setninger, noe som gir en nyansert forståelse av språk.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår