Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Typer av Vektorrommodeller | Seksjon
Naturlig Språkprosessering

bookTyper av Vektorrommodeller

Sveip for å vise menyen

Vektorrommodeller kan kategoriseres etter hvordan de representerer tekst, fra enkle frekvensbaserte metoder til mer avanserte, kontekstbevisste innbeddinger. Hver tilnærming har sine egne fordeler og egner seg til ulike typer NLP-oppgaver.

Bag of Words

Bag of words (BoW) er en vektorrommodell som representerer dokumenter som vektorer der hver dimensjon tilsvarer et unikt ord. Den kan være binær (indikerer om ordet er til stede) eller frekvensbasert (indikerer antall forekomster av ordet).

Her er et eksempel på en frekvensbasert BoW:

Som du ser, representeres hvert dokument av en vektor, der hver dimensjon tilsvarer frekvensen av et spesifikt ord i det dokumentet. I en binær bag of words-modell vil hver vektor kun inneholde 0 eller 1 for hvert ord, som indikerer fravær eller tilstedeværelse.

Note
Merk

Tekstforbehandling er et nødvendig steg før man bruker BoW eller lignende modeller.

TF-IDF

TF-IDF (term frequency-inverse document frequency)-modellen utvider bag-of-words (BoW)-tilnærmingen ved å justere ordfrekvenser basert på forekomsten deres på tvers av alle dokumenter. Den fremhever ord som er unike for et dokument, og gir dermed mer spesifikke innsikter i dokumentets innhold.

Dette oppnås ved å kombinere termfrekvens (antall ganger et ord forekommer i et dokument) med invers dokumentfrekvens (et mål på hvor vanlig eller sjeldent et ord er i hele datasettet).

Her er resultatet av å bruke TF-IDF på dokumentene fra det forrige eksemplet:

De resulterende vektorene, beriket av TF-IDF, viser større variasjon og gir dypere innsikt i dokumentets innhold.

Ordinnbeddinger og dokumentinnbeddinger

Ordinnbeddinger tilordner enkeltord til tette vektorer i et lavdimensjonalt, kontinuerlig rom, og fanger opp semantiske likheter som ikke er direkte tolkbare.

Dokumentinnbeddinger genererer derimot tette vektorer som representerer hele dokumenter, og fanger opp deres overordnede semantiske betydning.

Note
Merk

Dimensjonaliteten (størrelsen) til innbeddinger velges vanligvis basert på prosjektkrav og tilgjengelige beregningsressurser. Å velge riktig størrelse er avgjørende for å oppnå en balanse mellom å fange opp rik semantisk informasjon og å opprettholde modeleffektivitet.

Her er et eksempel på hvordan ordinnbeddinger for ordene "cat", "kitten", "dog" og "house" kan se ut:

Selv om de numeriske verdiene i denne tabellen er vilkårlige, illustrerer de hvordan embeddinger kan representere meningsfulle relasjoner mellom ord.

I virkelige applikasjoner læres slike embeddinger ved å trene en modell på et stort tekstkorpus, slik at den kan oppdage subtile mønstre og semantiske relasjoner i naturlig språk.

Note
Studer mer

Et ytterligere fremskritt innen tette representasjoner, kontekstuelle embeddinger (generert av modeller som BERT og GPT), tar hensyn til konteksten et ord opptrer i for å generere vektoren. Dette betyr at det samme ordet kan ha forskjellige embeddinger avhengig av bruken i ulike setninger, noe som gir en nyansert forståelse av språk.

question-icon

Sorter modellene etter kompleksitet, fra enklest til mest kompleks.




Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 19

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 1. Kapittel 19
some-alt