Lære Tf-idf | Grunnleggende Tekstmodeller

Forståelse av TF-IDF

Selv om bag of words-modellen er enkel og effektiv, har den en tendens til å overvurdere vanlige termer, noe som gjør det vanskeligere å identifisere mindre hyppige, men mer informative ord. For å løse dette brukes ofte TF-IDF-modellen i stedet.

Definisjon

TF-IDF (term frequency-inverse document frequency) er et statistisk mål som reflekterer hvor viktig et ord er for et spesifikt dokument i forhold til et større korpus.

I motsetning til BoW, som baserer seg på rå telling av termer, tar TF-IDF hensyn til både frekvensen av en term i et dokument og dens inverse frekvens i hele korpuset. Dette reduserer innflytelsen til vanlige termer og fremhever sjeldnere, mer informative ord.

Hvordan TF-IDF fungerer

TF-IDF-verdien for et begrep i et dokument beregnes som:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

hvor:

$t$ er begrepet (et ord eller n-gram);
$d$ er dokumentet.

Det finnes mange varianter for å beregne $\operatorname{tf}$ og $\operatorname{idf}$ -verdier. Her ser vi på ett vanlig alternativ for hver:

Termfrekvens (TF)

Angir hvor ofte et begrep forekommer i et dokument, og fanger opp dets relative betydning i dokumentet. På samme måte som i bag of words-modellen brukes ofte en enkel opptelling:

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Invers dokumentfrekvens (IDF)

Måler hvor sjeldent et begrep er i hele korpuset. Dette kan beregnes som den naturlige logaritmen av forholdet mellom totalt antall dokumenter og antall dokumenter som inneholder begrepet:

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Denne formelen bruker utjevning (legger til 1) for å unngå divisjon med null og sikrer at selv vanlige begreper får en IDF-verdi som ikke er null. IDF nedvekter dermed hyppige begreper og fremhever mer informative, sjeldne begreper.

Uten IDF-komponenten ville TF-IDF reduseres til en enkel opptelling av begreper — altså en bag of words-modell.

Beregning av TF-IDF

Her følger et enkelt eksempel:

I dette tilfellet har vi kun to dokumenter og bruker bare unigrammer (enkeltord), så beregningene er enkle. Vi begynner med å beregne termfrekvensene for hvert ord i begge dokumentene, etterfulgt av IDF-verdiene for termene "a" og "is".

Merk

Siden det kun er to dokumenter i vårt korpus, vil hver term som forekommer i begge dokumentene ha en IDF-verdi på 1, mens andre termer vil ha en IDF-verdi på ~1.406465.

Til slutt kan vi beregne TF-IDF-verdiene for hver term i hvert dokument ved å multiplisere TF med IDF, noe som gir følgende matrise:

L2-normalisering

De resulterende TF-IDF-vektorene kan variere betydelig i størrelse, spesielt i store tekstsamlinger, på grunn av forskjeller i dokumentlengde. Derfor brukes L2-normalisering ofte — for å skalere alle vektorer til en ensartet lengde, slik at man kan sammenligne dokumenter av ulik lengde på en rettferdig og upartisk måte.

Les mer

L2-normalisering, også kjent som euklidsk normalisering, er en prosess som brukes på individuelle vektorer for å justere verdiene slik at vektorens lengde blir 1.

L2-normalisering utføres ved å dele hvert element i vektoren på vektorens euklidske norm.

Hvis dokumentvektoren ser slik ut:

d = (w_1, w_2, w_3, ..., w_N)

hvor $w_i$ er vekten til term $i$ ,

så ser den euklidske normen slik ut:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

og den normaliserte vektoren ser slik ut:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

Slik fungerer L2-normalisering for en todimensjonal vektor (et dokument med 2 termer):

Merk

Ikke bekymre deg hvis formlene ser kompliserte ut. Alt vi gjør er å dele hver TF-IDF-verdi i et dokument på lengden (eller størrelsen) til dokumentets TF-IDF-vektor. Dette skalerer vektoren slik at lengden blir 1, noe som sikrer konsistente sammenligninger av vektorer.

La oss nå anvende L2-normalisering på vår TF-IDF-matrise, som vi beregnet ovenfor:

Den resulterende matrisen er nøyaktig det vi hadde som eksempel i et av de forrige kapitlene.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain why L2 normalization is important for comparing documents?

How does TF-IDF differ from the bag of words model in practice?

Can you walk me through a step-by-step example of calculating TF-IDF for a small dataset?

Awesome!

Completion rate improved to 3.45

Sveip for å vise menyen

Forståelse av TF-IDF

Definisjon

TF-IDF (term frequency-inverse document frequency) er et statistisk mål som reflekterer hvor viktig et ord er for et spesifikt dokument i forhold til et større korpus.

Hvordan TF-IDF fungerer

TF-IDF-verdien for et begrep i et dokument beregnes som:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

hvor:

$t$ er begrepet (et ord eller n-gram);
$d$ er dokumentet.

Det finnes mange varianter for å beregne $\operatorname{tf}$ og $\operatorname{idf}$ -verdier. Her ser vi på ett vanlig alternativ for hver:

Termfrekvens (TF)

Angir hvor ofte et begrep forekommer i et dokument, og fanger opp dets relative betydning i dokumentet. På samme måte som i bag of words-modellen brukes ofte en enkel opptelling:

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Invers dokumentfrekvens (IDF)

Måler hvor sjeldent et begrep er i hele korpuset. Dette kan beregnes som den naturlige logaritmen av forholdet mellom totalt antall dokumenter og antall dokumenter som inneholder begrepet:

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Uten IDF-komponenten ville TF-IDF reduseres til en enkel opptelling av begreper — altså en bag of words-modell.

Beregning av TF-IDF

Her følger et enkelt eksempel:

Merk

Siden det kun er to dokumenter i vårt korpus, vil hver term som forekommer i begge dokumentene ha en IDF-verdi på 1, mens andre termer vil ha en IDF-verdi på ~1.406465.

Til slutt kan vi beregne TF-IDF-verdiene for hver term i hvert dokument ved å multiplisere TF med IDF, noe som gir følgende matrise:

L2-normalisering

Les mer

L2-normalisering, også kjent som euklidsk normalisering, er en prosess som brukes på individuelle vektorer for å justere verdiene slik at vektorens lengde blir 1.

L2-normalisering utføres ved å dele hvert element i vektoren på vektorens euklidske norm.

Hvis dokumentvektoren ser slik ut:

d = (w_1, w_2, w_3, ..., w_N)

hvor $w_i$ er vekten til term $i$ ,

så ser den euklidske normen slik ut:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

og den normaliserte vektoren ser slik ut:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

Slik fungerer L2-normalisering for en todimensjonal vektor (et dokument med 2 termer):

Merk

La oss nå anvende L2-normalisering på vår TF-IDF-matrise, som vi beregnet ovenfor:

Den resulterende matrisen er nøyaktig det vi hadde som eksempel i et av de forrige kapitlene.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6