Lernen Tf-idf | Grundlegende Textmodelle

Verständnis von TF-IDF

Obwohl das Bag-of-Words-Modell einfach und effektiv ist, neigt es dazu, häufige Begriffe zu überbewerten, was die Identifikation von selteneren, aber informativeren Wörtern erschwert. Um dieses Problem zu lösen, wird stattdessen häufig das TF-IDF-Modell verwendet.

Definition

TF-IDF (Termfrequenz-inverse Dokumentfrequenz) ist ein statistisches Maß, das widerspiegelt, wie wichtig ein Wort für ein bestimmtes Dokument im Verhältnis zu einem größeren Korpus ist.

Im Gegensatz zu BoW, das auf reinen Worthäufigkeiten basiert, berücksichtigt TF-IDF sowohl die Häufigkeit eines Begriffs innerhalb eines Dokuments als auch seine inverse Häufigkeit im gesamten Korpus. Dadurch wird der Einfluss häufiger Begriffe reduziert und seltenere, informativerer hervorgehoben.

Funktionsweise von TF-IDF

Der TF-IDF-Wert für einen Begriff in einem Dokument wird wie folgt berechnet:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

wobei:

$t$ der Begriff (ein Wort oder N-Gramm) ist;
$d$ das Dokument ist.

Es existieren zahlreiche Varianten zur Berechnung der Werte für $\operatorname{tf}$ und $\operatorname{idf}$ . Im Folgenden wird jeweils eine gängige Option betrachtet:

Termfrequenz (TF)

Gibt an, wie häufig ein Begriff in einem Dokument vorkommt, und spiegelt dessen relative Bedeutung innerhalb dieses Dokuments wider. Ähnlich wie beim Bag-of-Words-Modell wird häufig eine einfache Zählung verwendet:

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Inverse Dokumentfrequenz (IDF)

Misst, wie selten ein Begriff im gesamten Korpus ist. Sie kann als natürlicher Logarithmus des Verhältnisses zwischen der Gesamtanzahl der Dokumente und der Anzahl der Dokumente, die den Begriff enthalten, berechnet werden:

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Diese Formel verwendet Glättung (Addition von 1), um eine Division durch Null zu vermeiden, und stellt sicher, dass auch häufige Begriffe einen von Null verschiedenen IDF-Wert erhalten. Dadurch werden häufig vorkommende Begriffe abgewertet und seltene, informativer Begriffe hervorgehoben.

Ohne die IDF-Komponente würde TF-IDF auf eine einfache Zählung der Begriffe reduziert werden — was im Wesentlichen dem Bag-of-Words-Modell entspricht.

Berechnung von TF-IDF

Im Folgenden wird ein einfaches Beispiel betrachtet:

In diesem Fall liegen nur zwei Dokumente vor und es werden ausschließlich Unigramme (einzelne Wörter) verwendet, sodass die Berechnungen unkompliziert sind. Zunächst werden die Termfrequenzen für jedes Wort in beiden Dokumenten berechnet, gefolgt von den IDF-Werten für die Begriffe "a" und "is".

Hinweis

Da unser Korpus nur zwei Dokumente umfasst, erhält jeder Begriff, der in beiden Dokumenten vorkommt, einen IDF-Wert von 1, während andere Begriffe einen IDF-Wert von ~1.406465 erhalten.

Abschließend können die TF-IDF-Werte für jeden Begriff in jedem Dokument berechnet werden, indem TF mit IDF multipliziert wird. Dies ergibt die folgende Matrix:

L2-Normalisierung

Die resultierenden TF-IDF-Vektoren können sich hinsichtlich ihrer Größe erheblich unterscheiden, insbesondere in großen Korpora, da die Dokumentenlänge variiert. Aus diesem Grund wird häufig die L2-Normalisierung angewendet – sie skaliert alle Vektoren auf eine einheitliche Länge und ermöglicht so faire und unbeeinflusste Vergleiche von Dokumenten unterschiedlicher Länge.

Mehr erfahren

L2-Normalisierung, auch als euklidische Normalisierung bekannt, ist ein Verfahren, das auf einzelne Vektoren angewendet wird und deren Werte so anpasst, dass die Länge des Vektors 1 beträgt.

Die L2-Normalisierung erfolgt, indem jedes Element des Vektors durch die euklidische Norm des Vektors geteilt wird.

Wenn der Dokumentenvektor wie folgt aussieht:

d = (w_1, w_2, w_3, ..., w_N)

wobei $w_i$ das Gewicht des Terms $i$ ist,

dann sieht die euklidische Norm so aus:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

und der normalisierte Vektor sieht so aus:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

So funktioniert die L2-Normalisierung für einen zweidimensionalen Vektor (ein Dokument mit 2 Begriffen):

Hinweis

Keine Sorge, wenn die Formeln komplex erscheinen. Im Wesentlichen teilen wir jeden TF-IDF-Wert in einem Dokument durch die Länge (oder den Betrag) des TF-IDF-Vektors dieses Dokuments. Dadurch wird der Vektor so skaliert, dass seine Länge 1 beträgt, was konsistente Vergleiche zwischen Vektoren ermöglicht.

Wenden wir nun die L2-Normalisierung auf unsere oben berechnete TF-IDF-Matrix an:

Die resultierende Matrix entspricht genau dem Beispiel aus einem der vorherigen Kapitel.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 3.45

Swipe um das Menü anzuzeigen

Verständnis von TF-IDF

Definition

TF-IDF (Termfrequenz-inverse Dokumentfrequenz) ist ein statistisches Maß, das widerspiegelt, wie wichtig ein Wort für ein bestimmtes Dokument im Verhältnis zu einem größeren Korpus ist.

Funktionsweise von TF-IDF

Der TF-IDF-Wert für einen Begriff in einem Dokument wird wie folgt berechnet:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

wobei:

$t$ der Begriff (ein Wort oder N-Gramm) ist;
$d$ das Dokument ist.

Es existieren zahlreiche Varianten zur Berechnung der Werte für $\operatorname{tf}$ und $\operatorname{idf}$ . Im Folgenden wird jeweils eine gängige Option betrachtet:

Termfrequenz (TF)

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Inverse Dokumentfrequenz (IDF)

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Ohne die IDF-Komponente würde TF-IDF auf eine einfache Zählung der Begriffe reduziert werden — was im Wesentlichen dem Bag-of-Words-Modell entspricht.

Berechnung von TF-IDF

Im Folgenden wird ein einfaches Beispiel betrachtet:

Hinweis

Da unser Korpus nur zwei Dokumente umfasst, erhält jeder Begriff, der in beiden Dokumenten vorkommt, einen IDF-Wert von 1, während andere Begriffe einen IDF-Wert von ~1.406465 erhalten.

Abschließend können die TF-IDF-Werte für jeden Begriff in jedem Dokument berechnet werden, indem TF mit IDF multipliziert wird. Dies ergibt die folgende Matrix:

L2-Normalisierung

Mehr erfahren

L2-Normalisierung, auch als euklidische Normalisierung bekannt, ist ein Verfahren, das auf einzelne Vektoren angewendet wird und deren Werte so anpasst, dass die Länge des Vektors 1 beträgt.

Die L2-Normalisierung erfolgt, indem jedes Element des Vektors durch die euklidische Norm des Vektors geteilt wird.

Wenn der Dokumentenvektor wie folgt aussieht:

d = (w_1, w_2, w_3, ..., w_N)

wobei $w_i$ das Gewicht des Terms $i$ ist,

dann sieht die euklidische Norm so aus:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

und der normalisierte Vektor sieht so aus:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

So funktioniert die L2-Normalisierung für einen zweidimensionalen Vektor (ein Dokument mit 2 Begriffen):

Hinweis

Wenden wir nun die L2-Normalisierung auf unsere oben berechnete TF-IDF-Matrix an:

Die resultierende Matrix entspricht genau dem Beispiel aus einem der vorherigen Kapitel.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6