Scorri per mostrare il menu

I modelli di spazio vettoriale possono essere classificati in base al modo in cui rappresentano il testo, spaziando da semplici metodi basati sulla frequenza a embedding più avanzati e sensibili al contesto. Ogni approccio offre vantaggi distinti ed è adatto a diversi tipi di compiti di NLP.

Bag of Words

Bag of words (BoW) è un modello di spazio vettoriale che rappresenta i documenti come vettori in cui ogni dimensione corrisponde a una parola unica. Può essere binario (indica la presenza della parola) oppure basato sulla frequenza (indica il conteggio delle parole).

Ecco un esempio di BoW basato sulla frequenza:

Come si può vedere, ogni documento è rappresentato da un vettore, con ogni dimensione che corrisponde alla frequenza di una parola specifica all'interno di quel documento. Nel caso di un modello bag of words binario, ogni vettore conterrebbe solo 0 o 1 per ciascuna parola, indicando rispettivamente la sua assenza o presenza.

Nota

La pre-elaborazione del testo è un passaggio necessario prima di applicare BoW o modelli simili.

TF-IDF

Il modello TF-IDF (term frequency-inverse document frequency) estende l'approccio bag of words (BoW) regolando le frequenze delle parole in base alla loro presenza in tutti i documenti. Questo modello enfatizza le parole uniche di un documento, fornendo così informazioni più specifiche sul contenuto del documento.

Ciò viene ottenuto combinando la frequenza del termine (il numero di volte in cui una parola appare in un documento) con la frequenza inversa del documento (una misura di quanto una parola sia comune o rara nell'intero dataset).

Ecco il risultato dell'applicazione di TF-IDF ai documenti dell'esempio precedente:

I vettori risultanti, arricchiti dal TF-IDF, mostrano una maggiore varietà, offrendo una comprensione più approfondita del contenuto del documento.

Embedding di parole e embedding di documenti

Gli embedding di parole associano singole parole a vettori densi in uno spazio continuo a bassa dimensionalità, catturando somiglianze semantiche che non sono direttamente interpretabili.

Gli embedding di documenti, invece, generano vettori densi che rappresentano interi documenti, cogliendone il significato semantico complessivo.

Nota

La dimensionalità (dimensione) degli embedding viene solitamente scelta in base ai requisiti del progetto e alle risorse computazionali disponibili. La selezione della dimensione corretta è fondamentale per bilanciare la ricchezza delle informazioni semantiche e l'efficienza del modello.

Ecco un esempio di come potrebbero apparire gli embedding di parole per le parole "cat", "kitten", "dog" e "house":

Sebbene i valori numerici in questa tabella siano arbitrari, illustrano come gli embedding possano rappresentare relazioni significative tra le parole.

Nelle applicazioni reali, tali embedding vengono appresi addestrando un modello su un ampio corpus di testo, permettendogli di scoprire schemi sottili e relazioni semantiche all'interno del linguaggio naturale.

Approfondisci

Un ulteriore progresso nelle rappresentazioni dense, gli embedding contestuali (generati da modelli come BERT e GPT), considera il contesto in cui una parola appare per generare il suo vettore. Questo significa che la stessa parola può avere embedding diversi a seconda del suo utilizzo in frasi differenti, fornendo una comprensione più sfumata del linguaggio.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 19

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Tipi di Modelli di Spazio Vettoriale

Bag of Words

Ecco un esempio di BoW basato sulla frequenza:

Nota

La pre-elaborazione del testo è un passaggio necessario prima di applicare BoW o modelli simili.

TF-IDF

Ecco il risultato dell'applicazione di TF-IDF ai documenti dell'esempio precedente:

I vettori risultanti, arricchiti dal TF-IDF, mostrano una maggiore varietà, offrendo una comprensione più approfondita del contenuto del documento.

Embedding di parole e embedding di documenti

Gli embedding di parole associano singole parole a vettori densi in uno spazio continuo a bassa dimensionalità, catturando somiglianze semantiche che non sono direttamente interpretabili.

Gli embedding di documenti, invece, generano vettori densi che rappresentano interi documenti, cogliendone il significato semantico complessivo.

Nota

Ecco un esempio di come potrebbero apparire gli embedding di parole per le parole "cat", "kitten", "dog" e "house":

Sebbene i valori numerici in questa tabella siano arbitrari, illustrano come gli embedding possano rappresentare relazioni significative tra le parole.

Approfondisci

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 19