Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Tipi di Modelli di Spazio Vettoriale | Sezione
Practice
Projects
Quizzes & Challenges
Quiz
Challenges
/
Elaborazione del Linguaggio Naturale

bookTipi di Modelli di Spazio Vettoriale

Scorri per mostrare il menu

I modelli di spazio vettoriale possono essere classificati in base al modo in cui rappresentano il testo, spaziando da semplici metodi basati sulla frequenza a embedding più avanzati e sensibili al contesto. Ogni approccio offre vantaggi distinti ed è adatto a diversi tipi di compiti di NLP.

Bag of Words

Bag of words (BoW) è un modello di spazio vettoriale che rappresenta i documenti come vettori in cui ogni dimensione corrisponde a una parola unica. Può essere binario (indica la presenza della parola) oppure basato sulla frequenza (indica il conteggio delle parole).

Ecco un esempio di BoW basato sulla frequenza:

Come si può vedere, ogni documento è rappresentato da un vettore, con ogni dimensione che corrisponde alla frequenza di una parola specifica all'interno di quel documento. Nel caso di un modello bag of words binario, ogni vettore conterrebbe solo 0 o 1 per ciascuna parola, indicando rispettivamente la sua assenza o presenza.

Note
Nota

La pre-elaborazione del testo è un passaggio necessario prima di applicare BoW o modelli simili.

TF-IDF

Il modello TF-IDF (term frequency-inverse document frequency) estende l'approccio bag of words (BoW) regolando le frequenze delle parole in base alla loro presenza in tutti i documenti. Questo modello enfatizza le parole uniche di un documento, fornendo così informazioni più specifiche sul contenuto del documento.

Ciò viene ottenuto combinando la frequenza del termine (il numero di volte in cui una parola appare in un documento) con la frequenza inversa del documento (una misura di quanto una parola sia comune o rara nell'intero dataset).

Ecco il risultato dell'applicazione di TF-IDF ai documenti dell'esempio precedente:

I vettori risultanti, arricchiti dal TF-IDF, mostrano una maggiore varietà, offrendo una comprensione più approfondita del contenuto del documento.

Embedding di parole e embedding di documenti

Gli embedding di parole associano singole parole a vettori densi in uno spazio continuo a bassa dimensionalità, catturando somiglianze semantiche che non sono direttamente interpretabili.

Gli embedding di documenti, invece, generano vettori densi che rappresentano interi documenti, cogliendone il significato semantico complessivo.

Note
Nota

La dimensionalità (dimensione) degli embedding viene solitamente scelta in base ai requisiti del progetto e alle risorse computazionali disponibili. La selezione della dimensione corretta è fondamentale per bilanciare la ricchezza delle informazioni semantiche e l'efficienza del modello.

Ecco un esempio di come potrebbero apparire gli embedding di parole per le parole "cat", "kitten", "dog" e "house":

Sebbene i valori numerici in questa tabella siano arbitrari, illustrano come gli embedding possano rappresentare relazioni significative tra le parole.

Nelle applicazioni reali, tali embedding vengono appresi addestrando un modello su un ampio corpus di testo, permettendogli di scoprire schemi sottili e relazioni semantiche all'interno del linguaggio naturale.

Note
Approfondisci

Un ulteriore progresso nelle rappresentazioni dense, gli embedding contestuali (generati da modelli come BERT e GPT), considera il contesto in cui una parola appare per generare il suo vettore. Questo significa che la stessa parola può avere embedding diversi a seconda del suo utilizzo in frasi differenti, fornendo una comprensione più sfumata del linguaggio.

question-icon

Ordina i modelli in base alla loro complessità, dal più semplice al più complesso.




Click or drag`n`drop items and fill in the blanks

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 19

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 1. Capitolo 19
some-alt