Aprenda Fundamentos de Embeddings de Palavras

Compreendendo Embeddings de Palavras

Métodos tradicionais de representação de texto, como bag of words e TF-IDF, apresentam limitações notáveis. Eles tratam as palavras isoladamente, ignorando relações semânticas, e produzem vetores esparsos e de alta dimensionalidade, tornando-se ineficientes computacionalmente em grandes corpora.

Embeddings de palavras resolvem essas questões ao considerar o contexto em que as palavras aparecem, proporcionando uma compreensão mais detalhada da linguagem.

Definição

Embeddings de palavras são representações densas de palavras em um espaço vetorial contínuo, onde palavras semanticamente semelhantes são mapeadas para pontos próximos.

Diversos modelos e técnicas foram desenvolvidos para gerar embeddings de palavras significativos:

Word2Vec: desenvolvido pelo Google, o Word2Vec representa palavras como vetores densos utilizando duas arquiteturas: continuous bag of words (CBoW), que prevê uma palavra a partir de seu contexto ao redor, e Skip-gram, que prevê palavras ao redor a partir de uma palavra dada;
GloVe: criado em Stanford, o GloVe (global vectors) gera embeddings de palavras analisando estatísticas globais de coocorrência de palavras em todo o corpus, capturando relações semânticas com base na frequência com que pares de palavras aparecem juntos;
FastText: introduzido pelo Facebook AI Research, o FastText expande o Word2Vec ao representar palavras como uma coleção de n-gramas de caracteres. Isso permite modelar informações de subpalavras, melhorando sua capacidade de lidar com palavras raras, fora do vocabulário e com línguas morfologicamente ricas.

Word2Vec e FastText são os modelos mais utilizados para gerar embeddings de palavras. No entanto, como o FastText é apenas uma versão aprimorada do Word2Vec, iremos ignorá-lo e focar apenas no Word2Vec.

Como o Word2Vec funciona?

O Word2Vec transforma palavras em vetores utilizando um processo que começa com a codificação one-hot, onde cada palavra em um vocabulário é representada por um vetor único marcado por um único 1 entre zeros. Veja um exemplo:

Esse vetor serve como entrada para uma rede neural, que é projetada para 'aprender' as embeddings de palavras. A arquitetura da rede pode seguir um dos dois modelos:

CBoW (continuous bag of words): prevê uma palavra-alvo com base no contexto fornecido pelas palavras ao redor;
Skip-gram: prevê as palavras de contexto ao redor com base na palavra-alvo.

Em ambas as arquiteturas do Word2Vec, durante cada iteração de treinamento, o modelo recebe uma palavra-alvo e as palavras ao redor como contexto, representadas como vetores one-hot. O conjunto de dados de treinamento é, portanto, composto efetivamente por esses pares ou grupos, onde cada palavra-alvo está associada às suas palavras de contexto ao redor.

Cada palavra no vocabulário assume o papel de alvo à medida que o modelo percorre o texto utilizando a técnica de janela deslizante de contexto. Essa técnica move-se sistematicamente por cada palavra, garantindo aprendizado abrangente de todos os contextos possíveis dentro do corpus.

Definição

Uma janela de contexto é um número fixo de palavras ao redor de uma palavra-alvo que o modelo utiliza para aprender seu contexto. Ela define quantas palavras antes e depois da palavra-alvo são consideradas durante o treinamento.

Vamos analisar um exemplo com tamanho de janela igual a 2 para esclarecer:

Um tamanho de janela de contexto igual a 2 significa que o modelo incluirá até 2 palavras tanto à esquerda quanto à direita da palavra-alvo, desde que essas palavras estejam disponíveis dentro dos limites do texto. Como pode ser observado, se houver menos de 2 palavras em qualquer um dos lados, o modelo incluirá quantas palavras estiverem disponíveis.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the main differences between Word2Vec, GloVe, and FastText?

How does the sliding context window impact the quality of word embeddings?

Can you provide a simple example of how Word2Vec learns word relationships?

Awesome!

Completion rate improved to 3.45

Deslize para mostrar o menu

Compreendendo Embeddings de Palavras

Embeddings de palavras resolvem essas questões ao considerar o contexto em que as palavras aparecem, proporcionando uma compreensão mais detalhada da linguagem.

Definição

Embeddings de palavras são representações densas de palavras em um espaço vetorial contínuo, onde palavras semanticamente semelhantes são mapeadas para pontos próximos.

Diversos modelos e técnicas foram desenvolvidos para gerar embeddings de palavras significativos:

Word2Vec: desenvolvido pelo Google, o Word2Vec representa palavras como vetores densos utilizando duas arquiteturas: continuous bag of words (CBoW), que prevê uma palavra a partir de seu contexto ao redor, e Skip-gram, que prevê palavras ao redor a partir de uma palavra dada;
GloVe: criado em Stanford, o GloVe (global vectors) gera embeddings de palavras analisando estatísticas globais de coocorrência de palavras em todo o corpus, capturando relações semânticas com base na frequência com que pares de palavras aparecem juntos;
FastText: introduzido pelo Facebook AI Research, o FastText expande o Word2Vec ao representar palavras como uma coleção de n-gramas de caracteres. Isso permite modelar informações de subpalavras, melhorando sua capacidade de lidar com palavras raras, fora do vocabulário e com línguas morfologicamente ricas.

Como o Word2Vec funciona?

Esse vetor serve como entrada para uma rede neural, que é projetada para 'aprender' as embeddings de palavras. A arquitetura da rede pode seguir um dos dois modelos:

CBoW (continuous bag of words): prevê uma palavra-alvo com base no contexto fornecido pelas palavras ao redor;
Skip-gram: prevê as palavras de contexto ao redor com base na palavra-alvo.

Definição

Vamos analisar um exemplo com tamanho de janela igual a 2 para esclarecer:

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1