Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Extração de Características de Texto | Engenharia de Recursos
Pré-processamento de Dados
course content

Conteúdo do Curso

Pré-processamento de Dados

Pré-processamento de Dados

1. Breve Introdução
2. Processamento de Dados Quantitativos
3. Processamento de Dados Categóricos
4. Processamento de Dados de Séries Temporais
5. Engenharia de Recursos
6. Passando para as Tarefas

bookExtração de Características de Texto

Agora, voltamos nossa atenção para a análise de casos de trabalho específicos com dados textuais. O objetivo é identificar informações relevantes dentro do texto, como palavras ou frases, e convertê-las em um formato facilmente compreensível por um computador. Esse processo envolve várias técnicas, como tokenização, remoção de stopwords, stemming e vetorização. As características resultantes podem ser usadas para construir modelos preditivos para diversas tarefas de processamento de linguagem natural (PLN), tais como análise de sentimentos, modelagem de tópicos e classificação de texto.

Existem vários métodos para extração de características de texto, mas alguns dos mais comumente utilizados incluem:

  1. Bag of words (BoW) - um método que representa o texto como um conjunto de palavras únicas, ignorando a ordem das palavras e a gramática das frases. Funciona contando a frequência de cada palavra no texto e criando um vetor dessas frequências.
  2. Frequência do termo-inverso da frequência nos documentos (TF-IDF) - um método que considera a importância de cada palavra no texto, calculando a frequência de uma palavra em um documento (frequência do termo) e a frequência dessa palavra em todo o corpus de documentos (frequência inversa nos documentos). Isso resulta em um vetor de pontuações de importância para cada palavra no texto.
  3. Word embeddings - um método que representa palavras em um espaço vetorial contínuo, capturando as relações semânticas entre as palavras. Isso é alcançado treinando uma rede neural em um grande corpus de texto para prever o contexto no qual uma palavra aparece.
  4. Alocação Latente de Dirichlet (LDA) - um método de modelagem de tópicos, que representa cada documento como uma mistura de tópicos, onde cada tópico é representado por uma distribuição de palavras. LDA pode ser usado para extrair características do texto identificando os tópicos mais relevantes para um dado documento ou corpus.

Agora, não nos aprofundaremos na teoria matemática de cada método, mas apenas mencionaremos que a representação de texto mais eficiente no momento é realizada com base no método de word embeddings.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 3
some-alt