Conteúdo do Curso
Pré-processamento de Dados
Pré-processamento de Dados
Extração de Características de Texto
Agora, voltamos nossa atenção para a análise de casos de trabalho específicos com dados textuais. O objetivo é identificar informações relevantes dentro do texto, como palavras ou frases, e convertê-las em um formato facilmente compreensível por um computador. Esse processo envolve várias técnicas, como tokenização, remoção de stopwords, stemming e vetorização. As características resultantes podem ser usadas para construir modelos preditivos para diversas tarefas de processamento de linguagem natural (PLN), tais como análise de sentimentos, modelagem de tópicos e classificação de texto.
Existem vários métodos para extração de características de texto, mas alguns dos mais comumente utilizados incluem:
- Bag of words (BoW) - um método que representa o texto como um conjunto de palavras únicas, ignorando a ordem das palavras e a gramática das frases. Funciona contando a frequência de cada palavra no texto e criando um vetor dessas frequências.
- Frequência do termo-inverso da frequência nos documentos (TF-IDF) - um método que considera a importância de cada palavra no texto, calculando a frequência de uma palavra em um documento (frequência do termo) e a frequência dessa palavra em todo o corpus de documentos (frequência inversa nos documentos). Isso resulta em um vetor de pontuações de importância para cada palavra no texto.
- Word embeddings - um método que representa palavras em um espaço vetorial contínuo, capturando as relações semânticas entre as palavras. Isso é alcançado treinando uma rede neural em um grande corpus de texto para prever o contexto no qual uma palavra aparece.
- Alocação Latente de Dirichlet (LDA) - um método de modelagem de tópicos, que representa cada documento como uma mistura de tópicos, onde cada tópico é representado por uma distribuição de palavras. LDA pode ser usado para extrair características do texto identificando os tópicos mais relevantes para um dado documento ou corpus.
Agora, não nos aprofundaremos na teoria matemática de cada método, mas apenas mencionaremos que a representação de texto mais eficiente no momento é realizada com base no método de word embeddings.
Obrigado pelo seu feedback!