Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Extracción de Características de Texto | Ingeniería de Características
Procesamiento Previo de Datos
course content

Contenido del Curso

Procesamiento Previo de Datos

Procesamiento Previo de Datos

1. Introducción Breve
2. Procesamiento de Datos Cuantitativos
3. Procesamiento de Datos Categóricos
4. Procesamiento de Datos de Series Temporales
5. Ingeniería de Características
6. Avanzando a Tareas

bookExtracción de Características de Texto

Pasamos ahora a considerar casos de trabajo específicos con datos de texto. El objetivo es identificar la información relevante dentro del texto, como palabras o frases, y convertirlas a un formato que un ordenador pueda entender fácilmente. En este proceso intervienen varias técnicas, como la tokenización, la eliminación de palabras vacías, el stemming y la vectorización. Las características resultantes pueden utilizarse para crear modelos predictivos para diversas tareas de procesamiento del lenguaje natural (PLN), como el análisis de sentimientos, el modelado de temas y la clasificación de textos.

Existen varios métodos para la extracción de características a partir de texto, pero algunos de los más utilizados son:

  1. Bolsa de palabras (BoW): método que representa el texto como un conjunto de palabras únicas, ignorando el orden de las palabras y la gramática de las frases. Funciona contando la frecuencia de cada palabra en el texto y creando un vector de esas frecuencias.
  2. Frecuencia de términos-frecuencia inversa de documentos (TF-IDF): método que tiene en cuenta la importancia de cada palabra en el texto calculando la frecuencia de una palabra en un documento (frecuencia de términos) y la frecuencia de esa palabra en todo el corpus de documentos (frecuencia inversa de documentos). El resultado es un vector de puntuaciones de importancia para cada palabra del texto.
  3. Incorporación de palabras: método que representa las palabras en un espacio vectorial continuo, capturando las relaciones semánticas entre ellas. Esto se consigue entrenando una red neuronal en un gran corpus de texto para predecir el contexto en el que aparece una palabra.
  4. Asignación latente de Dirichlet (LDA): método de modelización de temas que representa cada documento como una mezcla de temas, donde cada tema está representado por una distribución de palabras. LDA puede utilizarse para extraer características del texto identificando los temas más relevantes para un documento o corpus determinado.

Ahora no profundizaremos en la teoría matemática de cada método, sino que sólo mencionaremos que la representación de texto más eficiente en la actualidad se realiza a partir del método de incrustación de palabras.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 3
some-alt