Contenido del Curso
Procesamiento Previo de Datos
Procesamiento Previo de Datos
Eliminación de Valores Atípicos
Los valores atípicos son puntos de datos que difieren significativamente de los demás puntos de un conjunto de datos. ¿Por qué es importante tratarlos? Los valores atípicos pueden deberse a errores de medición o de introducción de datos, o a otros factores, y pueden afectar significativamente al análisis de los datos.
Los valores atípicos pueden afectar significativamente al análisis estadístico, los modelos de aprendizaje automático y la visualización de datos. Pueden distorsionar los resultados del análisis estadístico, dar lugar a modelos de aprendizaje automático sesgados y dificultar la visualización precisa de los datos. Eliminar los valores atípicos puede ayudar a mejorar la precisión y fiabilidad del análisis y a mejorar la interpretabilidad de los resultados.
Hay varias formas de eliminar valores atípicos en Python, pero una técnica común es el método de puntuación Z:
import numpy as np # Generate small dataset dataset = np.random.normal(0, 1, 1000) # Calculate the Z-scores z_scores = (dataset - np.mean(dataset)) / np.std(dataset) # Find the indices of the outliers outlier_indices = np.where(np.abs(z_scores) > 3)[0] # Print outliers print('Outliers are: ', dataset[outlier_indices]) # Remove the outliers filtered_data = np.delete(dataset, outlier_indices)
En este ejemplo, primero generamos algunos datos de muestra utilizando el método random.normal()
. A continuación, calculamos las puntuaciones Z de los datos restando la media y dividiendo por la desviación estándar. Definimos los valores atípicos como cualquier punto de datos cuya puntuación Z absoluta sea superior a 3 (un umbral común para identificar valores atípicos). Encontramos los índices de estos valores atípicos utilizando el método .where()
y luego los eliminamos de los datos originales utilizando el método .delete()
.
Hay que aclarar que este método sólo funciona para datos gaussianos. Si sus datos tienen una distribución no simétrica, puede utilizar una puntuación Z modificada. La puntuación Z modificada se calcula como la diferencia entre un punto de datos y la mediana, dividida por la desviación absoluta de la mediana.
También es importante recordar que no es necesario eliminar todos los valores atípicos, ya que a veces pueden ser una parte natural de los datos y proporcionar información importante sobre el proceso o fenómeno subyacente que se está estudiando.
En algunos casos, los valores atípicos pueden representar sucesos raros o extremos que es importante captar en el análisis. Por ejemplo, en la investigación médica, los valores atípicos en los datos de pacientes hospitalizados pueden representar casos raros pero importantes que deben estudiarse por separado.
Además, los valores atípicos pueden deberse a errores de medición o fluctuaciones aleatorias de los datos. En estos casos, la eliminación de todos los valores atípicos puede no ser necesaria o apropiada.
¡Gracias por tus comentarios!