Identificación de valores atípicos y errores
Desliza para mostrar el menú
Después de eliminar duplicados, el siguiente paso importante es revisar tus datos en busca de valores atípicos y errores.
Los valores atípicos son valores que destacan significativamente del resto de los datos. No siempre significan que algo está mal, pero muy a menudo indican un problema, como una entrada de datos incorrecta o un error durante la importación.
Por otro lado, los errores son valores que claramente no tienen sentido en el contexto de tus datos. Por ejemplo, un número inusualmente grande, un valor negativo donde no debería existir, o un total que no coincide con la cantidad.
Veamos un ejemplo sencillo:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
A simple vista, todo parece estar bien, pero si observas con más detalle, algunos valores generan dudas.
La cantidad de 10 podría ser válida, pero depende del contexto. Sin embargo, el valor total de 9999 claramente destaca en comparación con el resto y parece sospechoso.
Si no revisas los valores atípicos y errores, pueden distorsionar significativamente tu análisis. Por ejemplo, un valor incorrecto como 9999 puede sesgar promedios o totales y llevar a conclusiones erróneas.
Cómo identificar valores atípicos
Ordenar también es muy útil. Si ordenas una columna en orden ascendente o descendente, los valores extremos aparecerán en la parte superior o inferior, lo que facilita su revisión.
Un enfoque simple pero efectivo es preguntarte: "¿Este valor parece realista?"
Si la mayoría de los valores se encuentran dentro de un cierto rango, como 500 a 1000, y un valor es 9999, eso es una señal clara de que algo puede estar mal y necesita ser revisado.
Es importante entender que no todo valor atípico es un error. A veces es un valor real, pero siempre debe ser verificado.
Revisar los datos e identificar los valores que parecen sospechosos.
Determinar:
- Qué valores están fuera del rango esperado;
- Qué valores pueden ser errores.
Primero, en la columna Quantity, el valor 10 parece inusual porque la mayoría de los otros valores son 1 o 2. No necesariamente es un error, pero definitivamente requiere verificación.
En segundo lugar, en la columna Total, el valor 9999 claramente destaca del rango general, ya que la mayoría de los valores están aproximadamente entre 500 y 4000. Este es un fuerte candidato a ser un error.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla