Identification des valeurs aberrantes et des erreurs
Glissez pour afficher le menu
Après avoir supprimé les doublons, l'étape suivante consiste à vérifier vos données pour détecter les valeurs aberrantes et les erreurs.
Les valeurs aberrantes sont des valeurs qui se distinguent nettement du reste des données. Elles n'indiquent pas toujours un problème, mais très souvent, elles signalent une anomalie, comme une saisie incorrecte ou un problème lors de l'importation.
Les erreurs, quant à elles, sont des valeurs qui n'ont clairement pas de sens dans le contexte de vos données. Par exemple, un nombre inhabituellement élevé, une valeur négative là où elle ne devrait pas exister, ou un total qui ne correspond pas à la quantité.
Examinons un exemple simple :
À première vue, tout semble correct, mais en y regardant de plus près, certaines valeurs suscitent des questions.
La quantité de 10 peut être valide, mais cela dépend du contexte. Cependant, la valeur totale de 9999 se démarque clairement par rapport aux autres et paraît suspecte.
Si vous ne vérifiez pas les valeurs aberrantes et les erreurs, elles peuvent fausser considérablement votre analyse. Par exemple, une seule valeur incorrecte comme 9999 peut fausser les moyennes ou les totaux et conduire à de mauvaises conclusions.
Comment identifier les valeurs aberrantes
Le tri est également très utile. Si vous triez une colonne par ordre croissant ou décroissant, les valeurs extrêmes apparaîtront en haut ou en bas, ce qui les rend faciles à examiner.
Une approche simple mais efficace consiste à se demander : « Cette valeur semble-t-elle réaliste ? »
Si la plupart des valeurs se situent dans une certaine plage, par exemple 500 à 1000, et qu'une valeur est 9999, c'est un signal clair qu'il peut y avoir un problème et qu'il faut vérifier.
Il est important de comprendre que toutes les valeurs aberrantes ne sont pas des erreurs. Parfois, il s'agit d'une valeur réelle, mais elle doit toujours être vérifiée.
Tâche
Examiner les données et identifier les valeurs qui semblent suspectes.
Déterminer :
- Quelles valeurs se situent en dehors de la plage attendue ;
- Quelles valeurs peuvent être des erreurs.
Tout d'abord, dans la colonne Quantity, la valeur 10 semble inhabituelle car la plupart des autres valeurs sont 1 ou 2. Ce n'est pas nécessairement une erreur, mais cela nécessite certainement une vérification.
Ensuite, dans la colonne Total, la valeur 9999 se démarque clairement de l'ensemble des valeurs, puisque la plupart se situent approximativement entre 500 et 4000. Il s'agit d'un candidat probable pour une erreur.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion