Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Identification des valeurs aberrantes et des erreurs | Nettoyage et préparation des données Excel
Nettoyage et Préparation des Données Excel

Identification des valeurs aberrantes et des erreurs

Glissez pour afficher le menu

Après avoir supprimé les doublons, l'étape suivante consiste à vérifier vos données pour détecter les valeurs aberrantes et les erreurs.

Les valeurs aberrantes sont des valeurs qui se distinguent nettement du reste des données. Elles n'indiquent pas toujours un problème, mais très souvent, elles signalent une anomalie, comme une saisie incorrecte ou un problème lors de l'importation.

Les erreurs, quant à elles, sont des valeurs qui n'ont clairement pas de sens dans le contexte de vos données. Par exemple, un nombre inhabituellement élevé, une valeur négative là où elle ne devrait pas exister, ou un total qui ne correspond pas à la quantité.

Examinons un exemple simple :

À première vue, tout semble correct, mais en y regardant de plus près, certaines valeurs suscitent des questions.

La quantité de 10 peut être valide, mais cela dépend du contexte. Cependant, la valeur totale de 9999 se démarque clairement par rapport aux autres et paraît suspecte.

Si vous ne vérifiez pas les valeurs aberrantes et les erreurs, elles peuvent fausser considérablement votre analyse. Par exemple, une seule valeur incorrecte comme 9999 peut fausser les moyennes ou les totaux et conduire à de mauvaises conclusions.

Comment identifier les valeurs aberrantes

Le tri est également très utile. Si vous triez une colonne par ordre croissant ou décroissant, les valeurs extrêmes apparaîtront en haut ou en bas, ce qui les rend faciles à examiner.

Une approche simple mais efficace consiste à se demander : « Cette valeur semble-t-elle réaliste ? »

Si la plupart des valeurs se situent dans une certaine plage, par exemple 500 à 1000, et qu'une valeur est 9999, c'est un signal clair qu'il peut y avoir un problème et qu'il faut vérifier.

Il est important de comprendre que toutes les valeurs aberrantes ne sont pas des erreurs. Parfois, il s'agit d'une valeur réelle, mais elle doit toujours être vérifiée.

Tâche

Examiner les données et identifier les valeurs qui semblent suspectes.

Déterminer :

  • Quelles valeurs se situent en dehors de la plage attendue ;
  • Quelles valeurs peuvent être des erreurs.

Tout d'abord, dans la colonne Quantity, la valeur 10 semble inhabituelle car la plupart des autres valeurs sont 1 ou 2. Ce n'est pas nécessairement une erreur, mais cela nécessite certainement une vérification.

Ensuite, dans la colonne Total, la valeur 9999 se démarque clairement de l'ensemble des valeurs, puisque la plupart se situent approximativement entre 500 et 4000. Il s'agit d'un candidat probable pour une erreur.

question mark

Qu'est-ce qu'une valeur aberrante dans un ensemble de données ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 15

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 15
some-alt