Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Identifier les valeurs aberrantes et les erreurs | Suppression des doublons et des erreurs
Nettoyer des données dans Excel

bookIdentifier les valeurs aberrantes et les erreurs

Glissez pour afficher le menu

Après avoir supprimé les doublons, l'étape importante suivante consiste à vérifier vos données pour détecter les valeurs aberrantes et les erreurs.

Les valeurs aberrantes sont des valeurs qui se démarquent nettement du reste des données. Elles n'indiquent pas toujours un problème, mais très souvent, elles signalent une anomalie, comme une saisie incorrecte ou un problème lors de l'importation.

Les erreurs, quant à elles, sont des valeurs qui n'ont clairement pas de sens dans le contexte de vos données. Par exemple, un nombre inhabituellement élevé, une valeur négative là où elle ne devrait pas exister, ou un total qui ne correspond pas à la quantité.

Prenons un exemple simple :

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

À première vue, tout semble correct, mais en y regardant de plus près, certaines valeurs suscitent des interrogations.

La quantité de 10 peut être valide, mais cela dépend du contexte. Cependant, la valeur totale de 9999 se démarque clairement par rapport aux autres et paraît suspecte.

Si vous ne vérifiez pas la présence de valeurs aberrantes et d'erreurs, elles peuvent fausser considérablement votre analyse. Par exemple, une seule valeur incorrecte comme 9999 peut fausser les moyennes ou les totaux et conduire à de mauvaises conclusions.

Comment identifier les valeurs aberrantes

Le tri est également très utile. Si vous triez une colonne par ordre croissant ou décroissant, les valeurs extrêmes apparaîtront en haut ou en bas, ce qui les rend faciles à examiner.

Une approche simple mais efficace consiste à se demander : « Cette valeur semble-t-elle réaliste ? »

Si la plupart des valeurs se situent dans une certaine plage, comme 500 à 1000, et qu'une valeur est 9999, c'est un signe évident qu'il peut y avoir un problème et qu'il faut vérifier.

Il est important de comprendre que toute valeur aberrante n'est pas forcément une erreur. Parfois, il s'agit d'une valeur réelle, mais elle doit toujours être vérifiée.

Examiner les données et repérer les valeurs qui semblent suspectes.

Déterminer :

  • Quelles valeurs se situent en dehors de la plage attendue ;
  • Quelles valeurs pourraient être des erreurs.

Premièrement, dans la colonne Quantity, la valeur 10 paraît inhabituelle car la plupart des autres valeurs sont 1 ou 2. Ce n'est pas nécessairement une erreur, mais cela nécessite une vérification.

Deuxièmement, dans la colonne Total, la valeur 9999 se démarque clairement de l'ensemble de la plage, puisque la plupart des valeurs se situent approximativement entre 500 et 4000. Il s'agit d'une forte candidate pour une erreur.

question mark

Qu'est-ce qu'une valeur aberrante dans un ensemble de données ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 4. Chapitre 2
some-alt