Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitschieters en Fouten Identificeren | Duplicaten en Fouten Verwijderen
Gegevens Opschonen in Excel

bookUitschieters en Fouten Identificeren

Veeg om het menu te tonen

Na het verwijderen van duplicaten is de volgende belangrijke stap het controleren van je gegevens op uitschieters en fouten.

Uitschieters zijn waarden die aanzienlijk afwijken van de rest van de gegevens. Ze betekenen niet altijd dat er iets mis is, maar vaak wijzen ze op een probleem, zoals een foutieve gegevensinvoer of een probleem tijdens het importeren.

Fouten daarentegen zijn waarden die duidelijk niet logisch zijn binnen de context van je gegevens. Bijvoorbeeld een ongewoon groot getal, een negatieve waarde waar dat niet mogelijk is, of een totaal dat niet overeenkomt met de hoeveelheid.

Laten we een eenvoudig voorbeeld bekijken:

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

Op het eerste gezicht lijkt alles in orde, maar als je beter kijkt, roepen sommige waarden vragen op.

De hoeveelheid van 10 kan geldig zijn, maar dat hangt af van de context. De totale waarde van 9999 valt echter duidelijk op ten opzichte van de rest en lijkt verdacht.

Als je niet controleert op uitschieters en fouten, kunnen deze je analyse aanzienlijk verstoren. Eén foutieve waarde zoals 9999 kan bijvoorbeeld gemiddelden of totalen scheef trekken en tot verkeerde conclusies leiden.

Hoe uitschieters identificeren

Sorteren is ook zeer behulpzaam. Als je een kolom oplopend of aflopend sorteert, verschijnen de extreme waarden bovenaan of onderaan, waardoor ze eenvoudig te controleren zijn.

Een eenvoudige maar effectieve benadering is jezelf af te vragen: "Lijkt deze waarde realistisch?"

Als de meeste waarden binnen een bepaald bereik vallen, zoals 500 tot 1000, en één waarde is 9999, is dat een duidelijk signaal dat er mogelijk iets mis is en gecontroleerd moet worden.

Het is belangrijk te begrijpen dat niet elke uitschieter een fout is. Soms is het een echte waarde, maar deze moet altijd worden geverifieerd.

Bekijk de gegevens en identificeer waarden die verdacht lijken.

Bepaal:

  • Welke waarden buiten het verwachte bereik vallen;
  • Welke waarden mogelijk fouten zijn.

Ten eerste, in de kolom Quantity, lijkt de waarde 10 ongebruikelijk omdat de meeste andere waarden 1 of 2 zijn. Het hoeft niet per se een fout te zijn, maar het vereist zeker verificatie.

Ten tweede, in de kolom Total, valt de waarde 9999 duidelijk op binnen het totale bereik, aangezien de meeste waarden ongeveer tussen 500 en 4000 liggen. Dit is een sterke kandidaat voor een fout.

question mark

Wat is een uitschieter in een dataset?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 2

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 4. Hoofdstuk 2
some-alt