Identificering af outliers og fejl
Stryg for at vise menuen
Efter at have fjernet dubletter er det næste vigtige skridt at kontrollere dine data for outliers og fejl.
Outliers er værdier, der markant skiller sig ud fra resten af dataene. De betyder ikke altid, at noget er galt, men ofte indikerer de et problem, såsom forkert dataindtastning eller en fejl under import.
Fejl er derimod værdier, der tydeligvis ikke giver mening i konteksten af dine data. For eksempel et usædvanligt stort tal, en negativ værdi hvor det ikke burde forekomme, eller et totalbeløb der ikke stemmer overens med mængden.
Lad os se på et simpelt eksempel:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
Ved første øjekast ser alt fint ud, men hvis du kigger nærmere, vækker nogle værdier spørgsmål.
Mængden på 10 kan være gyldig, men det afhænger af konteksten. Dog skiller totalværdien 9999 sig tydeligt ud i forhold til resten og virker mistænkelig.
Hvis du ikke kontrollerer for outliers og fejl, kan de forvride din analyse betydeligt. For eksempel kan én forkert værdi som 9999 skævvride gennemsnit eller totaler og føre til forkerte konklusioner.
Sådan identificeres outliers
Sortering er også meget nyttig. Hvis du sorterer en kolonne i stigende eller faldende rækkefølge, vil de ekstreme værdier vises øverst eller nederst, hvilket gør dem nemme at gennemgå.
En simpel, men effektiv tilgang er at spørge sig selv: "Ser denne værdi realistisk ud?"
Hvis de fleste værdier ligger inden for et bestemt interval, såsom 500 til 1000, og én værdi er 9999, er det et klart signal om, at noget kan være galt og bør undersøges.
Det er vigtigt at forstå, at ikke alle outliers er fejl. Nogle gange er det en reel værdi, men den bør altid verificeres.
Gennemgå dataene og identificer værdier, der ser mistænkelige ud.
Bestem:
- Hvilke værdier falder uden for det forventede interval;
- Hvilke værdier der kan være fejl.
Først, i kolonnen Quantity, ser værdien 10 usædvanlig ud, fordi de fleste andre værdier er 1 eller 2. Det er ikke nødvendigvis en fejl, men det kræver bestemt en verifikation.
For det andet, i kolonnen Total, skiller værdien 9999 sig tydeligt ud fra det samlede interval, da de fleste værdier ligger cirka mellem 500 og 4000. Dette er en stærk kandidat til at være en fejl.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat