Identifisering av avvik og feil
Sveip for å vise menyen
Etter å ha fjernet duplikater, er neste viktige steg å kontrollere dataene dine for avvik og feil.
Avvik er verdier som skiller seg betydelig ut fra resten av dataene. De betyr ikke alltid at noe er galt, men ofte indikerer de et problem, som feil dataregistrering eller en feil under import.
Feil, derimot, er verdier som åpenbart ikke gir mening i konteksten av dataene dine. For eksempel et uvanlig høyt tall, en negativ verdi der det ikke skal finnes, eller en sum som ikke stemmer med antallet.
La oss se på et enkelt eksempel:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
Ved første øyekast ser alt greit ut, men hvis du ser nærmere, er det noen verdier som vekker spørsmål.
Mengden 10 kan være gyldig, men det avhenger av konteksten. Derimot skiller totalsummen 9999 seg tydelig ut sammenlignet med resten og virker mistenkelig.
Hvis du ikke kontrollerer for avvik og feil, kan de forvrenge analysen din betydelig. For eksempel kan én feil verdi som 9999 påvirke gjennomsnitt eller summer og føre til gale konklusjoner.
Hvordan identifisere avvik
Sortering er også svært nyttig. Hvis du sorterer en kolonne i stigende eller synkende rekkefølge, vil ekstreme verdier vises øverst eller nederst, noe som gjør dem enkle å gjennomgå.
En enkel, men effektiv tilnærming er å spørre seg selv: "Ser denne verdien realistisk ut?"
Hvis de fleste verdier ligger innenfor et bestemt område, for eksempel 500 til 1000, og én verdi er 9999, er det et tydelig signal om at noe kan være galt og bør sjekkes.
Det er viktig å forstå at ikke alle avvik er feil. Noen ganger er det en reell verdi, men den bør alltid verifiseres.
Gå gjennom dataene og identifiser verdier som virker mistenkelige.
Bestem:
- Hvilke verdier som faller utenfor forventet område;
- Hvilke verdier som kan være feil.
Først, i kolonnen Quantity, ser verdien 10 uvanlig ut fordi de fleste andre verdier er 1 eller 2. Det er ikke nødvendigvis en feil, men det krever definitivt verifisering.
For det andre, i kolonnen Total, skiller verdien 9999 seg tydelig ut fra det generelle området, siden de fleste verdier ligger omtrent mellom 500 og 4000. Dette er en sterk kandidat for en feil.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår