Identifiering av avvikare och fel
Svep för att visa menyn
Efter att ha tagit bort dubbletter är nästa viktiga steg att kontrollera dina data för avvikare och fel.
Avvikare är värden som tydligt sticker ut från resten av datan. De betyder inte alltid att något är fel, men ofta indikerar de ett problem, såsom felaktig datainmatning eller ett fel vid import.
Fel, å andra sidan, är värden som tydligt inte är rimliga i sammanhanget av dina data. Exempelvis ett ovanligt stort tal, ett negativt värde där det inte borde finnas, eller en summa som inte stämmer med kvantiteten.
Här är ett enkelt exempel:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
Vid första anblicken ser allt bra ut, men om du tittar närmare väcker vissa värden frågor.
Kvantiteten 10 kan vara giltig, men det beror på sammanhanget. Däremot sticker totalsumman 9999 tydligt ut jämfört med de andra och ser misstänkt ut.
Om du inte kontrollerar för avvikare och fel kan de kraftigt förvränga din analys. Till exempel kan ett felaktigt värde som 9999 snedvrida medelvärden eller totalsummor och leda till felaktiga slutsatser.
Hur man identifierar avvikare
Sortering är också mycket hjälpsamt. Om du sorterar en kolumn i stigande eller fallande ordning kommer de extrema värdena att visas högst upp eller längst ner, vilket gör dem enkla att granska.
Ett enkelt men effektivt tillvägagångssätt är att fråga dig själv: "Ser detta värde realistiskt ut?"
Om de flesta värden ligger inom ett visst intervall, till exempel 500 till 1000, och ett värde är 9999, är det en tydlig signal om att något kan vara fel och behöver kontrolleras.
Det är viktigt att förstå att inte varje avvikare är ett fel. Ibland är det ett verkligt värde, men det bör alltid verifieras.
Granska data och identifiera värden som verkar misstänkta.
Fastställ:
- Vilka värden som ligger utanför det förväntade intervallet;
- Vilka värden som kan vara fel.
För det första, i kolumnen Quantity, ser värdet 10 ovanligt ut eftersom de flesta andra värden är 1 eller 2. Det behöver inte nödvändigtvis vara ett fel, men det kräver definitivt verifiering.
För det andra, i kolumnen Total, sticker värdet 9999 tydligt ut från det övergripande intervallet, eftersom de flesta värden ligger ungefär mellan 500 och 4000. Detta är en stark kandidat för ett fel.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal