Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Identifiering av avvikare och fel | Ta Bort Dubbletter och Fel
Rensa Data i Excel

bookIdentifiering av avvikare och fel

Svep för att visa menyn

Efter att ha tagit bort dubbletter är nästa viktiga steg att kontrollera dina data för avvikare och fel.

Avvikare är värden som tydligt sticker ut från resten av datan. De betyder inte alltid att något är fel, men ofta indikerar de ett problem, såsom felaktig datainmatning eller ett fel vid import.

Fel, å andra sidan, är värden som tydligt inte är rimliga i sammanhanget av dina data. Exempelvis ett ovanligt stort tal, ett negativt värde där det inte borde finnas, eller en summa som inte stämmer med kvantiteten.

Här är ett enkelt exempel:

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

Vid första anblicken ser allt bra ut, men om du tittar närmare väcker vissa värden frågor.

Kvantiteten 10 kan vara giltig, men det beror på sammanhanget. Däremot sticker totalsumman 9999 tydligt ut jämfört med de andra och ser misstänkt ut.

Om du inte kontrollerar för avvikare och fel kan de kraftigt förvränga din analys. Till exempel kan ett felaktigt värde som 9999 snedvrida medelvärden eller totalsummor och leda till felaktiga slutsatser.

Hur man identifierar avvikare

Sortering är också mycket hjälpsamt. Om du sorterar en kolumn i stigande eller fallande ordning kommer de extrema värdena att visas högst upp eller längst ner, vilket gör dem enkla att granska.

Ett enkelt men effektivt tillvägagångssätt är att fråga dig själv: "Ser detta värde realistiskt ut?"

Om de flesta värden ligger inom ett visst intervall, till exempel 500 till 1000, och ett värde är 9999, är det en tydlig signal om att något kan vara fel och behöver kontrolleras.

Det är viktigt att förstå att inte varje avvikare är ett fel. Ibland är det ett verkligt värde, men det bör alltid verifieras.

Granska data och identifiera värden som verkar misstänkta.

Fastställ:

  • Vilka värden som ligger utanför det förväntade intervallet;
  • Vilka värden som kan vara fel.

För det första, i kolumnen Quantity, ser värdet 10 ovanligt ut eftersom de flesta andra värden är 1 eller 2. Det behöver inte nödvändigtvis vara ett fel, men det kräver definitivt verifiering.

För det andra, i kolumnen Total, sticker värdet 9999 tydligt ut från det övergripande intervallet, eftersom de flesta värden ligger ungefär mellan 500 och 4000. Detta är en stark kandidat för ett fel.

question mark

Vad är en avvikare i en datamängd?

Vänligen välj det korrekta svaret

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 2

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 4. Kapitel 2
some-alt