Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Poikkeavien Arvojen ja Virheiden Tunnistaminen | Päällekkäisyyksien ja Virheiden Poistaminen
Datan puhdistaminen Excelissä

bookPoikkeavien Arvojen ja Virheiden Tunnistaminen

Pyyhkäise näyttääksesi valikon

Kaksoiskappaleiden poistamisen jälkeen seuraava tärkeä vaihe on tarkistaa aineistosta poikkeavat arvot ja virheet.

Poikkeavat arvot ovat lukuja, jotka erottuvat selvästi muista tiedoista. Ne eivät aina tarkoita, että jokin on vialla, mutta usein ne viittaavat ongelmaan, kuten virheelliseen tietojen syöttöön tai tuontivirheeseen.

Virheet puolestaan ovat arvoja, jotka eivät selvästi sovi aineiston kontekstiin. Esimerkiksi poikkeuksellisen suuri luku, negatiivinen arvo kohdassa, jossa sen ei pitäisi olla, tai summa, joka ei vastaa määrää.

Tarkastellaan yksinkertaista esimerkkiä:

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

Päällisin puolin kaikki näyttää olevan kunnossa, mutta tarkemmin katsottuna jotkin arvot herättävät kysymyksiä.

Määrä 10 voi olla oikea, mutta se riippuu kontekstista. Sen sijaan kokonaissumma 9999 erottuu selvästi muista ja vaikuttaa epäilyttävältä.

Jos poikkeavia arvoja ja virheitä ei tarkisteta, ne voivat vääristää analyysiä merkittävästi. Esimerkiksi yksi virheellinen arvo, kuten 9999, voi vääristää keskiarvoja tai summia ja johtaa vääriin johtopäätöksiin.

Kuinka tunnistaa poikkeavat arvot

Lajittelu on myös erittäin hyödyllistä. Kun lajittelet sarakkeen nousevaan tai laskevaan järjestykseen, äärimmäiset arvot näkyvät ylhäällä tai alhaalla, jolloin ne on helppo tarkistaa.

Yksinkertainen mutta tehokas lähestymistapa on kysyä itseltäsi: "Näyttääkö tämä arvo realistiselta?"

Jos suurin osa arvoista sijoittuu tietylle alueelle, kuten 5001000, ja yksi arvo on 9999, se on selvä merkki siitä, että jokin saattaa olla vialla ja vaatii tarkistusta.

On tärkeää ymmärtää, että kaikki poikkeavat arvot eivät ole virheitä. Joskus kyseessä on oikea arvo, mutta se tulee aina varmistaa.

Tarkastele dataa ja tunnista arvot, jotka vaikuttavat epäilyttäviltä.

Määritä:

  • Mitkä arvot ovat odotetun alueen ulkopuolella;
  • Mitkä arvot saattavat olla virheitä.

Ensinnäkin Quantity-sarakkeessa arvo 10 vaikuttaa poikkeavalta, koska useimmat muut arvot ovat 1 tai 2. Se ei välttämättä ole virhe, mutta se vaatii ehdottomasti tarkistuksen.

Toiseksi Total-sarakkeessa arvo 9999 erottuu selvästi muista, sillä suurin osa arvoista sijoittuu suunnilleen välille 5004000. Tämä on vahva ehdokas virheeksi.

question mark

Mitä tarkoitetaan poikkeamalla tietoaineistossa?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 4. Luku 2
some-alt