Poikkeavien Arvojen ja Virheiden Tunnistaminen
Pyyhkäise näyttääksesi valikon
Kaksoiskappaleiden poistamisen jälkeen seuraava tärkeä vaihe on tarkistaa aineistosta poikkeavat arvot ja virheet.
Poikkeavat arvot ovat lukuja, jotka erottuvat selvästi muista tiedoista. Ne eivät aina tarkoita, että jokin on vialla, mutta usein ne viittaavat ongelmaan, kuten virheelliseen tietojen syöttöön tai tuontivirheeseen.
Virheet puolestaan ovat arvoja, jotka eivät selvästi sovi aineiston kontekstiin. Esimerkiksi poikkeuksellisen suuri luku, negatiivinen arvo kohdassa, jossa sen ei pitäisi olla, tai summa, joka ei vastaa määrää.
Tarkastellaan yksinkertaista esimerkkiä:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
Päällisin puolin kaikki näyttää olevan kunnossa, mutta tarkemmin katsottuna jotkin arvot herättävät kysymyksiä.
Määrä 10 voi olla oikea, mutta se riippuu kontekstista. Sen sijaan kokonaissumma 9999 erottuu selvästi muista ja vaikuttaa epäilyttävältä.
Jos poikkeavia arvoja ja virheitä ei tarkisteta, ne voivat vääristää analyysiä merkittävästi. Esimerkiksi yksi virheellinen arvo, kuten 9999, voi vääristää keskiarvoja tai summia ja johtaa vääriin johtopäätöksiin.
Kuinka tunnistaa poikkeavat arvot
Lajittelu on myös erittäin hyödyllistä. Kun lajittelet sarakkeen nousevaan tai laskevaan järjestykseen, äärimmäiset arvot näkyvät ylhäällä tai alhaalla, jolloin ne on helppo tarkistaa.
Yksinkertainen mutta tehokas lähestymistapa on kysyä itseltäsi: "Näyttääkö tämä arvo realistiselta?"
Jos suurin osa arvoista sijoittuu tietylle alueelle, kuten 500–1000, ja yksi arvo on 9999, se on selvä merkki siitä, että jokin saattaa olla vialla ja vaatii tarkistusta.
On tärkeää ymmärtää, että kaikki poikkeavat arvot eivät ole virheitä. Joskus kyseessä on oikea arvo, mutta se tulee aina varmistaa.
Tarkastele dataa ja tunnista arvot, jotka vaikuttavat epäilyttäviltä.
Määritä:
- Mitkä arvot ovat odotetun alueen ulkopuolella;
- Mitkä arvot saattavat olla virheitä.
Ensinnäkin Quantity-sarakkeessa arvo 10 vaikuttaa poikkeavalta, koska useimmat muut arvot ovat 1 tai 2. Se ei välttämättä ole virhe, mutta se vaatii ehdottomasti tarkistuksen.
Toiseksi Total-sarakkeessa arvo 9999 erottuu selvästi muista, sillä suurin osa arvoista sijoittuu suunnilleen välille 500–4000. Tämä on vahva ehdokas virheeksi.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme