Poikkeavien arvojen ja virheiden tunnistaminen
Pyyhkäise näyttääksesi valikon
Kaksoiskappaleiden poistamisen jälkeen seuraava tärkeä vaihe on tarkistaa aineistosta poikkeavat arvot ja virheet.
Poikkeavat arvot ovat arvoja, jotka erottuvat selvästi muusta aineistosta. Ne eivät aina tarkoita, että jokin on vialla, mutta usein ne viittaavat ongelmaan, kuten virheelliseen tietojen syöttöön tai tuontivirheeseen.
Virheet puolestaan ovat arvoja, jotka eivät selvästikään sovi aineiston kontekstiin. Esimerkiksi poikkeuksellisen suuri luku, negatiivinen arvo paikassa, jossa sen ei pitäisi olla, tai summa, joka ei vastaa määrää.
Tarkastellaan yksinkertaista esimerkkiä:
Pikaisella vilkaisulla kaikki näyttää olevan kunnossa, mutta tarkemmin katsottuna jotkin arvot herättävät kysymyksiä.
Määrä 10 voi olla pätevä, mutta se riippuu kontekstista. Sen sijaan kokonaissumma 9999 erottuu selvästi muista ja vaikuttaa epäilyttävältä.
Jos poikkeavia arvoja ja virheitä ei tarkisteta, ne voivat vääristää analyysiä merkittävästi. Esimerkiksi yksi virheellinen arvo, kuten 9999, voi vääristää keskiarvoja tai summia ja johtaa vääriin johtopäätöksiin.
Kuinka tunnistaa poikkeavat arvot
Lajittelu on myös erittäin hyödyllistä. Kun lajittelet sarakkeen nousevaan tai laskevaan järjestykseen, äärimmäiset arvot näkyvät ylhäällä tai alhaalla, jolloin ne on helppo tarkistaa.
Yksinkertainen mutta tehokas lähestymistapa on kysyä itseltäsi: "Näyttääkö tämä arvo realistiselta?"
Jos suurin osa arvoista sijoittuu tietylle alueelle, kuten 500–1000, ja yksi arvo on 9999, se on selvä merkki siitä, että jokin saattaa olla vialla ja vaatii tarkistusta.
On tärkeää ymmärtää, että kaikki poikkeavat arvot eivät ole virheitä. Joskus kyseessä on todellinen arvo, mutta se tulee aina varmistaa.
Tehtävä
Tarkastele dataa ja tunnista arvot, jotka vaikuttavat epäilyttäviltä.
Määritä:
- Mitkä arvot ovat odotetun alueen ulkopuolella;
- Mitkä arvot saattavat olla virheitä.
Ensinnäkin Quantity-sarakkeessa arvo 10 vaikuttaa poikkeavalta, koska useimmat muut arvot ovat 1 tai 2. Se ei välttämättä ole virhe, mutta se vaatii ehdottomasti tarkistusta.
Toiseksi Total-sarakkeessa arvo 9999 erottuu selvästi muista, sillä suurin osa arvoista sijoittuu suunnilleen välille 500 ja 4000. Tämä on vahva ehdokas virheeksi.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme