Identificazione di valori anomali ed errori
Scorri per mostrare il menu
Dopo aver rimosso i duplicati, il passo successivo importante è controllare i dati per individuare valori anomali ed errori.
I valori anomali sono valori che si distinguono notevolmente dal resto dei dati. Non sempre indicano un errore, ma molto spesso segnalano un problema, come un inserimento dati errato o un problema durante l'importazione.
Gli errori, invece, sono valori che chiaramente non hanno senso nel contesto dei dati. Ad esempio, un numero insolitamente grande, un valore negativo dove non dovrebbe esistere, oppure un totale che non corrisponde alla quantità.
Vediamo un esempio semplice:
A prima vista, tutto sembra corretto, ma osservando più attentamente, alcuni valori sollevano dei dubbi.
La quantità di 10 potrebbe essere valida, ma dipende dal contesto. Tuttavia, il valore totale di 9999 si distingue chiaramente rispetto agli altri e appare sospetto.
Se non si controllano valori anomali ed errori, questi possono distorcere significativamente l'analisi. Ad esempio, un solo valore errato come 9999 può alterare medie o totali e portare a conclusioni errate.
Come identificare i valori anomali
L'ordinamento è anche molto utile. Se ordini una colonna in ordine crescente o decrescente, i valori estremi appariranno in cima o in fondo, rendendo più facile la loro revisione.
Un approccio semplice ma efficace è chiedersi: "Questo valore sembra realistico?"
Se la maggior parte dei valori rientra in un certo intervallo, come 500 a 1000, e un valore è 9999, questo è un chiaro segnale che qualcosa potrebbe non andare e necessita di essere verificato.
È importante capire che non ogni valore anomalo è un errore. A volte si tratta di un valore reale, ma dovrebbe sempre essere verificato.
Attività
Esaminare i dati e identificare i valori che sembrano sospetti.
Determinare:
- Quali valori rientrano al di fuori dell'intervallo previsto;
- Quali valori potrebbero essere errori.
Innanzitutto, nella colonna Quantity, il valore 10 appare insolito perché la maggior parte degli altri valori è 1 o 2. Potrebbe non essere necessariamente un errore, ma richiede sicuramente una verifica.
In secondo luogo, nella colonna Total, il valore 9999 si distingue chiaramente dall'intervallo generale, poiché la maggior parte dei valori si aggira tra 500 e 4000. Questo è un forte candidato per essere un errore.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione