Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Identificazione di valori anomali ed errori | Rimozione di Duplicati ed Errori
Pulire i dati in Excel

bookIdentificazione di valori anomali ed errori

Scorri per mostrare il menu

Dopo aver rimosso i duplicati, il passo successivo importante è controllare i dati per individuare valori anomali ed errori.

I valori anomali sono valori che si distinguono in modo significativo dal resto dei dati. Non sempre indicano un errore, ma molto spesso segnalano un problema, come un inserimento dati errato o un'anomalia durante l'importazione.

Gli errori, invece, sono valori che chiaramente non hanno senso nel contesto dei dati. Ad esempio, un numero insolitamente grande, un valore negativo dove non dovrebbe esistere, oppure un totale che non corrisponde alla quantità.

Vediamo un esempio semplice:

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

A prima vista, tutto sembra corretto, ma osservando meglio, alcuni valori destano perplessità.

La quantità pari a 10 potrebbe essere valida, ma dipende dal contesto. Tuttavia, il valore totale di 9999 si distingue nettamente rispetto agli altri e appare sospetto.

Se non si controllano valori anomali ed errori, questi possono distorcere in modo significativo l'analisi. Ad esempio, un solo valore errato come 9999 può alterare medie o totali e portare a conclusioni sbagliate.

Come identificare i valori anomali

L'ordinamento è anche molto utile. Se ordini una colonna in ordine crescente o decrescente, i valori estremi appariranno in cima o in fondo, rendendo più facile la loro revisione.

Un approccio semplice ma efficace è chiedersi: "Questo valore sembra realistico?"

Se la maggior parte dei valori rientra in un certo intervallo, ad esempio 500 a 1000, e un valore è 9999, questo è un chiaro segnale che qualcosa potrebbe non andare e necessita di essere controllato.

È importante capire che non tutti i valori anomali sono errori. A volte si tratta di un valore reale, ma deve sempre essere verificato.

Esaminare i dati e identificare i valori che sembrano sospetti.

Determinare:

  • Quali valori rientrano al di fuori dell'intervallo previsto;
  • Quali valori potrebbero essere errori.

Per prima cosa, nella colonna Quantity, il valore 10 sembra insolito perché la maggior parte degli altri valori è 1 o 2. Potrebbe non essere necessariamente un errore, ma sicuramente richiede una verifica.

In secondo luogo, nella colonna Total, il valore 9999 si distingue chiaramente dall'intervallo generale, poiché la maggior parte dei valori si trova approssimativamente tra 500 e 4000. Questo è un forte candidato per un errore.

question mark

Che cos'è un valore anomalo in un insieme di dati?

Seleziona la risposta corretta

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 2

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 4. Capitolo 2
some-alt