Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Identificação de Outliers e Erros | Remoção de Duplicatas e Erros
Limpar Dados no Excel

bookIdentificação de Outliers e Erros

Deslize para mostrar o menu

Após remover duplicatas, o próximo passo importante é verificar seus dados em busca de outliers e erros.

Outliers são valores que se destacam significativamente do restante dos dados. Eles nem sempre indicam que algo está errado, mas frequentemente sinalizam um problema, como erro de digitação ou um problema durante a importação.

Erros, por outro lado, são valores que claramente não fazem sentido no contexto dos seus dados. Por exemplo, um número excepcionalmente alto, um valor negativo onde não deveria existir ou um total que não corresponde à quantidade.

Vamos analisar um exemplo simples:

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

À primeira vista, tudo parece correto, mas ao observar mais de perto, alguns valores levantam dúvidas.

A quantidade 10 pode ser válida, mas depende do contexto. No entanto, o valor total de 9999 claramente se destaca em relação aos demais e parece suspeito.

Se você não verificar outliers e erros, eles podem distorcer significativamente sua análise. Por exemplo, um valor incorreto como 9999 pode alterar médias ou totais e levar a conclusões erradas.

Como Identificar Outliers

Classificar também é muito útil. Se você classificar uma coluna em ordem crescente ou decrescente, os valores extremos aparecerão no topo ou na base, facilitando a revisão.

Uma abordagem simples, mas eficaz, é se perguntar: "Esse valor parece realista?"

Se a maioria dos valores está dentro de um determinado intervalo, como 500 a 1000, e um valor é 9999, isso é um sinal claro de que algo pode estar errado e precisa ser verificado.

É importante entender que nem todo outlier é um erro. Às vezes é um valor real, mas sempre deve ser verificado.

Revisão dos dados e identificação de valores que parecem suspeitos.

Determinar:

  • Quais valores estão fora do intervalo esperado;
  • Quais valores podem ser erros.

Primeiro, na coluna Quantity, o valor 10 parece incomum porque a maioria dos outros valores é 1 ou 2. Pode não ser necessariamente um erro, mas certamente requer verificação.

Em segundo lugar, na coluna Total, o valor 9999 claramente se destaca do intervalo geral, já que a maioria dos valores está aproximadamente entre 500 e 4000. Este é um forte candidato a erro.

question mark

O que é um outlier em um conjunto de dados?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 4. Capítulo 2
some-alt