Identificação de Outliers e Erros
Deslize para mostrar o menu
Após remover duplicatas, o próximo passo importante é verificar seus dados em busca de outliers e erros.
Outliers são valores que se destacam significativamente do restante dos dados. Eles nem sempre indicam que algo está errado, mas frequentemente sinalizam um problema, como erro de digitação ou um problema durante a importação.
Erros, por outro lado, são valores que claramente não fazem sentido no contexto dos seus dados. Por exemplo, um número excepcionalmente alto, um valor negativo onde não deveria existir ou um total que não corresponde à quantidade.
Vamos analisar um exemplo simples:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
À primeira vista, tudo parece correto, mas ao observar mais de perto, alguns valores levantam dúvidas.
A quantidade 10 pode ser válida, mas depende do contexto. No entanto, o valor total de 9999 claramente se destaca em relação aos demais e parece suspeito.
Se você não verificar outliers e erros, eles podem distorcer significativamente sua análise. Por exemplo, um valor incorreto como 9999 pode alterar médias ou totais e levar a conclusões erradas.
Como Identificar Outliers
Classificar também é muito útil. Se você classificar uma coluna em ordem crescente ou decrescente, os valores extremos aparecerão no topo ou na base, facilitando a revisão.
Uma abordagem simples, mas eficaz, é se perguntar: "Esse valor parece realista?"
Se a maioria dos valores está dentro de um determinado intervalo, como 500 a 1000, e um valor é 9999, isso é um sinal claro de que algo pode estar errado e precisa ser verificado.
É importante entender que nem todo outlier é um erro. Às vezes é um valor real, mas sempre deve ser verificado.
Revisão dos dados e identificação de valores que parecem suspeitos.
Determinar:
- Quais valores estão fora do intervalo esperado;
- Quais valores podem ser erros.
Primeiro, na coluna Quantity, o valor 10 parece incomum porque a maioria dos outros valores é 1 ou 2. Pode não ser necessariamente um erro, mas certamente requer verificação.
Em segundo lugar, na coluna Total, o valor 9999 claramente se destaca do intervalo geral, já que a maioria dos valores está aproximadamente entre 500 e 4000. Este é um forte candidato a erro.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo