Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Remoção de Outliers Usando o Método do Escore Z | Análise Estatística Básica
Análise de Dados com R

bookRemoção de Outliers Usando o Método do Escore Z

Um método comum para detectar e remover outliers é o método do z-score. Essa técnica identifica o quão distante um ponto de dado está da média em termos de desvios padrão. Se um ponto de dado estiver além de um determinado limite (comumente ±3), ele é considerado um outlier.

O que é um Z-Score?

Um z-score (também conhecido como escore padrão) é calculado utilizando a fórmula:

Z=XμσZ = \frac{X - \mu}{\sigma}

Onde:

  • XX: o ponto de dado original;
  • μ\mu: a média do conjunto de dados;
  • σ\sigma: o desvio padrão do conjunto de dados.

Calculando Z-Scores

É possível calcular z-scores manualmente seguindo a fórmula:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Ou utilizar a função embutida:

df$cgpa_zscore <- scale(df$cgpa)

Identificação de Outliers

Após calcular os z-scores, é possível escolher um limite (±3 neste caso) e aplicar uma operação simples de filtragem para selecionar todas as entradas fora desse intervalo:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Ou selecionar todas as entradas dentro do intervalo para criar um conjunto de dados sem outliers:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

O que acontece com os valores com z-scores além de ±3?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 3

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4

bookRemoção de Outliers Usando o Método do Escore Z

Deslize para mostrar o menu

Um método comum para detectar e remover outliers é o método do z-score. Essa técnica identifica o quão distante um ponto de dado está da média em termos de desvios padrão. Se um ponto de dado estiver além de um determinado limite (comumente ±3), ele é considerado um outlier.

O que é um Z-Score?

Um z-score (também conhecido como escore padrão) é calculado utilizando a fórmula:

Z=XμσZ = \frac{X - \mu}{\sigma}

Onde:

  • XX: o ponto de dado original;
  • μ\mu: a média do conjunto de dados;
  • σ\sigma: o desvio padrão do conjunto de dados.

Calculando Z-Scores

É possível calcular z-scores manualmente seguindo a fórmula:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Ou utilizar a função embutida:

df$cgpa_zscore <- scale(df$cgpa)

Identificação de Outliers

Após calcular os z-scores, é possível escolher um limite (±3 neste caso) e aplicar uma operação simples de filtragem para selecionar todas as entradas fora desse intervalo:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Ou selecionar todas as entradas dentro do intervalo para criar um conjunto de dados sem outliers:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

O que acontece com os valores com z-scores além de ±3?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 3
some-alt