Remoção de Outliers Usando o Método do Escore Z
Um método comum para detectar e remover outliers é o método do z-score. Essa técnica identifica o quão distante um ponto de dado está da média em termos de desvios padrão. Se um ponto de dado estiver além de um determinado limite (comumente ±3), ele é considerado um outlier.
O que é um Z-Score?
Um z-score (também conhecido como escore padrão) é calculado utilizando a fórmula:
Z=σX−μOnde:
- X: o ponto de dado original;
- μ: a média do conjunto de dados;
- σ: o desvio padrão do conjunto de dados.
Calculando Z-Scores
É possível calcular z-scores manualmente seguindo a fórmula:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Ou utilizar a função embutida:
df$cgpa_zscore <- scale(df$cgpa)
Identificação de Outliers
Após calcular os z-scores, é possível escolher um limite (±3 neste caso) e aplicar uma operação simples de filtragem para selecionar todas as entradas fora desse intervalo:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Ou selecionar todas as entradas dentro do intervalo para criar um conjunto de dados sem outliers:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4
Remoção de Outliers Usando o Método do Escore Z
Deslize para mostrar o menu
Um método comum para detectar e remover outliers é o método do z-score. Essa técnica identifica o quão distante um ponto de dado está da média em termos de desvios padrão. Se um ponto de dado estiver além de um determinado limite (comumente ±3), ele é considerado um outlier.
O que é um Z-Score?
Um z-score (também conhecido como escore padrão) é calculado utilizando a fórmula:
Z=σX−μOnde:
- X: o ponto de dado original;
- μ: a média do conjunto de dados;
- σ: o desvio padrão do conjunto de dados.
Calculando Z-Scores
É possível calcular z-scores manualmente seguindo a fórmula:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Ou utilizar a função embutida:
df$cgpa_zscore <- scale(df$cgpa)
Identificação de Outliers
Após calcular os z-scores, é possível escolher um limite (±3 neste caso) e aplicar uma operação simples de filtragem para selecionar todas as entradas fora desse intervalo:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Ou selecionar todas as entradas dentro do intervalo para criar um conjunto de dados sem outliers:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Obrigado pelo seu feedback!