Remoção de Outliers Usando o Método IQR
Outra maneira eficaz de detectar e remover outliers é utilizando o método do intervalo interquartil (IQR).
O que é IQR?
O intervalo interquartil (IQR) é uma medida de dispersão estatística e é calculado como:
IQR=Q3−Q1Onde:
- Q1: 25º percentil (primeiro quartil);
- Q3: 75º percentil (terceiro quartil).
Valores abaixo de Q1−1.5×IQR ou acima de Q3+1.5×IQR são tipicamente considerados outliers.
Calculando o IQR
Para calcular o valor do IQR e detectar os outliers, primeiro é necessário conhecer os valores do 25º e 75º percentis. Eles podem ser obtidos com a função quantile()
. Em seguida, é possível calcular o valor do IQR seguindo a fórmula.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificação de Outliers
Semelhante ao método do z-score, é necessário identificar os limites inferior e superior:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Em seguida, é possível selecionar todos os outliers para analisá-los:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Ou criar um conjunto de dados sem outliers:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4
Remoção de Outliers Usando o Método IQR
Deslize para mostrar o menu
Outra maneira eficaz de detectar e remover outliers é utilizando o método do intervalo interquartil (IQR).
O que é IQR?
O intervalo interquartil (IQR) é uma medida de dispersão estatística e é calculado como:
IQR=Q3−Q1Onde:
- Q1: 25º percentil (primeiro quartil);
- Q3: 75º percentil (terceiro quartil).
Valores abaixo de Q1−1.5×IQR ou acima de Q3+1.5×IQR são tipicamente considerados outliers.
Calculando o IQR
Para calcular o valor do IQR e detectar os outliers, primeiro é necessário conhecer os valores do 25º e 75º percentis. Eles podem ser obtidos com a função quantile()
. Em seguida, é possível calcular o valor do IQR seguindo a fórmula.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificação de Outliers
Semelhante ao método do z-score, é necessário identificar os limites inferior e superior:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Em seguida, é possível selecionar todos os outliers para analisá-los:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Ou criar um conjunto de dados sem outliers:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Obrigado pelo seu feedback!