Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Remoção de Outliers Usando o Método IQR | Análise Estatística Básica
Análise de Dados com R

bookRemoção de Outliers Usando o Método IQR

Outra maneira eficaz de detectar e remover outliers é utilizando o método do intervalo interquartil (IQR).

O que é IQR?

O intervalo interquartil (IQR) é uma medida de dispersão estatística e é calculado como:

IQR=Q3Q1IQR = Q3−Q1

Onde:

  • Q1Q1: 25º percentil (primeiro quartil);
  • Q3Q3: 75º percentil (terceiro quartil).

Valores abaixo de Q11.5×IQRQ1 − 1.5 \times IQR ou acima de Q3+1.5×IQRQ3 + 1.5 \times IQR são tipicamente considerados outliers.

Calculando o IQR

Para calcular o valor do IQR e detectar os outliers, primeiro é necessário conhecer os valores do 25º e 75º percentis. Eles podem ser obtidos com a função quantile(). Em seguida, é possível calcular o valor do IQR seguindo a fórmula.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificação de Outliers

Semelhante ao método do z-score, é necessário identificar os limites inferior e superior:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Em seguida, é possível selecionar todos os outliers para analisá-los:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Ou criar um conjunto de dados sem outliers:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

O que significa IQR?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4

bookRemoção de Outliers Usando o Método IQR

Deslize para mostrar o menu

Outra maneira eficaz de detectar e remover outliers é utilizando o método do intervalo interquartil (IQR).

O que é IQR?

O intervalo interquartil (IQR) é uma medida de dispersão estatística e é calculado como:

IQR=Q3Q1IQR = Q3−Q1

Onde:

  • Q1Q1: 25º percentil (primeiro quartil);
  • Q3Q3: 75º percentil (terceiro quartil).

Valores abaixo de Q11.5×IQRQ1 − 1.5 \times IQR ou acima de Q3+1.5×IQRQ3 + 1.5 \times IQR são tipicamente considerados outliers.

Calculando o IQR

Para calcular o valor do IQR e detectar os outliers, primeiro é necessário conhecer os valores do 25º e 75º percentis. Eles podem ser obtidos com a função quantile(). Em seguida, é possível calcular o valor do IQR seguindo a fórmula.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificação de Outliers

Semelhante ao método do z-score, é necessário identificar os limites inferior e superior:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Em seguida, é possível selecionar todos os outliers para analisá-los:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Ou criar um conjunto de dados sem outliers:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

O que significa IQR?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 4
some-alt