Rimozione dei Valori Anomali Utilizzando il Metodo IQR
Un altro metodo efficace per individuare e rimuovere i valori anomali è l'utilizzo del range interquartile (IQR).
Cos'è l'IQR?
Il range interquartile (IQR) è una misura della dispersione statistica ed è calcolato come:
IQR=Q3−Q1Dove:
- Q1: 25° percentile (primo quartile);
- Q3: 75° percentile (terzo quartile).
I valori inferiori a Q1−1.5×IQR o superiori a Q3+1.5×IQR sono tipicamente considerati valori anomali.
Calcolo dell'IQR
Per calcolare il valore dell'IQR e individuare i valori anomali, è necessario conoscere i valori del 25° percentile e del 75° percentile. Questi possono essere ottenuti con la funzione quantile()
. Successivamente, è possibile calcolare il valore dell'IQR seguendo la formula.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificazione degli outlier
Simile al metodo dello z-score, è necessario identificare i limiti inferiore e superiore:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Successivamente, è possibile selezionare tutti gli outlier per analizzarli:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Oppure creare un dataset privo di outlier:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain why the IQR method is preferred for non-normally distributed data?
How do I interpret the results after removing outliers using IQR?
What should I do if my dataset has outliers on both the lower and upper boundaries?
Awesome!
Completion rate improved to 4
Rimozione dei Valori Anomali Utilizzando il Metodo IQR
Scorri per mostrare il menu
Un altro metodo efficace per individuare e rimuovere i valori anomali è l'utilizzo del range interquartile (IQR).
Cos'è l'IQR?
Il range interquartile (IQR) è una misura della dispersione statistica ed è calcolato come:
IQR=Q3−Q1Dove:
- Q1: 25° percentile (primo quartile);
- Q3: 75° percentile (terzo quartile).
I valori inferiori a Q1−1.5×IQR o superiori a Q3+1.5×IQR sono tipicamente considerati valori anomali.
Calcolo dell'IQR
Per calcolare il valore dell'IQR e individuare i valori anomali, è necessario conoscere i valori del 25° percentile e del 75° percentile. Questi possono essere ottenuti con la funzione quantile()
. Successivamente, è possibile calcolare il valore dell'IQR seguendo la formula.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificazione degli outlier
Simile al metodo dello z-score, è necessario identificare i limiti inferiore e superiore:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Successivamente, è possibile selezionare tutti gli outlier per analizzarli:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Oppure creare un dataset privo di outlier:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Grazie per i tuoi commenti!