Fjerning av Uteliggere ved Bruk av IQR-metoden
En annen effektiv metode for å oppdage og fjerne uteliggere er å bruke interkvartilavstand (IQR)-metoden.
Hva er IQR?
Interkvartilavstand (IQR) er et mål på statistisk spredning og beregnes som:
IQR=Q3−Q1Hvor:
- Q1: 25. prosentil (første kvartil);
- Q3: 75. prosentil (tredje kvartil).
Verdier som ligger under Q1−1.5×IQR eller over Q3+1.5×IQR regnes vanligvis som uteliggere.
Beregning av IQR
For å beregne IQR-verdien og oppdage uteliggere, må du først kjenne verdiene for 25. og 75. prosentil. Disse kan hentes ut med funksjonen quantile()
. Deretter kan du beregne IQR-verdien ved å følge formelen.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifisering av uteliggere
På samme måte som med z-score-metoden må du identifisere nedre og øvre grenser:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Deretter kan du enten velge alle uteliggere for å analysere dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller opprette et datasett uten uteliggere:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain why the IQR method is preferred for non-normally distributed data?
How do I interpret the results after removing outliers using IQR?
What should I do if my dataset has outliers on both the lower and upper boundaries?
Awesome!
Completion rate improved to 4
Fjerning av Uteliggere ved Bruk av IQR-metoden
Sveip for å vise menyen
En annen effektiv metode for å oppdage og fjerne uteliggere er å bruke interkvartilavstand (IQR)-metoden.
Hva er IQR?
Interkvartilavstand (IQR) er et mål på statistisk spredning og beregnes som:
IQR=Q3−Q1Hvor:
- Q1: 25. prosentil (første kvartil);
- Q3: 75. prosentil (tredje kvartil).
Verdier som ligger under Q1−1.5×IQR eller over Q3+1.5×IQR regnes vanligvis som uteliggere.
Beregning av IQR
For å beregne IQR-verdien og oppdage uteliggere, må du først kjenne verdiene for 25. og 75. prosentil. Disse kan hentes ut med funksjonen quantile()
. Deretter kan du beregne IQR-verdien ved å følge formelen.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifisering av uteliggere
På samme måte som med z-score-metoden må du identifisere nedre og øvre grenser:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Deretter kan du enten velge alle uteliggere for å analysere dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller opprette et datasett uten uteliggere:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Takk for tilbakemeldingene dine!