Rimozione dei Valori Anomali Utilizzando il Metodo Z-Score
Un metodo comune per rilevare e rimuovere i valori anomali è il metodo dello z-score. Questa tecnica identifica quanto un punto dati si discosta dalla media in termini di deviazioni standard. Se un punto dati si trova oltre una certa soglia (comunemente ±3), viene considerato un valore anomalo.
Che cos'è uno Z-Score?
Uno z-score (noto anche come punteggio standard) viene calcolato utilizzando la formula:
Z=σX−μDove:
- X: il valore originale del dato;
- μ: la media del dataset;
- σ: la deviazione standard del dataset.
Calcolo degli Z-Score
È possibile calcolare manualmente gli z-score seguendo la formula:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Oppure è possibile utilizzare la funzione integrata:
df$cgpa_zscore <- scale(df$cgpa)
Identificazione degli outlier
Dopo aver calcolato gli z-score, è possibile scegliere una soglia (±3 in questo caso) e applicare un'operazione di filtraggio semplice per selezionare tutte le voci al di fuori dell'intervallo:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Oppure è possibile selezionare tutte le voci all'interno dell'intervallo per creare un dataset privo di outlier:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 4
Rimozione dei Valori Anomali Utilizzando il Metodo Z-Score
Scorri per mostrare il menu
Un metodo comune per rilevare e rimuovere i valori anomali è il metodo dello z-score. Questa tecnica identifica quanto un punto dati si discosta dalla media in termini di deviazioni standard. Se un punto dati si trova oltre una certa soglia (comunemente ±3), viene considerato un valore anomalo.
Che cos'è uno Z-Score?
Uno z-score (noto anche come punteggio standard) viene calcolato utilizzando la formula:
Z=σX−μDove:
- X: il valore originale del dato;
- μ: la media del dataset;
- σ: la deviazione standard del dataset.
Calcolo degli Z-Score
È possibile calcolare manualmente gli z-score seguendo la formula:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Oppure è possibile utilizzare la funzione integrata:
df$cgpa_zscore <- scale(df$cgpa)
Identificazione degli outlier
Dopo aver calcolato gli z-score, è possibile scegliere una soglia (±3 in questo caso) e applicare un'operazione di filtraggio semplice per selezionare tutte le voci al di fuori dell'intervallo:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Oppure è possibile selezionare tutte le voci all'interno dell'intervallo per creare un dataset privo di outlier:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Grazie per i tuoi commenti!