Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Rimozione dei Valori Anomali Utilizzando il Metodo Z-Score | Analisi Statistica di Base
Analisi dei Dati con R

bookRimozione dei Valori Anomali Utilizzando il Metodo Z-Score

Un metodo comune per rilevare e rimuovere i valori anomali è il metodo dello z-score. Questa tecnica identifica quanto un punto dati si discosta dalla media in termini di deviazioni standard. Se un punto dati si trova oltre una certa soglia (comunemente ±3), viene considerato un valore anomalo.

Che cos'è uno Z-Score?

Uno z-score (noto anche come punteggio standard) viene calcolato utilizzando la formula:

Z=XμσZ = \frac{X - \mu}{\sigma}

Dove:

  • XX: il valore originale del dato;
  • μ\mu: la media del dataset;
  • σ\sigma: la deviazione standard del dataset.

Calcolo degli Z-Score

È possibile calcolare manualmente gli z-score seguendo la formula:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Oppure è possibile utilizzare la funzione integrata:

df$cgpa_zscore <- scale(df$cgpa)

Identificazione degli outlier

Dopo aver calcolato gli z-score, è possibile scegliere una soglia (±3 in questo caso) e applicare un'operazione di filtraggio semplice per selezionare tutte le voci al di fuori dell'intervallo:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Oppure è possibile selezionare tutte le voci all'interno dell'intervallo per creare un dataset privo di outlier:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Cosa succede ai valori con z-score oltre ±3?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4

bookRimozione dei Valori Anomali Utilizzando il Metodo Z-Score

Scorri per mostrare il menu

Un metodo comune per rilevare e rimuovere i valori anomali è il metodo dello z-score. Questa tecnica identifica quanto un punto dati si discosta dalla media in termini di deviazioni standard. Se un punto dati si trova oltre una certa soglia (comunemente ±3), viene considerato un valore anomalo.

Che cos'è uno Z-Score?

Uno z-score (noto anche come punteggio standard) viene calcolato utilizzando la formula:

Z=XμσZ = \frac{X - \mu}{\sigma}

Dove:

  • XX: il valore originale del dato;
  • μ\mu: la media del dataset;
  • σ\sigma: la deviazione standard del dataset.

Calcolo degli Z-Score

È possibile calcolare manualmente gli z-score seguendo la formula:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Oppure è possibile utilizzare la funzione integrata:

df$cgpa_zscore <- scale(df$cgpa)

Identificazione degli outlier

Dopo aver calcolato gli z-score, è possibile scegliere una soglia (±3 in questo caso) e applicare un'operazione di filtraggio semplice per selezionare tutte le voci al di fuori dell'intervallo:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Oppure è possibile selezionare tutte le voci all'interno dell'intervallo per creare un dataset privo di outlier:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Cosa succede ai valori con z-score oltre ±3?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 3
some-alt