Summary  
This chapter demonstrates how to calculate z-scores for a dataset—either manually via the standard formula or using a built-in scaling function—and then apply conditional filtering on those scores to identify and remove outliers beyond a chosen threshold.

General domain of usage  
Data preprocessing in statistical analysis

Une méthode courante pour détecter et supprimer les valeurs aberrantes est la **méthode du score z**. Cette technique identifie à quelle distance un point de données se situe par rapport à la moyenne, en termes d'écarts-types. Si un point de données dépasse un certain seuil (généralement ±3), il est considéré comme une valeur aberrante.

## Qu'est-ce qu'un score z ?
Un score z (également appelé score standard) est calculé à l'aide de la formule :

$$
Z = \frac{X - \mu}{\sigma}
$$

Où :
- $$X$$ : la valeur de la donnée d'origine ;
- $$\mu$$ : la moyenne de l'ensemble de données ;
- $$\sigma$$ : l'écart-type de l'ensemble de données.

## Calcul du score z
Vous pouvez calculer les scores z manuellement en suivant la formule :
```
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
```

Ou utiliser la fonction intégrée :
```
df$cgpa_zscore <- scale(df$cgpa)
```

## Identification des valeurs aberrantes
Après avoir calculé les scores z, il est possible de choisir un seuil (±3 dans ce cas) et d'appliquer une opération de filtrage simple pour sélectionner toutes les entrées en dehors de cette plage :
```
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
```

Ou bien sélectionner toutes les entrées à l'intérieur de la plage afin de créer un jeu de données sans valeurs aberrantes :
```
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
```

Télécharger le jeu de données

Télécharger le code du chapitre

Que se passe-t-il pour les valeurs ayant des scores z supérieurs à ±3 ?


Acquérir une expérience pratique de l'analyse de données avec R en apprenant à nettoyer, transformer et visualiser des ensembles de données. Explorer les flux de travail essentiels tels que la sélection et le filtrage des données, la gestion des valeurs manquantes et la synthèse des résultats. Développer la confiance dans la préparation des données pour l'extraction d'informations, la création de rapports et l'exploration statistique approfondie.

Explorez les bases de l'analyse de données avec R. Découvrez comment installer les outils, charger et inspecter des jeux de données, sélectionner et filtrer des informations, trier et transformer des données, gérer les valeurs manquantes et résumer les résultats pour obtenir des analyses approfondies.

Apprenez à créer des visualisations percutantes avec ggplot2. Construisez des diagrammes en barres, des histogrammes, des courbes de densité et des nuages de points, puis personnalisez-les et affinez-les à l’aide d’options de style et de facettage pour révéler des informations plus approfondies dans vos données.

Renforcez votre compréhension des statistiques pour l'analyse de données. Appliquez des mesures descriptives, identifiez et traitez les valeurs aberrantes, et utilisez des techniques de corrélation avec des outils visuels tels que les cartes de chaleur et les nuages de points pour révéler des relations significatives.

Suppression des Valeurs Aberrantes à l'Aide de la Méthode du Score Z

Qu'est-ce qu'un score z ?

Calcul du score z

Identification des valeurs aberrantes