Summary  
This chapter covers how to compute and display descriptive statistics for entire datasets, individual columns, and grouped subsets—using both base functions (e.g., summary(), mean(), aggregate()) and dplyr verbs (group_by(), summarise())—while handling missing values and converting data types as needed.

General domain of usage  
Exploratory data analysis

**Résumer les données** est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.

## Résumé rapide du jeu de données
Avant de réaliser une analyse détaillée, il est utile de générer un aperçu rapide du jeu de données. Cela permet de comprendre d’un coup d’œil les plages de valeurs, les distributions et la présence de valeurs catégorielles. La fonction `summary()` peut être utilisée pour cela.
```
summary(df)
```

## Statistiques descriptives pour une seule colonne
Il est possible de calculer des statistiques descriptives de base telles que la moyenne, la médiane et l’écart type pour des colonnes individuelles. Par exemple, voici comment résumer la colonne `selling_price`.

### Base R
Des fonctions dédiées telles que `mean()`, `median()` et `sd()` sont à votre disposition. L'argument `na.rm = TRUE` permet d'ignorer les valeurs manquantes lors du calcul.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Il est possible de calculer les trois statistiques en une seule étape avec la fonction `summarise()`.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Résumer plusieurs colonnes par groupe

Il est souvent utile de comparer des statistiques récapitulatives entre différents groupes de votre jeu de données. Par exemple, il est possible de calculer le prix de vente moyen et le kilométrage moyen pour chaque type de carburant.

Avant de résumer, assurez-vous que la colonne `mileage` est numérique :
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
La fonction `aggregate()` peut être utilisée pour calculer des statistiques groupées. La fonction `cbind()` permet de résumer plusieurs colonnes numériques en même temps.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
Le regroupement et la synthèse peuvent également être réalisés avec `group_by()` et `summarise()`. Cette approche est généralement plus lisible et plus facile à étendre.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

Télécharger le jeu de données

Télécharger le code du chapitre

La fonction `aggregate()` est utilisée dans R de base pour :


Acquérir une expérience pratique de l'analyse de données avec R en apprenant à nettoyer, transformer et visualiser des ensembles de données. Explorer les flux de travail essentiels tels que la sélection et le filtrage des données, la gestion des valeurs manquantes et la synthèse des résultats. Développer la confiance dans la préparation des données pour l'extraction d'informations, la création de rapports et l'exploration statistique approfondie.

Explorez les bases de l'analyse de données avec R. Découvrez comment installer les outils, charger et inspecter des jeux de données, sélectionner et filtrer des informations, trier et transformer des données, gérer les valeurs manquantes et résumer les résultats pour obtenir des analyses approfondies.

Apprenez à créer des visualisations percutantes avec ggplot2. Construisez des diagrammes en barres, des histogrammes, des courbes de densité et des nuages de points, puis personnalisez-les et affinez-les à l’aide d’options de style et de facettage pour révéler des informations plus approfondies dans vos données.

Renforcez votre compréhension des statistiques pour l'analyse de données. Appliquez des mesures descriptives, identifiez et traitez les valeurs aberrantes, et utilisez des techniques de corrélation avec des outils visuels tels que les cartes de chaleur et les nuages de points pour révéler des relations significatives.

Résumé des Données

Résumé rapide du jeu de données

Statistiques descriptives pour une seule colonne

Base R

dplyr

Résumer plusieurs colonnes par groupe

Base R

dplyr