Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Résumé des Données | Manipulation et Nettoyage des Données
Analyse de Données avec R

bookRésumé des Données

Résumer les données est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.

Résumé rapide du jeu de données

Avant d'effectuer une analyse détaillée, il est utile de générer un aperçu rapide du jeu de données. Cela permet de comprendre d'un coup d'œil les plages de valeurs, les distributions et la présence de valeurs catégorielles. Vous pouvez utiliser la fonction summary() pour cela.

summary(df)

Statistiques récapitulatives pour une seule colonne

Il est possible de calculer des statistiques descriptives de base telles que la moyenne, la médiane et l'écart type pour des colonnes individuelles. Par exemple, voici comment résumer la colonne selling_price.

Base R

Des fonctions dédiées telles que mean(), median() et sd() sont à votre disposition. L'argument na.rm = TRUE garantit que les valeurs manquantes sont ignorées lors du calcul.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Il est possible de calculer les trois statistiques en une seule étape avec la fonction summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Résumer plusieurs colonnes par groupe

Il est fréquent de vouloir comparer des statistiques récapitulatives entre différents groupes de votre jeu de données. Par exemple, il est possible de calculer le prix de vente moyen et le kilométrage moyen pour chaque type de carburant.

Avant de résumer, assurez-vous que la colonne mileage est numérique :

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La fonction aggregate() peut être utilisée pour calculer des statistiques groupées. La fonction cbind() permet de résumer plusieurs colonnes numériques en même temps.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Le regroupement et la synthèse peuvent également être réalisés à l'aide de group_by() et summarise(). Cette approche est généralement plus lisible et plus facile à étendre.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

La fonction aggregate() est utilisée dans base R pour :

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 11

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4

bookRésumé des Données

Glissez pour afficher le menu

Résumer les données est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.

Résumé rapide du jeu de données

Avant d'effectuer une analyse détaillée, il est utile de générer un aperçu rapide du jeu de données. Cela permet de comprendre d'un coup d'œil les plages de valeurs, les distributions et la présence de valeurs catégorielles. Vous pouvez utiliser la fonction summary() pour cela.

summary(df)

Statistiques récapitulatives pour une seule colonne

Il est possible de calculer des statistiques descriptives de base telles que la moyenne, la médiane et l'écart type pour des colonnes individuelles. Par exemple, voici comment résumer la colonne selling_price.

Base R

Des fonctions dédiées telles que mean(), median() et sd() sont à votre disposition. L'argument na.rm = TRUE garantit que les valeurs manquantes sont ignorées lors du calcul.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Il est possible de calculer les trois statistiques en une seule étape avec la fonction summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Résumer plusieurs colonnes par groupe

Il est fréquent de vouloir comparer des statistiques récapitulatives entre différents groupes de votre jeu de données. Par exemple, il est possible de calculer le prix de vente moyen et le kilométrage moyen pour chaque type de carburant.

Avant de résumer, assurez-vous que la colonne mileage est numérique :

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La fonction aggregate() peut être utilisée pour calculer des statistiques groupées. La fonction cbind() permet de résumer plusieurs colonnes numériques en même temps.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Le regroupement et la synthèse peuvent également être réalisés à l'aide de group_by() et summarise(). Cette approche est généralement plus lisible et plus facile à étendre.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

La fonction aggregate() est utilisée dans base R pour :

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 11
some-alt