Résumé des Données
Résumer les données est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.
Résumé rapide du jeu de données
Avant d'effectuer une analyse détaillée, il est utile de générer un aperçu rapide du jeu de données. Cela permet de comprendre d'un coup d'œil les plages de valeurs, les distributions et la présence de valeurs catégorielles. Vous pouvez utiliser la fonction summary()
pour cela.
summary(df)
Statistiques récapitulatives pour une seule colonne
Il est possible de calculer des statistiques descriptives de base telles que la moyenne, la médiane et l'écart type pour des colonnes individuelles. Par exemple, voici comment résumer la colonne selling_price
.
Base R
Des fonctions dédiées telles que mean()
, median()
et sd()
sont à votre disposition. L'argument na.rm = TRUE
garantit que les valeurs manquantes sont ignorées lors du calcul.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Il est possible de calculer les trois statistiques en une seule étape avec la fonction summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Résumer plusieurs colonnes par groupe
Il est fréquent de vouloir comparer des statistiques récapitulatives entre différents groupes de votre jeu de données. Par exemple, il est possible de calculer le prix de vente moyen et le kilométrage moyen pour chaque type de carburant.
Avant de résumer, assurez-vous que la colonne mileage
est numérique :
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La fonction aggregate()
peut être utilisée pour calculer des statistiques groupées. La fonction cbind()
permet de résumer plusieurs colonnes numériques en même temps.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Le regroupement et la synthèse peuvent également être réalisés à l'aide de group_by()
et summarise()
. Cette approche est généralement plus lisible et plus facile à étendre.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4
Résumé des Données
Glissez pour afficher le menu
Résumer les données est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.
Résumé rapide du jeu de données
Avant d'effectuer une analyse détaillée, il est utile de générer un aperçu rapide du jeu de données. Cela permet de comprendre d'un coup d'œil les plages de valeurs, les distributions et la présence de valeurs catégorielles. Vous pouvez utiliser la fonction summary()
pour cela.
summary(df)
Statistiques récapitulatives pour une seule colonne
Il est possible de calculer des statistiques descriptives de base telles que la moyenne, la médiane et l'écart type pour des colonnes individuelles. Par exemple, voici comment résumer la colonne selling_price
.
Base R
Des fonctions dédiées telles que mean()
, median()
et sd()
sont à votre disposition. L'argument na.rm = TRUE
garantit que les valeurs manquantes sont ignorées lors du calcul.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Il est possible de calculer les trois statistiques en une seule étape avec la fonction summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Résumer plusieurs colonnes par groupe
Il est fréquent de vouloir comparer des statistiques récapitulatives entre différents groupes de votre jeu de données. Par exemple, il est possible de calculer le prix de vente moyen et le kilométrage moyen pour chaque type de carburant.
Avant de résumer, assurez-vous que la colonne mileage
est numérique :
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La fonction aggregate()
peut être utilisée pour calculer des statistiques groupées. La fonction cbind()
permet de résumer plusieurs colonnes numériques en même temps.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Le regroupement et la synthèse peuvent également être réalisés à l'aide de group_by()
et summarise()
. Cette approche est généralement plus lisible et plus facile à étendre.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Merci pour vos commentaires !