Résumé des Données
Glissez pour afficher le menu
Résumer les données est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.
Résumé rapide du jeu de données
Avant de réaliser une analyse détaillée, il est utile de générer un aperçu rapide du jeu de données. Cela permet de comprendre d’un coup d’œil les plages de valeurs, les distributions et la présence de valeurs catégorielles. La fonction summary() peut être utilisée pour cela.
summary(df)
Statistiques descriptives pour une seule colonne
Il est possible de calculer des statistiques descriptives de base telles que la moyenne, la médiane et l’écart type pour des colonnes individuelles. Par exemple, voici comment résumer la colonne selling_price.
Base R
Des fonctions dédiées telles que mean(), median() et sd() sont à votre disposition. L'argument na.rm = TRUE permet d'ignorer les valeurs manquantes lors du calcul.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Il est possible de calculer les trois statistiques en une seule étape avec la fonction summarise().
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Résumer plusieurs colonnes par groupe
Il est souvent utile de comparer des statistiques récapitulatives entre différents groupes de votre jeu de données. Par exemple, il est possible de calculer le prix de vente moyen et le kilométrage moyen pour chaque type de carburant.
Avant de résumer, assurez-vous que la colonne mileage est numérique :
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La fonction aggregate() peut être utilisée pour calculer des statistiques groupées. La fonction cbind() permet de résumer plusieurs colonnes numériques en même temps.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Le regroupement et la synthèse peuvent également être réalisés avec group_by() et summarise(). Cette approche est généralement plus lisible et plus facile à étendre.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion