Riassumere i Dati
Riassumere i dati è fondamentale per ottenere rapidamente una comprensione della loro struttura e dei loro schemi.
Riepilogo rapido del dataset
Prima di eseguire un'analisi dettagliata, è utile generare una panoramica rapida del dataset. Questo aiuta a comprendere a colpo d'occhio gli intervalli, le distribuzioni e la presenza di valori categorici. È possibile utilizzare la funzione summary()
per questo scopo.
summary(df)
Statistiche riassuntive per una singola colonna
È possibile calcolare statistiche descrittive di base come media, mediana e deviazione standard per singole colonne. Ad esempio, ecco come riassumere la colonna selling_price
.
Base R
Sono disponibili funzioni dedicate come mean()
, median()
e sd()
. L'argomento na.rm = TRUE
garantisce che i valori mancanti vengano ignorati durante il calcolo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
È possibile calcolare tutte e tre le statistiche in un unico passaggio con la funzione summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Sintesi di più colonne per gruppo
Spesso è utile confrontare le statistiche riassuntive tra diversi gruppi nel dataset. Ad esempio, è possibile calcolare il prezzo medio di vendita e il chilometraggio medio per ciascun tipo di carburante.
Prima di effettuare la sintesi, assicurarsi che la colonna mileage
sia numerica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La funzione aggregate()
può essere utilizzata per calcolare statistiche raggruppate. La funzione cbind()
consente di riassumere più colonne numeriche contemporaneamente.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Il raggruppamento e la sintesi possono essere effettuati anche utilizzando group_by()
e summarise()
. Questo approccio è generalmente più leggibile e facile da estendere.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 4
Riassumere i Dati
Scorri per mostrare il menu
Riassumere i dati è fondamentale per ottenere rapidamente una comprensione della loro struttura e dei loro schemi.
Riepilogo rapido del dataset
Prima di eseguire un'analisi dettagliata, è utile generare una panoramica rapida del dataset. Questo aiuta a comprendere a colpo d'occhio gli intervalli, le distribuzioni e la presenza di valori categorici. È possibile utilizzare la funzione summary()
per questo scopo.
summary(df)
Statistiche riassuntive per una singola colonna
È possibile calcolare statistiche descrittive di base come media, mediana e deviazione standard per singole colonne. Ad esempio, ecco come riassumere la colonna selling_price
.
Base R
Sono disponibili funzioni dedicate come mean()
, median()
e sd()
. L'argomento na.rm = TRUE
garantisce che i valori mancanti vengano ignorati durante il calcolo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
È possibile calcolare tutte e tre le statistiche in un unico passaggio con la funzione summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Sintesi di più colonne per gruppo
Spesso è utile confrontare le statistiche riassuntive tra diversi gruppi nel dataset. Ad esempio, è possibile calcolare il prezzo medio di vendita e il chilometraggio medio per ciascun tipo di carburante.
Prima di effettuare la sintesi, assicurarsi che la colonna mileage
sia numerica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La funzione aggregate()
può essere utilizzata per calcolare statistiche raggruppate. La funzione cbind()
consente di riassumere più colonne numeriche contemporaneamente.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Il raggruppamento e la sintesi possono essere effettuati anche utilizzando group_by()
e summarise()
. Questo approccio è generalmente più leggibile e facile da estendere.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Grazie per i tuoi commenti!