Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Riassumere i Dati | Manipolazione e Pulizia dei Dati
Analisi dei Dati con R

bookRiassumere i Dati

Riassumere i dati è fondamentale per ottenere rapidamente una comprensione della loro struttura e dei loro schemi.

Riepilogo rapido del dataset

Prima di eseguire un'analisi dettagliata, è utile generare una panoramica rapida del dataset. Questo aiuta a comprendere a colpo d'occhio gli intervalli, le distribuzioni e la presenza di valori categorici. È possibile utilizzare la funzione summary() per questo scopo.

summary(df)

Statistiche riassuntive per una singola colonna

È possibile calcolare statistiche descrittive di base come media, mediana e deviazione standard per singole colonne. Ad esempio, ecco come riassumere la colonna selling_price.

Base R

Sono disponibili funzioni dedicate come mean(), median() e sd(). L'argomento na.rm = TRUE garantisce che i valori mancanti vengano ignorati durante il calcolo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

È possibile calcolare tutte e tre le statistiche in un unico passaggio con la funzione summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sintesi di più colonne per gruppo

Spesso è utile confrontare le statistiche riassuntive tra diversi gruppi nel dataset. Ad esempio, è possibile calcolare il prezzo medio di vendita e il chilometraggio medio per ciascun tipo di carburante.

Prima di effettuare la sintesi, assicurarsi che la colonna mileage sia numerica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La funzione aggregate() può essere utilizzata per calcolare statistiche raggruppate. La funzione cbind() consente di riassumere più colonne numeriche contemporaneamente.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Il raggruppamento e la sintesi possono essere effettuati anche utilizzando group_by() e summarise(). Questo approccio è generalmente più leggibile e facile da estendere.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

La funzione aggregate() viene utilizzata in base R per:

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 11

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4

bookRiassumere i Dati

Scorri per mostrare il menu

Riassumere i dati è fondamentale per ottenere rapidamente una comprensione della loro struttura e dei loro schemi.

Riepilogo rapido del dataset

Prima di eseguire un'analisi dettagliata, è utile generare una panoramica rapida del dataset. Questo aiuta a comprendere a colpo d'occhio gli intervalli, le distribuzioni e la presenza di valori categorici. È possibile utilizzare la funzione summary() per questo scopo.

summary(df)

Statistiche riassuntive per una singola colonna

È possibile calcolare statistiche descrittive di base come media, mediana e deviazione standard per singole colonne. Ad esempio, ecco come riassumere la colonna selling_price.

Base R

Sono disponibili funzioni dedicate come mean(), median() e sd(). L'argomento na.rm = TRUE garantisce che i valori mancanti vengano ignorati durante il calcolo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

È possibile calcolare tutte e tre le statistiche in un unico passaggio con la funzione summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sintesi di più colonne per gruppo

Spesso è utile confrontare le statistiche riassuntive tra diversi gruppi nel dataset. Ad esempio, è possibile calcolare il prezzo medio di vendita e il chilometraggio medio per ciascun tipo di carburante.

Prima di effettuare la sintesi, assicurarsi che la colonna mileage sia numerica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La funzione aggregate() può essere utilizzata per calcolare statistiche raggruppate. La funzione cbind() consente di riassumere più colonne numeriche contemporaneamente.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Il raggruppamento e la sintesi possono essere effettuati anche utilizzando group_by() e summarise(). Questo approccio è generalmente più leggibile e facile da estendere.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

La funzione aggregate() viene utilizzata in base R per:

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 11
some-alt