Veeg om het menu te tonen

Samenvatten van gegevens is essentieel om snel inzicht te krijgen in de structuur en patronen ervan.

Snelle samenvatting van de dataset

Voordat je een gedetailleerde analyse uitvoert, is het nuttig om een snel overzicht van de dataset te genereren. Dit helpt om in één oogopslag de bereiken, verdelingen en aanwezigheid van categorische waarden te begrijpen. Je kunt hiervoor de functie summary() gebruiken.

summary(df)

Samenvattende statistieken voor één kolom

Je kunt basisbeschrijvende statistieken berekenen, zoals het gemiddelde, de mediaan en de standaarddeviatie voor afzonderlijke kolommen. Hier volgt bijvoorbeeld hoe je de kolom selling_price samenvat.

Base R

Er zijn speciale functies zoals mean(), median() en sd() beschikbaar. Het argument na.rm = TRUE zorgt ervoor dat ontbrekende waarden worden genegeerd tijdens de berekening.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drie de statistieken kunnen in één stap worden berekend met de functie summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Meerdere kolommen samenvatten per groep

Vaak is het wenselijk om samenvattende statistieken te vergelijken tussen verschillende groepen in de dataset. Bijvoorbeeld het berekenen van de gemiddelde verkoopprijs en gemiddelde kilometerstand per type brandstof.

Controleer voordat je samenvat of de kolom mileage numeriek is:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

De functie aggregate() kan worden gebruikt om gegroepeerde statistieken te berekenen. Met de functie cbind() kunnen meerdere numerieke kolommen tegelijk worden samengevat.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Groeperen en samenvatten kan ook worden gedaan met group_by() en summarise(). Deze aanpak is over het algemeen beter leesbaar en eenvoudiger uit te breiden.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 11

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Gegevens Samenvatten

Samenvatten van gegevens is essentieel om snel inzicht te krijgen in de structuur en patronen ervan.

Snelle samenvatting van de dataset

summary(df)

Samenvattende statistieken voor één kolom

Base R

Er zijn speciale functies zoals mean(), median() en sd() beschikbaar. Het argument na.rm = TRUE zorgt ervoor dat ontbrekende waarden worden genegeerd tijdens de berekening.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drie de statistieken kunnen in één stap worden berekend met de functie summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Meerdere kolommen samenvatten per groep

Controleer voordat je samenvat of de kolom mileage numeriek is:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

De functie aggregate() kan worden gebruikt om gegroepeerde statistieken te berekenen. Met de functie cbind() kunnen meerdere numerieke kolommen tegelijk worden samengevat.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Groeperen en samenvatten kan ook worden gedaan met group_by() en summarise(). Deze aanpak is over het algemeen beter leesbaar en eenvoudiger uit te breiden.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 11