Gegevens Samenvatten
Veeg om het menu te tonen
Samenvatten van gegevens is essentieel om snel inzicht te krijgen in de structuur en patronen ervan.
Snelle samenvatting van de dataset
Voordat je een gedetailleerde analyse uitvoert, is het nuttig om een snel overzicht van de dataset te genereren. Dit helpt om in één oogopslag de bereiken, verdelingen en aanwezigheid van categorische waarden te begrijpen. Je kunt hiervoor de functie summary() gebruiken.
summary(df)
Samenvattende statistieken voor één kolom
Je kunt basisbeschrijvende statistieken berekenen, zoals het gemiddelde, de mediaan en de standaarddeviatie voor afzonderlijke kolommen. Hier volgt bijvoorbeeld hoe je de kolom selling_price samenvat.
Base R
Er zijn speciale functies zoals mean(), median() en sd() beschikbaar. Het argument na.rm = TRUE zorgt ervoor dat ontbrekende waarden worden genegeerd tijdens de berekening.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle drie de statistieken kunnen in één stap worden berekend met de functie summarise().
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Meerdere kolommen samenvatten per groep
Vaak is het wenselijk om samenvattende statistieken te vergelijken tussen verschillende groepen in de dataset. Bijvoorbeeld het berekenen van de gemiddelde verkoopprijs en gemiddelde kilometerstand per type brandstof.
Controleer voordat je samenvat of de kolom mileage numeriek is:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
De functie aggregate() kan worden gebruikt om gegroepeerde statistieken te berekenen. Met de functie cbind() kunnen meerdere numerieke kolommen tegelijk worden samengevat.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Groeperen en samenvatten kan ook worden gedaan met group_by() en summarise(). Deze aanpak is over het algemeen beter leesbaar en eenvoudiger uit te breiden.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.