Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Gegevens Samenvatten | Gegevensmanipulatie en Opschoning
Data-analyse met R

bookGegevens Samenvatten

Samenvatten van gegevens is essentieel om snel inzicht te krijgen in de structuur en patronen ervan.

Snelle samenvatting van de dataset

Voordat u een gedetailleerde analyse uitvoert, is het nuttig om een snel overzicht van de dataset te genereren. Dit helpt om in één oogopslag de bereiken, verdelingen en aanwezigheid van categorische waarden te begrijpen. U kunt hiervoor de functie summary() gebruiken.

summary(df)

Samenvattende statistieken voor één kolom

U kunt basisbeschrijvende statistieken zoals het gemiddelde, de mediaan en de standaarddeviatie voor afzonderlijke kolommen berekenen. Hier ziet u bijvoorbeeld hoe u de kolom selling_price samenvat.

Base R

Er zijn speciale functies zoals mean(), median() en sd() beschikbaar. Het argument na.rm = TRUE zorgt ervoor dat ontbrekende waarden worden genegeerd tijdens de berekening.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drie de statistieken kunnen in één stap worden berekend met de functie summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Meerdere kolommen samenvatten per groep

Vaak is het wenselijk om samenvattende statistieken te vergelijken tussen verschillende groepen in de dataset. Bijvoorbeeld het berekenen van de gemiddelde verkoopprijs en gemiddelde kilometerstand per type brandstof.

Controleer voordat je samenvat of de kolom mileage numeriek is:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

De functie aggregate() kan worden gebruikt om gegroepeerde statistieken te berekenen. Met de functie cbind() kunnen meerdere numerieke kolommen tegelijk worden samengevat.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Groeperen en samenvatten kan ook worden uitgevoerd met group_by() en summarise(). Deze aanpak is over het algemeen leesbaarder en eenvoudiger uit te breiden.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

De functie aggregate() wordt in base R gebruikt om:

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 11

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

What does the summary() function output look like?

How do I handle non-numeric columns when summarizing data?

Can you explain how to interpret the mean, median, and standard deviation results?

Awesome!

Completion rate improved to 4

bookGegevens Samenvatten

Veeg om het menu te tonen

Samenvatten van gegevens is essentieel om snel inzicht te krijgen in de structuur en patronen ervan.

Snelle samenvatting van de dataset

Voordat u een gedetailleerde analyse uitvoert, is het nuttig om een snel overzicht van de dataset te genereren. Dit helpt om in één oogopslag de bereiken, verdelingen en aanwezigheid van categorische waarden te begrijpen. U kunt hiervoor de functie summary() gebruiken.

summary(df)

Samenvattende statistieken voor één kolom

U kunt basisbeschrijvende statistieken zoals het gemiddelde, de mediaan en de standaarddeviatie voor afzonderlijke kolommen berekenen. Hier ziet u bijvoorbeeld hoe u de kolom selling_price samenvat.

Base R

Er zijn speciale functies zoals mean(), median() en sd() beschikbaar. Het argument na.rm = TRUE zorgt ervoor dat ontbrekende waarden worden genegeerd tijdens de berekening.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drie de statistieken kunnen in één stap worden berekend met de functie summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Meerdere kolommen samenvatten per groep

Vaak is het wenselijk om samenvattende statistieken te vergelijken tussen verschillende groepen in de dataset. Bijvoorbeeld het berekenen van de gemiddelde verkoopprijs en gemiddelde kilometerstand per type brandstof.

Controleer voordat je samenvat of de kolom mileage numeriek is:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

De functie aggregate() kan worden gebruikt om gegroepeerde statistieken te berekenen. Met de functie cbind() kunnen meerdere numerieke kolommen tegelijk worden samengevat.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Groeperen en samenvatten kan ook worden uitgevoerd met group_by() en summarise(). Deze aanpak is over het algemeen leesbaarder en eenvoudiger uit te breiden.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

De functie aggregate() wordt in base R gebruikt om:

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 11
some-alt