Gegevens Samenvatten
Samenvatten van gegevens is essentieel om snel inzicht te krijgen in de structuur en patronen ervan.
Snelle samenvatting van de dataset
Voordat u een gedetailleerde analyse uitvoert, is het nuttig om een snel overzicht van de dataset te genereren. Dit helpt om in één oogopslag de bereiken, verdelingen en aanwezigheid van categorische waarden te begrijpen. U kunt hiervoor de functie summary()
gebruiken.
summary(df)
Samenvattende statistieken voor één kolom
U kunt basisbeschrijvende statistieken zoals het gemiddelde, de mediaan en de standaarddeviatie voor afzonderlijke kolommen berekenen. Hier ziet u bijvoorbeeld hoe u de kolom selling_price
samenvat.
Base R
Er zijn speciale functies zoals mean()
, median()
en sd()
beschikbaar. Het argument na.rm = TRUE
zorgt ervoor dat ontbrekende waarden worden genegeerd tijdens de berekening.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle drie de statistieken kunnen in één stap worden berekend met de functie summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Meerdere kolommen samenvatten per groep
Vaak is het wenselijk om samenvattende statistieken te vergelijken tussen verschillende groepen in de dataset. Bijvoorbeeld het berekenen van de gemiddelde verkoopprijs en gemiddelde kilometerstand per type brandstof.
Controleer voordat je samenvat of de kolom mileage
numeriek is:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
De functie aggregate()
kan worden gebruikt om gegroepeerde statistieken te berekenen. Met de functie cbind()
kunnen meerdere numerieke kolommen tegelijk worden samengevat.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Groeperen en samenvatten kan ook worden uitgevoerd met group_by()
en summarise()
. Deze aanpak is over het algemeen leesbaarder en eenvoudiger uit te breiden.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
What does the summary() function output look like?
How do I handle non-numeric columns when summarizing data?
Can you explain how to interpret the mean, median, and standard deviation results?
Awesome!
Completion rate improved to 4
Gegevens Samenvatten
Veeg om het menu te tonen
Samenvatten van gegevens is essentieel om snel inzicht te krijgen in de structuur en patronen ervan.
Snelle samenvatting van de dataset
Voordat u een gedetailleerde analyse uitvoert, is het nuttig om een snel overzicht van de dataset te genereren. Dit helpt om in één oogopslag de bereiken, verdelingen en aanwezigheid van categorische waarden te begrijpen. U kunt hiervoor de functie summary()
gebruiken.
summary(df)
Samenvattende statistieken voor één kolom
U kunt basisbeschrijvende statistieken zoals het gemiddelde, de mediaan en de standaarddeviatie voor afzonderlijke kolommen berekenen. Hier ziet u bijvoorbeeld hoe u de kolom selling_price
samenvat.
Base R
Er zijn speciale functies zoals mean()
, median()
en sd()
beschikbaar. Het argument na.rm = TRUE
zorgt ervoor dat ontbrekende waarden worden genegeerd tijdens de berekening.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alle drie de statistieken kunnen in één stap worden berekend met de functie summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Meerdere kolommen samenvatten per groep
Vaak is het wenselijk om samenvattende statistieken te vergelijken tussen verschillende groepen in de dataset. Bijvoorbeeld het berekenen van de gemiddelde verkoopprijs en gemiddelde kilometerstand per type brandstof.
Controleer voordat je samenvat of de kolom mileage
numeriek is:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
De functie aggregate()
kan worden gebruikt om gegroepeerde statistieken te berekenen. Met de functie cbind()
kunnen meerdere numerieke kolommen tegelijk worden samengevat.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Groeperen en samenvatten kan ook worden uitgevoerd met group_by()
en summarise()
. Deze aanpak is over het algemeen leesbaarder en eenvoudiger uit te breiden.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Bedankt voor je feedback!