Sammanfattning av Data
Sammanfattning av data är avgörande för att snabbt få en förståelse för dess struktur och mönster.
Snabb översikt av datasetet
Innan en detaljerad analys genomförs är det användbart att skapa en snabb översikt av datasetet. Detta hjälper dig att snabbt förstå intervall, fördelningar och förekomst av kategoriska värden. Du kan använda funktionen summary()
för detta.
summary(df)
Sammanfattande statistik för en enskild kolumn
Du kan beräkna grundläggande beskrivande statistik såsom medelvärde, median och standardavvikelse för enskilda kolumner. Här är till exempel hur du sammanfattar kolumnen selling_price
.
Base R
Det finns dedikerade funktioner som mean()
, median()
och sd()
tillgängliga. Argumentet na.rm = TRUE
säkerställer att saknade värden ignoreras vid beräkning.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alla tre statistiska mått kan beräknas i ett steg med funktionen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Sammanfatta flera kolumner efter grupp
Ofta vill du jämföra sammanfattande statistik mellan olika grupper i din datamängd. Till exempel kan du beräkna genomsnittligt försäljningspris och genomsnittlig körsträcka för varje typ av bränsle.
Innan du sammanfattar, säkerställ att kolumnen mileage
är numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funktionen aggregate()
kan användas för att beräkna grupperad statistik. Funktionen cbind()
möjliggör summering av flera numeriska kolumner samtidigt.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering och summering kan även utföras med group_by()
och summarise()
. Detta tillvägagångssätt är generellt mer läsbart och enklare att utöka.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
What does the summary() function output look like?
How do I handle non-numeric columns when summarizing data?
Can you explain how to interpret the mean, median, and standard deviation results?
Awesome!
Completion rate improved to 4
Sammanfattning av Data
Svep för att visa menyn
Sammanfattning av data är avgörande för att snabbt få en förståelse för dess struktur och mönster.
Snabb översikt av datasetet
Innan en detaljerad analys genomförs är det användbart att skapa en snabb översikt av datasetet. Detta hjälper dig att snabbt förstå intervall, fördelningar och förekomst av kategoriska värden. Du kan använda funktionen summary()
för detta.
summary(df)
Sammanfattande statistik för en enskild kolumn
Du kan beräkna grundläggande beskrivande statistik såsom medelvärde, median och standardavvikelse för enskilda kolumner. Här är till exempel hur du sammanfattar kolumnen selling_price
.
Base R
Det finns dedikerade funktioner som mean()
, median()
och sd()
tillgängliga. Argumentet na.rm = TRUE
säkerställer att saknade värden ignoreras vid beräkning.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Alla tre statistiska mått kan beräknas i ett steg med funktionen summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Sammanfatta flera kolumner efter grupp
Ofta vill du jämföra sammanfattande statistik mellan olika grupper i din datamängd. Till exempel kan du beräkna genomsnittligt försäljningspris och genomsnittlig körsträcka för varje typ av bränsle.
Innan du sammanfattar, säkerställ att kolumnen mileage
är numerisk:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
Funktionen aggregate()
kan användas för att beräkna grupperad statistik. Funktionen cbind()
möjliggör summering av flera numeriska kolumner samtidigt.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Gruppering och summering kan även utföras med group_by()
och summarise()
. Detta tillvägagångssätt är generellt mer läsbart och enklare att utöka.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Tack för dina kommentarer!