Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Sammanfattning av Data | Datamanipulering och Datarensning
Dataanalys med R

bookSammanfattning av Data

Sammanfattning av data är avgörande för att snabbt få en förståelse för dess struktur och mönster.

Snabb översikt av datamängden

Innan en detaljerad analys utförs är det användbart att skapa en snabb översikt av datamängden. Detta hjälper dig att förstå intervall, fördelningar och förekomst av kategoriska värden på ett ögonblick. Funktionen summary() kan användas för detta.

summary(df)

Sammanfattande statistik för en enskild kolumn

Grundläggande beskrivande statistik som medelvärde, median och standardavvikelse kan beräknas för enskilda kolumner. Här är till exempel hur kolumnen selling_price kan sammanfattas.

Base R

Det finns dedikerade funktioner som mean(), median() och sd() tillgängliga. Argumentet na.rm = TRUE säkerställer att saknade värden ignoreras vid beräkning.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alla tre statistiska mått kan beräknas i ett steg med funktionen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sammanfatta flera kolumner efter grupp

Ofta finns behov av att jämföra sammanfattande statistik mellan olika grupper i datamängden. Exempelvis kan medelvärde för försäljningspris och genomsnittlig körsträcka beräknas för varje bränsletyp.

Innan summering, säkerställ att kolumnen mileage är numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funktionen aggregate() kan användas för att beräkna grupperad statistik. Funktionen cbind() möjliggör summering av flera numeriska kolumner samtidigt.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering och summering kan också utföras med hjälp av group_by() och summarise(). Detta tillvägagångssätt är generellt mer läsbart och enklare att utöka.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

aggregate()-funktionen används i base R för att:

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 11

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4

bookSammanfattning av Data

Svep för att visa menyn

Sammanfattning av data är avgörande för att snabbt få en förståelse för dess struktur och mönster.

Snabb översikt av datamängden

Innan en detaljerad analys utförs är det användbart att skapa en snabb översikt av datamängden. Detta hjälper dig att förstå intervall, fördelningar och förekomst av kategoriska värden på ett ögonblick. Funktionen summary() kan användas för detta.

summary(df)

Sammanfattande statistik för en enskild kolumn

Grundläggande beskrivande statistik som medelvärde, median och standardavvikelse kan beräknas för enskilda kolumner. Här är till exempel hur kolumnen selling_price kan sammanfattas.

Base R

Det finns dedikerade funktioner som mean(), median() och sd() tillgängliga. Argumentet na.rm = TRUE säkerställer att saknade värden ignoreras vid beräkning.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alla tre statistiska mått kan beräknas i ett steg med funktionen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sammanfatta flera kolumner efter grupp

Ofta finns behov av att jämföra sammanfattande statistik mellan olika grupper i datamängden. Exempelvis kan medelvärde för försäljningspris och genomsnittlig körsträcka beräknas för varje bränsletyp.

Innan summering, säkerställ att kolumnen mileage är numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funktionen aggregate() kan användas för att beräkna grupperad statistik. Funktionen cbind() möjliggör summering av flera numeriska kolumner samtidigt.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering och summering kan också utföras med hjälp av group_by() och summarise(). Detta tillvägagångssätt är generellt mer läsbart och enklare att utöka.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

aggregate()-funktionen används i base R för att:

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 11
some-alt