Pyyhkäise näyttääksesi valikon

Puuttuvat tiedot ovat yleinen ongelma todellisissa tietoaineistoissa. Ne voivat heikentää analyysin tarkkuutta ja johtaa harhaanjohtaviin tuloksiin, ellei niitä käsitellä asianmukaisesti.

Puuttuvien arvojen tunnistaminen

Ensimmäinen vaihe on tarkistaa, missä ja kuinka paljon tietoaineistossa on puuttuvia arvoja.

is.na(df)              # returns a logical matrix of TRUE/FALSE
sum(is.na(df))         # total number of missing values
colSums(is.na(df))     # missing values per column

Tämä antaa selkeän kuvan siitä, missä sarakkeissa on puuttuvia arvoja ja kuinka vakava ongelma on.

Puuttuvien arvojen poistaminen

Joskus yksinkertaisin tapa käsitellä puuttuvia arvoja on poistaa rivit, jotka sisältävät minkä tahansa NA-arvon. Tämä varmistaa, että tietoaineisto on puhdas, mutta voi myös johtaa merkittävään tietojen menetykseen, jos monissa riveissä on puuttuvia arvoja.

Base R

na.omit()-funktio poistaa kaikki puuttuvia arvoja sisältävät rivit aineistosta.

df_clean <- na.omit(df)
sum(is.na(df_clean))

dplyr

Sama tehtävä voidaan suorittaa käyttämällä drop_na()-funktiota.

df_clean <- df %>%
  drop_na()

Tämä lähestymistapa on yksinkertainen ja toimii hyvin, kun puuttuvien tietojen määrä on pieni, mutta ei välttämättä ole ihanteellinen, jos prosessissa poistetaan paljon rivejä.

Puuttuvien arvojen korvaaminen

Rivien poistamisen sijaan tehokkaampi lähestymistapa on imputointi, jossa puuttuvat arvot korvataan mielekkäillä estimaateilla. Tämä auttaa säilyttämään aineiston koon ja vähentämään harhaa. Yleinen strategia numeerisille muuttujille on korvata puuttuvat arvot sarakkeen keskiarvolla.

Base R

Voit käyttää loogista indeksointia ja is.na()-funktiota löytääksesi puuttuvat arvot ja korvataksesi ne sarakkeen keskiarvolla.

df$selling_price[is.na(df$selling_price)] <- mean(df$selling_price, na.rm = TRUE)

dplyr

Voit myös käsitellä imputointia käyttämällä ifelse()-funktiota mutate()-funktion sisällä.

df <- df %>%
  mutate(selling_price = ifelse(is.na(selling_price),
                                mean(selling_price, na.rm = TRUE),
                                selling_price))

Puuttuvien arvojen täyttäminen kategorisissa sarakkeissa

Kategorisissa muuttujissa (merkkijono- tai faktorimuotoiset sarakkeet) puuttuvat arvot korvataan usein kiinteällä paikkamerkillä, kuten "Unknown".

Base R

df$fuel[is.na(df$fuel)] <- "Unknown"

dplyr

replace_na()-funktio tarjoaa selkeämmän tavan täyttää puuttuvat arvot.

df <- df %>%
  mutate(fuel = replace_na(fuel, "Unknown"))

Tämä lähestymistapa varmistaa, että puuttuvat arvot käsitellään johdonmukaisesti ja sarake pysyy kelvollisena raportointia tai mallinnusta varten.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 10

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Puuttuvien Tietojen Käsittely

Puuttuvat tiedot ovat yleinen ongelma todellisissa tietoaineistoissa. Ne voivat heikentää analyysin tarkkuutta ja johtaa harhaanjohtaviin tuloksiin, ellei niitä käsitellä asianmukaisesti.

Puuttuvien arvojen tunnistaminen

Ensimmäinen vaihe on tarkistaa, missä ja kuinka paljon tietoaineistossa on puuttuvia arvoja.

is.na(df)              # returns a logical matrix of TRUE/FALSE
sum(is.na(df))         # total number of missing values
colSums(is.na(df))     # missing values per column

Tämä antaa selkeän kuvan siitä, missä sarakkeissa on puuttuvia arvoja ja kuinka vakava ongelma on.

Puuttuvien arvojen poistaminen

Base R

na.omit()-funktio poistaa kaikki puuttuvia arvoja sisältävät rivit aineistosta.

df_clean <- na.omit(df)
sum(is.na(df_clean))

dplyr

Sama tehtävä voidaan suorittaa käyttämällä drop_na()-funktiota.

df_clean <- df %>%
  drop_na()

Tämä lähestymistapa on yksinkertainen ja toimii hyvin, kun puuttuvien tietojen määrä on pieni, mutta ei välttämättä ole ihanteellinen, jos prosessissa poistetaan paljon rivejä.

Puuttuvien arvojen korvaaminen

Base R

Voit käyttää loogista indeksointia ja is.na()-funktiota löytääksesi puuttuvat arvot ja korvataksesi ne sarakkeen keskiarvolla.

df$selling_price[is.na(df$selling_price)] <- mean(df$selling_price, na.rm = TRUE)

dplyr

Voit myös käsitellä imputointia käyttämällä ifelse()-funktiota mutate()-funktion sisällä.

df <- df %>%
  mutate(selling_price = ifelse(is.na(selling_price),
                                mean(selling_price, na.rm = TRUE),
                                selling_price))

Puuttuvien arvojen täyttäminen kategorisissa sarakkeissa

Kategorisissa muuttujissa (merkkijono- tai faktorimuotoiset sarakkeet) puuttuvat arvot korvataan usein kiinteällä paikkamerkillä, kuten "Unknown".

Base R

df$fuel[is.na(df$fuel)] <- "Unknown"

dplyr

replace_na()-funktio tarjoaa selkeämmän tavan täyttää puuttuvat arvot.

df <- df %>%
  mutate(fuel = replace_na(fuel, "Unknown"))

Tämä lähestymistapa varmistaa, että puuttuvat arvot käsitellään johdonmukaisesti ja sarake pysyy kelvollisena raportointia tai mallinnusta varten.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 10