Veeg om het menu te tonen

Ontbrekende gegevens zijn een veelvoorkomend probleem in datasets uit de praktijk. Dit kan de nauwkeurigheid van analyses beïnvloeden en tot misleidende resultaten leiden als het niet goed wordt aangepakt.

Ontdekken van ontbrekende waarden

De eerste stap is controleren waar en hoeveel gegevens ontbreken in de dataset.

is.na(df)              # returns a logical matrix of TRUE/FALSE
sum(is.na(df))         # total number of missing values
colSums(is.na(df))     # missing values per column

Dit geeft een duidelijk beeld van welke kolommen ontbrekende gegevens bevatten en hoe ernstig het probleem is.

Verwijderen van ontbrekende waarden

Soms is de eenvoudigste manier om ontbrekende gegevens te behandelen het verwijderen van rijen die NA-waarden bevatten. Dit zorgt voor een schone dataset, maar kan ook leiden tot aanzienlijk dataverlies als veel rijen worden getroffen.

Base R

De functie na.omit() verwijdert alle rijen met ontbrekende waarden uit de dataset.

df_clean <- na.omit(df)
sum(is.na(df_clean))

dplyr

Dezelfde taak kan worden uitgevoerd met de functie drop_na().

df_clean <- df %>%
  drop_na()

Deze aanpak is eenvoudig en werkt goed wanneer er weinig ontbrekende data zijn, maar is mogelijk minder geschikt als er veel rijen worden verwijderd tijdens het proces.

Ontbrekende waarden vervangen

In plaats van rijen te verwijderen, is imputatie een effectievere aanpak, waarbij ontbrekende waarden worden vervangen door zinvolle schattingen. Dit helpt de omvang van de dataset te behouden en bias te verminderen. Een veelgebruikte strategie voor numerieke variabelen is het vervangen van ontbrekende waarden door het kolomgemiddelde.

Base R

Logische indexering met is.na() gebruiken om ontbrekende waarden te vinden en deze toe te wijzen aan het gemiddelde van de kolom.

df$selling_price[is.na(df$selling_price)] <- mean(df$selling_price, na.rm = TRUE)

dplyr

Imputatie uitvoeren met ifelse() binnen mutate().

df <- df %>%
  mutate(selling_price = ifelse(is.na(selling_price),
                                mean(selling_price, na.rm = TRUE),
                                selling_price))

Ontbrekende waarden invullen in categorische kolommen

Voor categorische variabelen (character- of factor-kolommen) worden ontbrekende waarden vaak vervangen door een vaste aanduiding zoals "Unknown".

Base R

df$fuel[is.na(df$fuel)] <- "Unknown"

dplyr

De functie replace_na() biedt een overzichtelijkere manier om ontbrekende waarden in te vullen.

df <- df %>%
  mutate(fuel = replace_na(fuel, "Unknown"))

Deze methode zorgt ervoor dat ontbrekende waarden consequent worden behandeld en dat de kolom geldig blijft voor rapportage of modellering.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 10

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Omgaan met Ontbrekende Gegevens

Ontdekken van ontbrekende waarden

De eerste stap is controleren waar en hoeveel gegevens ontbreken in de dataset.

is.na(df)              # returns a logical matrix of TRUE/FALSE
sum(is.na(df))         # total number of missing values
colSums(is.na(df))     # missing values per column

Dit geeft een duidelijk beeld van welke kolommen ontbrekende gegevens bevatten en hoe ernstig het probleem is.

Verwijderen van ontbrekende waarden

Base R

De functie na.omit() verwijdert alle rijen met ontbrekende waarden uit de dataset.

df_clean <- na.omit(df)
sum(is.na(df_clean))

dplyr

Dezelfde taak kan worden uitgevoerd met de functie drop_na().

df_clean <- df %>%
  drop_na()

Deze aanpak is eenvoudig en werkt goed wanneer er weinig ontbrekende data zijn, maar is mogelijk minder geschikt als er veel rijen worden verwijderd tijdens het proces.

Ontbrekende waarden vervangen

Base R

Logische indexering met is.na() gebruiken om ontbrekende waarden te vinden en deze toe te wijzen aan het gemiddelde van de kolom.

df$selling_price[is.na(df$selling_price)] <- mean(df$selling_price, na.rm = TRUE)

dplyr

Imputatie uitvoeren met ifelse() binnen mutate().

df <- df %>%
  mutate(selling_price = ifelse(is.na(selling_price),
                                mean(selling_price, na.rm = TRUE),
                                selling_price))

Ontbrekende waarden invullen in categorische kolommen

Voor categorische variabelen (character- of factor-kolommen) worden ontbrekende waarden vaak vervangen door een vaste aanduiding zoals "Unknown".

Base R

df$fuel[is.na(df$fuel)] <- "Unknown"

dplyr

De functie replace_na() biedt een overzichtelijkere manier om ontbrekende waarden in te vullen.

df <- df %>%
  mutate(fuel = replace_na(fuel, "Unknown"))

Deze methode zorgt ervoor dat ontbrekende waarden consequent worden behandeld en dat de kolom geldig blijft voor rapportage of modellering.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 10