Stryg for at vise menuen

Manglende værdier er almindelige i virkelige datasæt og skal håndteres før klyngedannelse. Vi gennemgår tre grundlæggende metoder: gennemsnitsimputation, medianimputation og fjernelse af rækker.

Udfyldning med gennemsnit

Denne metode erstatter manglende værdier i en kolonne med gennemsnittet af de ikke-manglende værdier. Det er en simpel metode og bevarer kolonnens gennemsnit.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Dog kan det reducere variansen og er måske ikke egnet til skæve data eller kategoriske variable.

Udfyldning med median

Denne metode erstatter manglende værdier med medianen af de ikke-manglende værdier i kolonnen. Medianen er mindre følsom over for outliers end gennemsnittet, hvilket gør den bedre til skæve data eller data med outliers.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Fjernelse af rækker med manglende værdier

Denne metode sletter alle rækker, der indeholder manglende værdier. Det er en simpel metode og introducerer ingen imputering af data. Dog kan det føre til betydeligt datatab og skævhed, hvis mange rækker fjernes, eller hvis manglende værdier ikke er tilfældige.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Valget af den bedste metode afhænger af dine data og analyseformål. Kodefilen viser praktiske eksempler på hver teknik i flere detaljer.

Kodefilen nedenfor indeholder praktiske eksempler på hver forbehandlingsteknik, der er dækket i dette afsnit, herunder håndtering af manglende værdier:

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Håndtering af Manglende Værdier