Sveip for å vise menyen

Manglende verdier er vanlige i datasett fra virkeligheten og må håndteres før klynging. Vi dekker tre grunnleggende metoder: gjennomsnittsimputering, medianimputering og fjerning av rader.

Utfylling med gjennomsnitt

Denne metoden erstatter manglende verdier i en kolonne med gjennomsnittet av de ikke-manglende verdiene. Den er enkel og bevarer kolonnegjennomsnittet.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Metoden kan imidlertid redusere variansen og er kanskje ikke egnet for skjevfordelte data eller kategoriske variabler.

Utfylling med median

Denne metoden erstatter manglende verdier med medianen av de ikke-manglende verdiene i kolonnen. Medianen er mindre følsom for uteliggere enn gjennomsnittet, og egner seg derfor bedre for skjevfordelte data eller data med uteliggere.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Fjerning av rader med manglende verdier

Denne metoden sletter alle rader som inneholder manglende verdier. Den er enkel og introduserer ingen imputerte data. Likevel kan det føre til betydelig datatap og skjevhet hvis mange rader fjernes eller manglende verdier ikke er tilfeldig fordelt.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Valg av beste metode avhenger av dine data og analysemål. Kodefilen viser praktiske eksempler på hver teknikk i mer detalj.

Kodefilen under gir praktiske eksempler på hver forbehandlingsteknikk som dekkes i denne seksjonen, inkludert håndtering av manglende verdier:

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Håndtering av Manglende Verdier