Puuttuvien Arvojen Käsittely
Pyyhkäise näyttääksesi valikon
Puuttuvat arvot ovat yleisiä todellisissa tietoaineistoissa ja ne on käsiteltävä ennen klusterointia. Tässä käsitellään kolme perusmenetelmää: keskiarvolla täyttäminen, mediaanilla täyttäminen ja rivin poistaminen.
Täyttäminen keskiarvolla
Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen keskiarvolla. Menetelmä on yksinkertainen ja säilyttää sarakkeen keskiarvon.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Kuitenkin tämä voi pienentää varianssia eikä sovi vinoutuneelle datalle tai luokitteleville muuttujille.
Täyttäminen mediaanilla
Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen mediaanilla. Mediaani on vähemmän herkkä poikkeaville arvoille kuin keskiarvo, joten se sopii paremmin vinoutuneelle datalle tai aineistoille, joissa on poikkeavia arvoja.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Rivien poistaminen puuttuvien arvojen perusteella
Tämä menetelmä poistaa kaikki rivit, joissa on puuttuvia arvoja. Menetelmä on yksinkertainen eikä lisää imputoitua dataa. Se voi kuitenkin johtaa merkittävään tietojen menetykseen ja harhaan, jos monia rivejä poistetaan tai puuttuvat arvot eivät ole satunnaisia.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Parhaan menetelmän valinta riippuu datasta ja analyysin tavoitteista. Kooditiedosto näyttää käytännön esimerkkejä jokaisesta tekniikasta tarkemmin.
Alla oleva kooditiedosto sisältää käytännön esimerkkejä jokaisesta tämän osion esikäsittelytekniikasta, mukaan lukien puuttuvien arvojen käsittely:
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme