Puuttuvien Arvojen Käsittely
Puuttuvat arvot ovat yleisiä todellisissa tietoaineistoissa ja ne on käsiteltävä ennen klusterointia. Käsittelemme kolme perusmenetelmää: keskiarvoimputointi, mediaani-imputointi ja rivien poistaminen.
Täyttäminen keskiarvolla
Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen keskiarvolla. Menetelmä on yksinkertainen ja säilyttää sarakkeen keskiarvon.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Menetelmä voi kuitenkin pienentää varianssia eikä sovellu hyvin vinoutuneisiin aineistoihin tai luokitteluominaisuuksiin.
Täyttäminen mediaanilla
Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen mediaanilla. Mediaani on vähemmän herkkä poikkeaville arvoille kuin keskiarvo, joten se soveltuu paremmin vinoutuneisiin aineistoihin tai aineistoihin, joissa on poikkeavia arvoja.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Rivien poistaminen, joissa puuttuvia arvoja
Tämä menetelmä poistaa kaikki rivit, joissa on puuttuvia arvoja. Se on yksinkertainen eikä lisää imputoitua dataa. Menetelmä voi kuitenkin johtaa merkittävään datan menetykseen ja harhaan, jos monia rivejä poistetaan tai puuttuvat arvot eivät ole satunnaisia.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Parhaan menetelmän valinta riippuu datasta ja analyysin tavoitteista. Kooditiedosto näyttää käytännön esimerkkejä jokaisesta tekniikasta tarkemmin.
Alla oleva kooditiedosto sisältää käytännön esimerkkejä jokaisesta tämän osion esikäsittelytekniikasta, mukaan lukien puuttuvien arvojen käsittely:
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 2.94
Puuttuvien Arvojen Käsittely
Pyyhkäise näyttääksesi valikon
Puuttuvat arvot ovat yleisiä todellisissa tietoaineistoissa ja ne on käsiteltävä ennen klusterointia. Käsittelemme kolme perusmenetelmää: keskiarvoimputointi, mediaani-imputointi ja rivien poistaminen.
Täyttäminen keskiarvolla
Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen keskiarvolla. Menetelmä on yksinkertainen ja säilyttää sarakkeen keskiarvon.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Menetelmä voi kuitenkin pienentää varianssia eikä sovellu hyvin vinoutuneisiin aineistoihin tai luokitteluominaisuuksiin.
Täyttäminen mediaanilla
Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen mediaanilla. Mediaani on vähemmän herkkä poikkeaville arvoille kuin keskiarvo, joten se soveltuu paremmin vinoutuneisiin aineistoihin tai aineistoihin, joissa on poikkeavia arvoja.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Rivien poistaminen, joissa puuttuvia arvoja
Tämä menetelmä poistaa kaikki rivit, joissa on puuttuvia arvoja. Se on yksinkertainen eikä lisää imputoitua dataa. Menetelmä voi kuitenkin johtaa merkittävään datan menetykseen ja harhaan, jos monia rivejä poistetaan tai puuttuvat arvot eivät ole satunnaisia.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Parhaan menetelmän valinta riippuu datasta ja analyysin tavoitteista. Kooditiedosto näyttää käytännön esimerkkejä jokaisesta tekniikasta tarkemmin.
Alla oleva kooditiedosto sisältää käytännön esimerkkejä jokaisesta tämän osion esikäsittelytekniikasta, mukaan lukien puuttuvien arvojen käsittely:
Kiitos palautteestasi!