Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Puuttuvien Arvojen Käsittely | Ydinkäsitteet
Klusterianalyysi

bookPuuttuvien Arvojen Käsittely

Puuttuvat arvot ovat yleisiä todellisissa tietoaineistoissa ja ne on käsiteltävä ennen klusterointia. Käsittelemme kolme perusmenetelmää: keskiarvoimputointi, mediaani-imputointi ja rivien poistaminen.

Täyttäminen keskiarvolla

Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen keskiarvolla. Menetelmä on yksinkertainen ja säilyttää sarakkeen keskiarvon.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Menetelmä voi kuitenkin pienentää varianssia eikä sovellu hyvin vinoutuneisiin aineistoihin tai luokitteluominaisuuksiin.

Täyttäminen mediaanilla

Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen mediaanilla. Mediaani on vähemmän herkkä poikkeaville arvoille kuin keskiarvo, joten se soveltuu paremmin vinoutuneisiin aineistoihin tai aineistoihin, joissa on poikkeavia arvoja.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Rivien poistaminen, joissa puuttuvia arvoja

Tämä menetelmä poistaa kaikki rivit, joissa on puuttuvia arvoja. Se on yksinkertainen eikä lisää imputoitua dataa. Menetelmä voi kuitenkin johtaa merkittävään datan menetykseen ja harhaan, jos monia rivejä poistetaan tai puuttuvat arvot eivät ole satunnaisia.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Parhaan menetelmän valinta riippuu datasta ja analyysin tavoitteista. Kooditiedosto näyttää käytännön esimerkkejä jokaisesta tekniikasta tarkemmin.

Alla oleva kooditiedosto sisältää käytännön esimerkkejä jokaisesta tämän osion esikäsittelytekniikasta, mukaan lukien puuttuvien arvojen käsittely:

question mark

Mikä menetelmä on sopivin puuttuvien arvojen käsittelyyn sarakkeessa, jossa data on vinoa ja sisältää poikkeavia havaintoja?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.94

bookPuuttuvien Arvojen Käsittely

Pyyhkäise näyttääksesi valikon

Puuttuvat arvot ovat yleisiä todellisissa tietoaineistoissa ja ne on käsiteltävä ennen klusterointia. Käsittelemme kolme perusmenetelmää: keskiarvoimputointi, mediaani-imputointi ja rivien poistaminen.

Täyttäminen keskiarvolla

Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen keskiarvolla. Menetelmä on yksinkertainen ja säilyttää sarakkeen keskiarvon.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Menetelmä voi kuitenkin pienentää varianssia eikä sovellu hyvin vinoutuneisiin aineistoihin tai luokitteluominaisuuksiin.

Täyttäminen mediaanilla

Tässä menetelmässä puuttuvat arvot korvataan sarakkeen ei-puuttuvien arvojen mediaanilla. Mediaani on vähemmän herkkä poikkeaville arvoille kuin keskiarvo, joten se soveltuu paremmin vinoutuneisiin aineistoihin tai aineistoihin, joissa on poikkeavia arvoja.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Rivien poistaminen, joissa puuttuvia arvoja

Tämä menetelmä poistaa kaikki rivit, joissa on puuttuvia arvoja. Se on yksinkertainen eikä lisää imputoitua dataa. Menetelmä voi kuitenkin johtaa merkittävään datan menetykseen ja harhaan, jos monia rivejä poistetaan tai puuttuvat arvot eivät ole satunnaisia.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Parhaan menetelmän valinta riippuu datasta ja analyysin tavoitteista. Kooditiedosto näyttää käytännön esimerkkejä jokaisesta tekniikasta tarkemmin.

Alla oleva kooditiedosto sisältää käytännön esimerkkejä jokaisesta tämän osion esikäsittelytekniikasta, mukaan lukien puuttuvien arvojen käsittely:

question mark

Mikä menetelmä on sopivin puuttuvien arvojen käsittelyyn sarakkeessa, jossa data on vinoa ja sisältää poikkeavia havaintoja?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1
some-alt