Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mitä Teemme NaN-Arvojen Kanssa? | Datan Esikäsittely
Edistyneet Tekniikat Pandas-Kirjastossa

bookMitä Teemme NaN-Arvojen Kanssa?

Edellisessä luvussa sait tulokseksi:

PassengerId0
Survived0
Pclass0
Name0
Sex0
Age86
SibSp0
Parch0
Ticket0
Fare1
Cabin327
Embarked0

Aineistossa on 418 riviä. Tarkastele saraketta Cabin, jossa on 327 puuttuvaa arvoa. Niiden täyttäminen ei ole järkevää, koska tietoa on hyvin vähän. Tässä tapauksessa paras ratkaisu on poistaa sarake, josta ei ole meille hyötyä. Yksi syy tähän on, että voisimme poistaa vain rivit, joissa on puuttuvia arvoja, mutta emme voi poistaa 327 riviä 418:sta. Selvitetään siis, miten tämä tehdään.

Sarakkeen poistamiseksi tulee käyttää menetelmää .drop() aineistolle. Syntaksi on seuraava:

# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)

Selitys:

  • .drop() – menetelmä, joka poistaa sarakkeita;
  • columns = 'column_name' tai columns = ['column_1', 'column_2'] – funktion argumentti, jossa määritellään poistettavan sarakkeen tai sarakkeiden nimet;
  • inplace = True – pandas-kirjaston hyödyllinen argumentti, jonka avulla muutokset tallennetaan pysyvästi. Voit käyttää sitä myös muissa funktioissa; opimme niistä lisää myöhemmin.
Tehtävä

Swipe to start coding

Tehtävänäsi on poistaa sarake, jossa on eniten NaN-arvoja. Noudata seuraavaa algoritmia:

  1. Poista sarake 'Cabin' käyttämällä argumenttia inplace = True.
  2. Tulosta satunnaiset 5 riviä tietojoukosta.

Ratkaisu

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 3
single

single

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

close

Awesome!

Completion rate improved to 3.03

bookMitä Teemme NaN-Arvojen Kanssa?

Pyyhkäise näyttääksesi valikon

Edellisessä luvussa sait tulokseksi:

PassengerId0
Survived0
Pclass0
Name0
Sex0
Age86
SibSp0
Parch0
Ticket0
Fare1
Cabin327
Embarked0

Aineistossa on 418 riviä. Tarkastele saraketta Cabin, jossa on 327 puuttuvaa arvoa. Niiden täyttäminen ei ole järkevää, koska tietoa on hyvin vähän. Tässä tapauksessa paras ratkaisu on poistaa sarake, josta ei ole meille hyötyä. Yksi syy tähän on, että voisimme poistaa vain rivit, joissa on puuttuvia arvoja, mutta emme voi poistaa 327 riviä 418:sta. Selvitetään siis, miten tämä tehdään.

Sarakkeen poistamiseksi tulee käyttää menetelmää .drop() aineistolle. Syntaksi on seuraava:

# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)

Selitys:

  • .drop() – menetelmä, joka poistaa sarakkeita;
  • columns = 'column_name' tai columns = ['column_1', 'column_2'] – funktion argumentti, jossa määritellään poistettavan sarakkeen tai sarakkeiden nimet;
  • inplace = True – pandas-kirjaston hyödyllinen argumentti, jonka avulla muutokset tallennetaan pysyvästi. Voit käyttää sitä myös muissa funktioissa; opimme niistä lisää myöhemmin.
Tehtävä

Swipe to start coding

Tehtävänäsi on poistaa sarake, jossa on eniten NaN-arvoja. Noudata seuraavaa algoritmia:

  1. Poista sarake 'Cabin' käyttämällä argumenttia inplace = True.
  2. Tulosta satunnaiset 5 riviä tietojoukosta.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 3
single

single

some-alt