Mitä Teemme NaN-Arvojen Kanssa?
Edellisessä luvussa sait tulokseksi:
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Aineistossa on 418 riviä. Tarkastele saraketta Cabin
, jossa on 327
puuttuvaa arvoa. Niiden täyttäminen ei ole järkevää, koska tietoa on hyvin vähän. Tässä tapauksessa paras ratkaisu on poistaa sarake, josta ei ole meille hyötyä. Yksi syy tähän on, että voisimme poistaa vain rivit, joissa on puuttuvia arvoja, mutta emme voi poistaa 327 riviä 418:sta. Selvitetään siis, miten tämä tehdään.
Sarakkeen poistamiseksi tulee käyttää menetelmää .drop()
aineistolle. Syntaksi on seuraava:
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Selitys:
.drop()
– menetelmä, joka poistaa sarakkeita;columns = 'column_name'
taicolumns = ['column_1', 'column_2']
– funktion argumentti, jossa määritellään poistettavan sarakkeen tai sarakkeiden nimet;inplace = True
– pandas-kirjaston hyödyllinen argumentti, jonka avulla muutokset tallennetaan pysyvästi. Voit käyttää sitä myös muissa funktioissa; opimme niistä lisää myöhemmin.
Swipe to start coding
Tehtävänäsi on poistaa sarake, jossa on eniten NaN-arvoja. Noudata seuraavaa algoritmia:
- Poista sarake
'Cabin'
käyttämällä argumenttiainplace = True
. - Tulosta satunnaiset
5
riviä tietojoukosta.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.03
Mitä Teemme NaN-Arvojen Kanssa?
Pyyhkäise näyttääksesi valikon
Edellisessä luvussa sait tulokseksi:
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Aineistossa on 418 riviä. Tarkastele saraketta Cabin
, jossa on 327
puuttuvaa arvoa. Niiden täyttäminen ei ole järkevää, koska tietoa on hyvin vähän. Tässä tapauksessa paras ratkaisu on poistaa sarake, josta ei ole meille hyötyä. Yksi syy tähän on, että voisimme poistaa vain rivit, joissa on puuttuvia arvoja, mutta emme voi poistaa 327 riviä 418:sta. Selvitetään siis, miten tämä tehdään.
Sarakkeen poistamiseksi tulee käyttää menetelmää .drop()
aineistolle. Syntaksi on seuraava:
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Selitys:
.drop()
– menetelmä, joka poistaa sarakkeita;columns = 'column_name'
taicolumns = ['column_1', 'column_2']
– funktion argumentti, jossa määritellään poistettavan sarakkeen tai sarakkeiden nimet;inplace = True
– pandas-kirjaston hyödyllinen argumentti, jonka avulla muutokset tallennetaan pysyvästi. Voit käyttää sitä myös muissa funktioissa; opimme niistä lisää myöhemmin.
Swipe to start coding
Tehtävänäsi on poistaa sarake, jossa on eniten NaN-arvoja. Noudata seuraavaa algoritmia:
- Poista sarake
'Cabin'
käyttämällä argumenttiainplace = True
. - Tulosta satunnaiset
5
riviä tietojoukosta.
Ratkaisu
Kiitos palautteestasi!
single