Hvad Vil Vi Gøre Med NaN-Værdierne?
I det forrige kapitel modtog du resultatet:
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Datasættet indeholder 418 rækker. Se på kolonnen Cabin
, hvor der er 327
manglende værdier. Det giver ikke mening at udfylde dem, da vi har minimal information her. Derfor er den bedste løsning i dette tilfælde at slette kolonnen, da den er meningsløs for os. En af grundene er, at vi kun kan slette de rækker, der indeholder manglende værdier, men vi kan ikke slette 327 ud af 418 rækker. Lad os derfor finde ud af, hvordan vi gør dette.
For at slette en kolonne skal du anvende metoden .drop()
på datasættet. Syntaksen er følgende:
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Forklaring:
.drop()
– metode, der sletter kolonner;columns = 'column_name'
ellercolumns = ['column_1', 'column_2']
– argument for funktionen, hvor du angiver navnet eller navnene på de kolonner, du vil slette;inplace = True
– nyttigt argument i pandas, der gør det muligt at gemme alle ændringer. Du kan også bruge det i andre funktioner; vi vil lære om nogle af dem senere.
Swipe to start coding
Din opgave er at slette den kolonne, der har flest NaN-værdier. Følg algoritmen:
- Fjern kolonnen
'Cabin'
ved at bruge argumentetinplace = True
. - Vis
5
tilfældige rækker fra datasættet.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain what happens if I don't use `inplace=True`?
What should I do if I want to delete multiple columns at once?
Is there a way to undo the column deletion if I make a mistake?
Awesome!
Completion rate improved to 3.03
Hvad Vil Vi Gøre Med NaN-Værdierne?
Stryg for at vise menuen
I det forrige kapitel modtog du resultatet:
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Datasættet indeholder 418 rækker. Se på kolonnen Cabin
, hvor der er 327
manglende værdier. Det giver ikke mening at udfylde dem, da vi har minimal information her. Derfor er den bedste løsning i dette tilfælde at slette kolonnen, da den er meningsløs for os. En af grundene er, at vi kun kan slette de rækker, der indeholder manglende værdier, men vi kan ikke slette 327 ud af 418 rækker. Lad os derfor finde ud af, hvordan vi gør dette.
For at slette en kolonne skal du anvende metoden .drop()
på datasættet. Syntaksen er følgende:
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Forklaring:
.drop()
– metode, der sletter kolonner;columns = 'column_name'
ellercolumns = ['column_1', 'column_2']
– argument for funktionen, hvor du angiver navnet eller navnene på de kolonner, du vil slette;inplace = True
– nyttigt argument i pandas, der gør det muligt at gemme alle ændringer. Du kan også bruge det i andre funktioner; vi vil lære om nogle af dem senere.
Swipe to start coding
Din opgave er at slette den kolonne, der har flest NaN-værdier. Følg algoritmen:
- Fjern kolonnen
'Cabin'
ved at bruge argumentetinplace = True
. - Vis
5
tilfældige rækker fra datasættet.
Løsning
Tak for dine kommentarer!
single