Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hva Skal Vi Gjøre Med NaN-verdiene? | Forbehandling av Data
Avanserte Teknikker i Pandas

bookHva Skal Vi Gjøre Med NaN-verdiene?

I forrige kapittel fikk du følgende resultat:

PassengerId0
Survived0
Pclass0
Name0
Sex0
Age86
SibSp0
Parch0
Ticket0
Fare1
Cabin327
Embarked0

Datasettet har 418 rader. Se på kolonnen Cabin, hvor vi har 327 manglende verdier. Det gir ingen mening å fylle dem inn fordi vi har minimal informasjon her. I dette tilfellet er den beste løsningen å slette kolonnen som er meningsløs for oss. En av grunnene er at vi kan slette bare radene som inneholder manglende verdier, men vi kan ikke slette 327 rader av 418. La oss derfor finne ut hvordan vi gjør dette.

For å slette en kolonne må du bruke metoden .drop() på datasettet. Syntaksen er følgende:

# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)

Forklaring:

  • .drop() – en metode som sletter kolonner;
  • columns = 'column_name' eller columns = ['column_1', 'column_2'] – argument for funksjonen, hvor du angir navnet eller navnene på kolonnene du vil slette;
  • inplace = True – nyttig argument i pandas som lar oss lagre alle endringer. Du kan bruke det i andre funksjoner også; vi skal lære om noen av dem senere.
Oppgave

Swipe to start coding

Din oppgave er å slette kolonnen med flest NaN-verdier. Følg algoritmen:

  1. Slett kolonnen 'Cabin' ved å bruke argumentet inplace = True.
  2. Vis 5 tilfeldige rader fra datasettet.

Løsning

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 3
single

single

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

close

Awesome!

Completion rate improved to 3.03

bookHva Skal Vi Gjøre Med NaN-verdiene?

Sveip for å vise menyen

I forrige kapittel fikk du følgende resultat:

PassengerId0
Survived0
Pclass0
Name0
Sex0
Age86
SibSp0
Parch0
Ticket0
Fare1
Cabin327
Embarked0

Datasettet har 418 rader. Se på kolonnen Cabin, hvor vi har 327 manglende verdier. Det gir ingen mening å fylle dem inn fordi vi har minimal informasjon her. I dette tilfellet er den beste løsningen å slette kolonnen som er meningsløs for oss. En av grunnene er at vi kan slette bare radene som inneholder manglende verdier, men vi kan ikke slette 327 rader av 418. La oss derfor finne ut hvordan vi gjør dette.

For å slette en kolonne må du bruke metoden .drop() på datasettet. Syntaksen er følgende:

# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)

Forklaring:

  • .drop() – en metode som sletter kolonner;
  • columns = 'column_name' eller columns = ['column_1', 'column_2'] – argument for funksjonen, hvor du angir navnet eller navnene på kolonnene du vil slette;
  • inplace = True – nyttig argument i pandas som lar oss lagre alle endringer. Du kan bruke det i andre funksjoner også; vi skal lære om noen av dem senere.
Oppgave

Swipe to start coding

Din oppgave er å slette kolonnen med flest NaN-verdier. Følg algoritmen:

  1. Slett kolonnen 'Cabin' ved å bruke argumentet inplace = True.
  2. Vis 5 tilfeldige rader fra datasettet.

Løsning

Switch to desktopBytt til skrivebordet for virkelighetspraksisFortsett der du er med et av alternativene nedenfor
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 3
single

single

some-alt