Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vad Ska Vi Göra Med NaN-värdena? | Förbehandling av Data
Avancerade tekniker i pandas

bookVad Ska Vi Göra Med NaN-värdena?

I föregående kapitel fick du resultatet:

PassengerId0
Survived0
Pclass0
Name0
Sex0
Age86
SibSp0
Parch0
Ticket0
Fare1
Cabin327
Embarked0

Datasettet har 418 rader. Titta på kolumnen Cabin, där vi har 327 saknade värden. Det finns ingen mening med att fylla i dessa eftersom vi har minimal information här. I detta fall är den bästa lösningen att ta bort kolumnen som är meningslös för oss. En av anledningarna är att vi kan ta bort endast de rader som innehåller saknade värden, men vi kan inte ta bort 327 rader av 418. Låt oss därför ta reda på hur vi gör detta.

För att ta bort en kolumn måste du använda metoden .drop() på datasetet. Syntaxen är följande:

# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)

Förklaring:

  • .drop() – en metod som tar bort kolumner;
  • columns = 'column_name' eller columns = ['column_1', 'column_2'] – argument till funktionen där du anger namnet eller namnen på de kolumner du vill ta bort;
  • inplace = True – användbart argument i pandas som gör att vi kan spara alla ändringar. Du kan använda det i andra funktioner också; vi kommer att lära oss några av dem senare.
Uppgift

Swipe to start coding

Din uppgift är att ta bort kolumnen med flest NaN-värden. Följ algoritmen:

  1. Ta bort kolumnen 'Cabin' med argumentet inplace = True.
  2. Visa slumpmässiga 5 rader från datasettet.

Lösning

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 3
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain what happens if I don't use `inplace=True`?

What should I do if I want to delete multiple columns at once?

Is there a way to undo the column deletion if I make a mistake?

close

Awesome!

Completion rate improved to 3.03

bookVad Ska Vi Göra Med NaN-värdena?

Svep för att visa menyn

I föregående kapitel fick du resultatet:

PassengerId0
Survived0
Pclass0
Name0
Sex0
Age86
SibSp0
Parch0
Ticket0
Fare1
Cabin327
Embarked0

Datasettet har 418 rader. Titta på kolumnen Cabin, där vi har 327 saknade värden. Det finns ingen mening med att fylla i dessa eftersom vi har minimal information här. I detta fall är den bästa lösningen att ta bort kolumnen som är meningslös för oss. En av anledningarna är att vi kan ta bort endast de rader som innehåller saknade värden, men vi kan inte ta bort 327 rader av 418. Låt oss därför ta reda på hur vi gör detta.

För att ta bort en kolumn måste du använda metoden .drop() på datasetet. Syntaxen är följande:

# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)

Förklaring:

  • .drop() – en metod som tar bort kolumner;
  • columns = 'column_name' eller columns = ['column_1', 'column_2'] – argument till funktionen där du anger namnet eller namnen på de kolumner du vill ta bort;
  • inplace = True – användbart argument i pandas som gör att vi kan spara alla ändringar. Du kan använda det i andra funktioner också; vi kommer att lära oss några av dem senare.
Uppgift

Swipe to start coding

Din uppgift är att ta bort kolumnen med flest NaN-värden. Följ algoritmen:

  1. Ta bort kolumnen 'Cabin' med argumentet inplace = True.
  2. Visa slumpmässiga 5 rader från datasettet.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 3
single

single

some-alt