Vad Ska Vi Göra Med NaN-värdena?
I föregående kapitel fick du resultatet:
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Datasettet har 418 rader. Titta på kolumnen Cabin
, där vi har 327
saknade värden. Det finns ingen mening med att fylla i dessa eftersom vi har minimal information här. I detta fall är den bästa lösningen att ta bort kolumnen som är meningslös för oss. En av anledningarna är att vi kan ta bort endast de rader som innehåller saknade värden, men vi kan inte ta bort 327 rader av 418. Låt oss därför ta reda på hur vi gör detta.
För att ta bort en kolumn måste du använda metoden .drop()
på datasetet. Syntaxen är följande:
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Förklaring:
.drop()
– en metod som tar bort kolumner;columns = 'column_name'
ellercolumns = ['column_1', 'column_2']
– argument till funktionen där du anger namnet eller namnen på de kolumner du vill ta bort;inplace = True
– användbart argument i pandas som gör att vi kan spara alla ändringar. Du kan använda det i andra funktioner också; vi kommer att lära oss några av dem senare.
Swipe to start coding
Din uppgift är att ta bort kolumnen med flest NaN-värden. Följ algoritmen:
- Ta bort kolumnen
'Cabin'
med argumentetinplace = True
. - Visa slumpmässiga
5
rader från datasettet.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain what happens if I don't use `inplace=True`?
What should I do if I want to delete multiple columns at once?
Is there a way to undo the column deletion if I make a mistake?
Awesome!
Completion rate improved to 3.03
Vad Ska Vi Göra Med NaN-värdena?
Svep för att visa menyn
I föregående kapitel fick du resultatet:
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Datasettet har 418 rader. Titta på kolumnen Cabin
, där vi har 327
saknade värden. Det finns ingen mening med att fylla i dessa eftersom vi har minimal information här. I detta fall är den bästa lösningen att ta bort kolumnen som är meningslös för oss. En av anledningarna är att vi kan ta bort endast de rader som innehåller saknade värden, men vi kan inte ta bort 327 rader av 418. Låt oss därför ta reda på hur vi gör detta.
För att ta bort en kolumn måste du använda metoden .drop()
på datasetet. Syntaxen är följande:
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Förklaring:
.drop()
– en metod som tar bort kolumner;columns = 'column_name'
ellercolumns = ['column_1', 'column_2']
– argument till funktionen där du anger namnet eller namnen på de kolumner du vill ta bort;inplace = True
– användbart argument i pandas som gör att vi kan spara alla ändringar. Du kan använda det i andra funktioner också; vi kommer att lära oss några av dem senare.
Swipe to start coding
Din uppgift är att ta bort kolumnen med flest NaN-värden. Följ algoritmen:
- Ta bort kolumnen
'Cabin'
med argumentetinplace = True
. - Visa slumpmässiga
5
rader från datasettet.
Lösning
Tack för dina kommentarer!
single