Summary  
This chapter explains how to calculate the percentage of missing values in each DataFrame column and remove columns with too many NaNs using pandas’ drop(columns=…, inplace=True) method.  

General domain of usage  
Data preprocessing in data analysis

In this video, you will learn how to handle columns with a large number of missing values in a pandas DataFrame. You will see why it is sometimes better to remove an entire column, like 'Cabin' in the Titanic dataset, rather than trying to fill in missing values. The video demonstrates how to use the `.drop()` method in pandas to delete columns, explains the key arguments like `columns` and `inplace`, and walks through a practical example using real data. By the end, you will know how to identify and efficiently remove columns that are not useful for your analysis due to excessive NaN values.

I föregående kapitel fick du resultatet:

|||
|---|---|
|PassengerId|0|
|Survived|0|
|Pclass|0|
|Name|0|
|Sex|0|
|Age|86|
|SibSp|0|
|Parch|0|
|Ticket|0|
|Fare|1|
|Cabin|327|
|Embarked|0|


Datasettet har 418 rader. Titta på kolumnen `Cabin`, där vi har `327` saknade värden. Det finns ingen mening med att fylla i dessa eftersom vi har minimal information här. I detta fall är den bästa lösningen att ta bort kolumnen som är meningslös för oss. En av anledningarna är att vi kan ta bort endast de rader som innehåller saknade värden, men vi kan inte ta bort 327 rader av 418. Så, låt oss ta reda på hur vi gör detta.

För att ta bort en kolumn måste du använda metoden `.drop()` på datasetet. Syntaxen är följande:

```python
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
```

**Förklaring:**
- `.drop()` – en metod som tar bort kolumner;
- `columns = 'column_name'` eller  `columns = ['column_1', 'column_2']` – argument till funktionen där du anger namnet eller namnen på de kolumner du vill ta bort;
- `inplace = True` – användbart argument i pandas som gör att vi kan spara alla ändringar. Du kan använda det i andra funktioner också; vi kommer att lära oss några av dem senare.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDropCabin(unittest.TestCase):
    def test_cabin_column_removed(self):
        """
        1. Check that the column 'Cabin' was removed from the DataFrame.
        """
        import user_code

        # load original dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_0.csv"
        df_original = pd.read_csv(url)

        # after user modifications
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        condition = "Cabin" not in df_user.columns and isinstance(df_user, pd.DataFrame)
        _dynamic_test(
            self,
            condition,
            "The column 'Cabin' has been successfully removed from the DataFrame.",
            "The 'Cabin' column was not removed. Use data.drop(columns='Cabin', inplace=True)."
        )


class TestOutput(unittest.TestCase):
    def test_sample_output(self):
        """
        2. Check that 5 random rows of the modified DataFrame are printed.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output

        # run the print statement again if needed
        if hasattr(user_code, "data"):
            print(user_code.data.sample(5))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0 and len(output_text.splitlines()) > 1
        _dynamic_test(
            self,
            condition,
            "The output displays 5 random rows of the modified DataFrame.",
            "The output is missing or incorrect. Use print(data.sample(5))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Denna kurs innehåller många användbara funktioner för en framtida dataanalytiker. Du kommer att lära dig olika sätt att extrahera data och även sätta villkor på den. Därefter kommer du att bli bekant med metoder för att gruppera data. Du kommer också att lära dig hur man förbehandlar data. Varje avsnitt har sitt eget dataset, vilket gör kursen engagerande.

Detta avsnitt lär dig hur du kan visa specifika kolumner utifrån deras titlar eller index. Du kommer även att bekanta dig med olika sätt att välja rader utifrån index.

Här kommer du att lära dig hur du extraherar data som uppfyller specifika villkor. Du kommer även att lära dig hur du kombinerar dessa och till och med skapar egna.

I det här avsnittet kommer du att fördjupa dina kunskaper om att ställa in olika datavillkor. Du kommer att lära dig att kontrollera om dina data finns i en definierad lista av värden eller mellan två värden. Du kommer även att lära dig hur du hittar de största och minsta värdena.

Detta avsnitt är ett av de mest fascinerande i kursen. Här kommer du att lära dig hur man grupperar data på olika sätt. Det kommer att hjälpa dig att arbeta som dataanalytiker för att hitta information om specifika datagrupper.

Detta avsnitt är ett av de mest betydelsefulla för en dataanalytiker eftersom det blir omöjligt att arbeta med data om den innehåller saknade värden eller är i fel format. Därför kommer du att lära dig hur man hanterar sådana olämpliga värden här.

Vad ska vi göra med NaN-värdena?

Vad ska vi göra med NaN-värdena?

Lösning


PassengerId	0
Survived	0
Pclass	0
Name	0
Sex	0
Age	86
SibSp	0
Parch	0
Ticket	0
Fare	1
Cabin	327
Embarked	0