Summary  
This chapter explains how to calculate the percentage of missing values in each DataFrame column and remove columns with too many NaNs using pandas’ drop(columns=…, inplace=True) method.  

General domain of usage  
Data preprocessing in data analysis

In this video, you will learn how to handle columns with a large number of missing values in a pandas DataFrame. You will see why it is sometimes better to remove an entire column, like 'Cabin' in the Titanic dataset, rather than trying to fill in missing values. The video demonstrates how to use the `.drop()` method in pandas to delete columns, explains the key arguments like `columns` and `inplace`, and walks through a practical example using real data. By the end, you will know how to identify and efficiently remove columns that are not useful for your analysis due to excessive NaN values.

I det forrige kapitel modtog du følgende resultat:

|||
|---|---|
|PassengerId|0|
|Survived|0|
|Pclass|0|
|Name|0|
|Sex|0|
|Age|86|
|SibSp|0|
|Parch|0|
|Ticket|0|
|Fare|1|
|Cabin|327|
|Embarked|0|


Datasættet har 418 rækker. Se på kolonnen `Cabin`, hvor vi har `327` manglende værdier. Det giver ikke mening at udfylde dem, da vi har minimal information her. I dette tilfælde er den bedste løsning at slette kolonnen, da den er meningsløs for os. En af grundene er, at vi kun kan slette de rækker, der indeholder manglende værdier, men vi kan ikke slette 327 ud af 418 rækker. Lad os derfor finde ud af, hvordan vi gør dette.

For at slette en kolonne skal du anvende metoden `.drop()` på datasættet. Syntaksen er følgende:

```python
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
```

**Forklaring:**
- `.drop()` - en metode, der sletter kolonner;
- `columns = 'column_name'` eller  `columns = ['column_1', 'column_2']` - argument til funktionen, hvor du angiver navnet eller navnene på de kolonner, du vil slette;
- `inplace = True` - nyttigt argument i pandas, der gør det muligt at gemme alle ændringer. Du kan også bruge det i andre funktioner; vi vil lære om nogle af dem senere.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDropCabin(unittest.TestCase):
    def test_cabin_column_removed(self):
        """
        1. Check that the column 'Cabin' was removed from the DataFrame.
        """
        import user_code

        # load original dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_0.csv"
        df_original = pd.read_csv(url)

        # after user modifications
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        condition = "Cabin" not in df_user.columns and isinstance(df_user, pd.DataFrame)
        _dynamic_test(
            self,
            condition,
            "The column 'Cabin' has been successfully removed from the DataFrame.",
            "The 'Cabin' column was not removed. Use data.drop(columns='Cabin', inplace=True)."
        )


class TestOutput(unittest.TestCase):
    def test_sample_output(self):
        """
        2. Check that 5 random rows of the modified DataFrame are printed.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output

        # run the print statement again if needed
        if hasattr(user_code, "data"):
            print(user_code.data.sample(5))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0 and len(output_text.splitlines()) > 1
        _dynamic_test(
            self,
            condition,
            "The output displays 5 random rows of the modified DataFrame.",
            "The output is missing or incorrect. Use print(data.sample(5))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Dette kursus indeholder mange nyttige funktioner for en kommende dataanalytiker. Du vil lære forskellige måder at udtrække data på og endda sætte betingelser for dem. Herefter vil du blive fortrolig med metoder til gruppering af data. Du vil også lære, hvordan man forbehandler data. Hvert afsnit har sit eget datasæt, så kurset bliver spændende.

Dette afsnit vil lære dig, hvordan du kan udtrække specifikke kolonner ved hjælp af deres titler eller indekser. Du vil også blive introduceret til måder, hvorpå du kan vælge rækker ud fra deres indekser.

Her vil du lære, hvordan man udtrækker data, der opfylder specifikke betingelser. Du vil også lære, hvordan man kombinerer dem og endda opretter dine egne.

I dette afsnit vil du udvide din viden om at opstille forskellige datakriterier. Du vil lære at kontrollere, om dine data er i en defineret liste af værdier eller mellem to værdier. Du vil også lære, hvordan du finder de største og mindste værdier.

Dette afsnit er et af de mest fascinerende i kurset. Her vil du lære, hvordan man grupperer data på forskellige måder. Det vil hjælpe dig som dataanalytiker med at finde information om specifikke datagrupper.

Dette afsnit er et af de mest betydningsfulde for en dataanalytiker, fordi det vil være umuligt at arbejde med data, hvis de indeholder manglende dataværdier i forkert format. Derfor vil du her lære, hvordan man håndterer sådanne upassende værdier.

Hvad Gør Vi Med NaN-værdierne?

Løsning


PassengerId	0
Survived	0
Pclass	0
Name	0
Sex	0
Age	86
SibSp	0
Parch	0
Ticket	0
Fare	1
Cabin	327
Embarked	0