Summary  
This chapter explains how to calculate the percentage of missing values in each DataFrame column and remove columns with too many NaNs using pandas’ drop(columns=…, inplace=True) method.  

General domain of usage  
Data preprocessing in data analysis

In this video, you will learn how to handle columns with a large number of missing values in a pandas DataFrame. You will see why it is sometimes better to remove an entire column, like 'Cabin' in the Titanic dataset, rather than trying to fill in missing values. The video demonstrates how to use the `.drop()` method in pandas to delete columns, explains the key arguments like `columns` and `inplace`, and walks through a practical example using real data. By the end, you will know how to identify and efficiently remove columns that are not useful for your analysis due to excessive NaN values.

I forrige kapittel fikk du følgende resultat:

|||
|---|---|
|PassengerId|0|
|Survived|0|
|Pclass|0|
|Name|0|
|Sex|0|
|Age|86|
|SibSp|0|
|Parch|0|
|Ticket|0|
|Fare|1|
|Cabin|327|
|Embarked|0|


Datasettet har 418 rader. Se på kolonnen `Cabin`, hvor vi har `327` manglende verdier. Det gir ingen mening å fylle inn disse fordi vi har minimal informasjon her. I dette tilfellet er den beste løsningen å slette kolonnen som er meningsløs for oss. En av grunnene er at vi kan slette kun radene som inneholder manglende verdier, men vi kan ikke slette 327 rader av 418. La oss derfor finne ut hvordan vi gjør dette.

For å slette en kolonne må du bruke metoden `.drop()` på datasettet. Syntaksen er følgende:

```python
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
```

**Forklaring:**
- `.drop()` - en metode som sletter kolonner;
- `columns = 'column_name'` eller  `columns = ['column_1', 'column_2']` - argument i funksjonen hvor du spesifiserer navnet eller navnene på kolonnene du vil slette;
- `inplace = True` - nyttig argument i pandas som lar oss lagre alle endringer. Du kan bruke det i andre funksjoner også; vi skal lære om noen av dem senere.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDropCabin(unittest.TestCase):
    def test_cabin_column_removed(self):
        """
        1. Check that the column 'Cabin' was removed from the DataFrame.
        """
        import user_code

        # load original dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_0.csv"
        df_original = pd.read_csv(url)

        # after user modifications
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        condition = "Cabin" not in df_user.columns and isinstance(df_user, pd.DataFrame)
        _dynamic_test(
            self,
            condition,
            "The column 'Cabin' has been successfully removed from the DataFrame.",
            "The 'Cabin' column was not removed. Use data.drop(columns='Cabin', inplace=True)."
        )


class TestOutput(unittest.TestCase):
    def test_sample_output(self):
        """
        2. Check that 5 random rows of the modified DataFrame are printed.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output

        # run the print statement again if needed
        if hasattr(user_code, "data"):
            print(user_code.data.sample(5))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0 and len(output_text.splitlines()) > 1
        _dynamic_test(
            self,
            condition,
            "The output displays 5 random rows of the modified DataFrame.",
            "The output is missing or incorrect. Use print(data.sample(5))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Dette kurset inneholder mange nyttige funksjoner for en fremtidig dataanalytiker. Du vil lære ulike måter å hente ut data på og til og med sette betingelser for dem. Etter dette vil du bli kjent med metoder for å gruppere data. Du vil også lære hvordan du forhåndsbehandler data. Hver seksjon har sitt eget datasett, noe som gjør kurset engasjerende.

Denne seksjonen vil lære deg hvordan du kan hente ut spesifikke kolonner ved hjelp av titler eller indekser. Du vil også bli kjent med ulike måter å velge rader basert på indekser.

Her vil du lære hvordan du kan hente ut data som oppfyller spesifikke betingelser. Du vil også lære hvordan du kan kombinere dem og til og med lage dine egne.

I denne delen vil du utvide kunnskapen din om å sette ulike datakriterier. Du vil lære å sjekke om dataene dine finnes i en definert liste med verdier eller mellom to verdier. Du vil også lære hvordan du finner de største og minste verdiene.

Denne seksjonen er en av de mest fascinerende i kurset. Her vil du lære hvordan du kan gruppere data på ulike måter. Dette vil hjelpe deg som dataanalytiker med å finne informasjon om spesifikke datagrupper.

Denne seksjonen er en av de viktigste for en dataanalytiker fordi det vil være umulig å arbeide med dataene dersom de inneholder manglende verdier eller feil format. Derfor vil du lære hvordan du håndterer slike upassende verdier her.

Hva skal vi gjøre med NaN-verdiene?

Hva skal vi gjøre med NaN-verdiene?

Løsning


PassengerId	0
Survived	0
Pclass	0
Name	0
Sex	0
Age	86
SibSp	0
Parch	0
Ticket	0
Fare	1
Cabin	327
Embarked	0