Summary  
This chapter explains how to calculate the percentage of missing values in each DataFrame column and remove columns with too many NaNs using pandas’ drop(columns=…, inplace=True) method.  

General domain of usage  
Data preprocessing in data analysis

In this video, you will learn how to handle columns with a large number of missing values in a pandas DataFrame. You will see why it is sometimes better to remove an entire column, like 'Cabin' in the Titanic dataset, rather than trying to fill in missing values. The video demonstrates how to use the `.drop()` method in pandas to delete columns, explains the key arguments like `columns` and `inplace`, and walks through a practical example using real data. By the end, you will know how to identify and efficiently remove columns that are not useful for your analysis due to excessive NaN values.

Edellisessä luvussa sait tulokseksi:

|||
|---|---|
|PassengerId|0|
|Survived|0|
|Pclass|0|
|Name|0|
|Sex|0|
|Age|86|
|SibSp|0|
|Parch|0|
|Ticket|0|
|Fare|1|
|Cabin|327|
|Embarked|0|


Aineistossa on 418 riviä. Tarkastele saraketta `Cabin`, jossa on `327` puuttuvaa arvoa. Niiden täyttäminen ei ole järkevää, koska tietoa on hyvin vähän. Tässä tapauksessa paras ratkaisu on poistaa sarake, josta ei ole hyötyä. Yksi syy on se, että voisimme poistaa vain rivit, joissa on puuttuvia arvoja, mutta emme voi poistaa 327 riviä 418:sta. Selvitetään siis, miten tämä tehdään.

Sarakkeen poistamiseksi käytetään menetelmää `.drop()` aineistolle. Syntaksi on seuraava:

```python
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
```

**Selitys:**
- `.drop()` – menetelmä, joka poistaa sarakkeita;
- `columns = 'column_name'` tai  `columns = ['column_1', 'column_2']` – funktion argumentti, jossa määritellään poistettavan sarakkeen tai sarakkeiden nimet;
- `inplace = True` – pandas-kirjaston hyödyllinen argumentti, jonka avulla muutokset tallennetaan pysyvästi. Voit käyttää sitä myös muissa funktioissa; opimme niistä lisää myöhemmin.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDropCabin(unittest.TestCase):
    def test_cabin_column_removed(self):
        """
        1. Check that the column 'Cabin' was removed from the DataFrame.
        """
        import user_code

        # load original dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_0.csv"
        df_original = pd.read_csv(url)

        # after user modifications
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        condition = "Cabin" not in df_user.columns and isinstance(df_user, pd.DataFrame)
        _dynamic_test(
            self,
            condition,
            "The column 'Cabin' has been successfully removed from the DataFrame.",
            "The 'Cabin' column was not removed. Use data.drop(columns='Cabin', inplace=True)."
        )


class TestOutput(unittest.TestCase):
    def test_sample_output(self):
        """
        2. Check that 5 random rows of the modified DataFrame are printed.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output

        # run the print statement again if needed
        if hasattr(user_code, "data"):
            print(user_code.data.sample(5))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0 and len(output_text.splitlines()) > 1
        _dynamic_test(
            self,
            condition,
            "The output displays 5 random rows of the modified DataFrame.",
            "The output is missing or incorrect. Use print(data.sample(5))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Tämä kurssi sisältää runsaasti hyödyllisiä toimintoja tulevalle data-analyytikolle. Opit erilaisia tapoja tietojen poimimiseen ja voit jopa asettaa niille ehtoja. Tämän jälkeen tulet tutuksi tietojen ryhmittelymenetelmien kanssa. Lisäksi opit, kuinka esikäsitellä tietoja. Jokaisessa osiossa on oma tietoaineistonsa, joten kurssi on mukaansatempaava.

Tässä osiossa opit, kuinka voit tulostaa tiettyjä sarakkeita niiden nimien tai indeksien perusteella. Lisäksi tutustut tapoihin, joilla voit valita rivejä indeksien avulla.

Tässä opit, kuinka voit poimia dataa, jolla on tietyt ehdot. Opit myös, kuinka yhdistää näitä ehtoja ja jopa luoda omia ehtoja.

Tässä osiossa laajennat tietämystäsi erilaisten datan ehtojen asettamisesta. Opit tarkistamaan, onko datasi määritellyssä arvolistassa tai kahden arvon välillä. Opit myös löytämään suurimmat ja pienimmät arvot.

Tämä osio on yksi kurssin kiehtovimmista. Tässä opit ryhmittelemään dataa eri tavoilla. Tämä auttaa sinua työskentelemään data-analyytikkona ja löytämään tietoa tietyistä dataryhmistä.

Tämä osio on yksi tärkeimmistä data-analyytikolle, koska jos data sisältää puuttuvia arvoja tai on väärässä muodossa, sen kanssa työskentely on mahdotonta. Tässä opit käsittelemään tällaisia sopimattomia arvoja.

Mitä Teemme NaN-arvoille?

Mitä Teemme NaN-arvoille?

Ratkaisu


PassengerId	0
Survived	0
Pclass	0
Name	0
Sex	0
Age	86
SibSp	0
Parch	0
Ticket	0
Fare	1
Cabin	327
Embarked	0