Summary  
This chapter explains how to calculate the percentage of missing values in each DataFrame column and remove columns with too many NaNs using pandas’ drop(columns=…, inplace=True) method.  

General domain of usage  
Data preprocessing in data analysis

In this video, you will learn how to handle columns with a large number of missing values in a pandas DataFrame. You will see why it is sometimes better to remove an entire column, like 'Cabin' in the Titanic dataset, rather than trying to fill in missing values. The video demonstrates how to use the `.drop()` method in pandas to delete columns, explains the key arguments like `columns` and `inplace`, and walks through a practical example using real data. By the end, you will know how to identify and efficiently remove columns that are not useful for your analysis due to excessive NaN values.

No capítulo anterior, você obteve o seguinte resultado:

|||
|---|---|
|PassengerId|0|
|Survived|0|
|Pclass|0|
|Name|0|
|Sex|0|
|Age|86|
|SibSp|0|
|Parch|0|
|Ticket|0|
|Fare|1|
|Cabin|327|
|Embarked|0|


O conjunto de dados possui 418 linhas. Observe a coluna `Cabin`, onde temos `327` valores ausentes. Não faz sentido preenchê-los, pois temos informações mínimas aqui. Portanto, neste caso, a melhor solução é excluir a coluna que não é útil para nós. Um dos motivos é que poderíamos excluir apenas as linhas que contêm valores ausentes, mas não podemos excluir 327 linhas de 418. Então, vamos entender como fazer isso.

Para excluir uma coluna, é necessário aplicar o método `.drop()` ao conjunto de dados. A sintaxe é a seguinte:

```python
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
```

**Explicação:**
- `.drop()` - método que exclui colunas;
- `columns = 'column_name'` ou  `columns = ['column_1', 'column_2']` - argumento da função, onde você especifica o nome ou os nomes das colunas que deseja excluir;
- `inplace = True` - argumento útil do pandas que permite salvar todas as alterações. Você pode utilizá-lo em outras funções também; veremos algumas delas mais adiante.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDropCabin(unittest.TestCase):
    def test_cabin_column_removed(self):
        """
        1. Check that the column 'Cabin' was removed from the DataFrame.
        """
        import user_code

        # load original dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_0.csv"
        df_original = pd.read_csv(url)

        # after user modifications
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        condition = "Cabin" not in df_user.columns and isinstance(df_user, pd.DataFrame)
        _dynamic_test(
            self,
            condition,
            "The column 'Cabin' has been successfully removed from the DataFrame.",
            "The 'Cabin' column was not removed. Use data.drop(columns='Cabin', inplace=True)."
        )


class TestOutput(unittest.TestCase):
    def test_sample_output(self):
        """
        2. Check that 5 random rows of the modified DataFrame are printed.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output

        # run the print statement again if needed
        if hasattr(user_code, "data"):
            print(user_code.data.sample(5))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0 and len(output_text.splitlines()) > 1
        _dynamic_test(
            self,
            condition,
            "The output displays 5 random rows of the modified DataFrame.",
            "The output is missing or incorrect. Use print(data.sample(5))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Este curso contém diversas funções úteis para um futuro analista de dados. Você aprenderá diferentes formas de extrair dados e até mesmo definir condições sobre eles. Após isso, estará familiarizado com os métodos de agrupamento de dados. Além disso, você aprenderá como pré-processar dados. Cada seção possui seu próprio conjunto de dados, tornando o curso envolvente.

Esta seção ensinará como exibir colunas específicas pelos seus títulos ou índices. Além disso, você se familiarizará com as formas de selecionar linhas por índices.

Aqui, você aprenderá como extrair dados que possuem condições específicas. Além disso, você aprenderá como combiná-las e até mesmo criar as suas próprias.

Nesta seção, você expandirá seu conhecimento sobre como definir diferentes condições de dados. Você aprenderá a verificar se seus dados estão em uma lista definida de valores ou entre dois valores. Você também aprenderá a encontrar os maiores e menores valores.

Esta seção é uma das mais fascinantes do curso. Aqui, você aprenderá como agrupar dados de diferentes maneiras. Isso ajudará no trabalho como analista de dados para obter informações sobre grupos de dados específicos.

Esta seção é uma das mais significativas para um analista de dados, pois, se os dados contiverem valores ausentes ou em formato incorreto, será impossível trabalhar com eles. Assim, você aprenderá como lidar com esses valores inadequados aqui.

O Que Faremos com os Valores NaN?

Solução


PassengerId	0
Survived	0
Pclass	0
Name	0
Sex	0
Age	86
SibSp	0
Parch	0
Ticket	0
Fare	1
Cabin	327
Embarked	0