Summary  
This chapter explains how to calculate the percentage of missing values in each DataFrame column and remove columns with too many NaNs using pandas’ drop(columns=…, inplace=True) method.  

General domain of usage  
Data preprocessing in data analysis

In this video, you will learn how to handle columns with a large number of missing values in a pandas DataFrame. You will see why it is sometimes better to remove an entire column, like 'Cabin' in the Titanic dataset, rather than trying to fill in missing values. The video demonstrates how to use the `.drop()` method in pandas to delete columns, explains the key arguments like `columns` and `inplace`, and walks through a practical example using real data. By the end, you will know how to identify and efficiently remove columns that are not useful for your analysis due to excessive NaN values.

Dans le chapitre précédent, vous avez obtenu le résultat :

|||
|---|---|
|PassengerId|0|
|Survived|0|
|Pclass|0|
|Name|0|
|Sex|0|
|Age|86|
|SibSp|0|
|Parch|0|
|Ticket|0|
|Fare|1|
|Cabin|327|
|Embarked|0|


Le jeu de données contient 418 lignes. Regardez la colonne `Cabin`, où l’on compte `327` valeurs manquantes. Il n’est pas pertinent de les remplir car nous avons très peu d’informations ici. Dans ce cas, la meilleure solution est donc de supprimer la colonne qui ne nous apporte rien. L’une des raisons est que nous pourrions supprimer uniquement les lignes contenant des valeurs manquantes, mais il n’est pas possible de supprimer 327 lignes sur 418. Voyons donc comment procéder.

Pour supprimer une colonne, il faut appliquer la méthode `.drop()` au jeu de données. La syntaxe est la suivante :

```python
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
```

**Explication :**
- `.drop()` — méthode qui supprime des colonnes ;
- `columns = 'column_name'` ou  `columns = ['column_1', 'column_2']` — argument de la fonction où l’on précise le ou les noms des colonnes à supprimer ;
- `inplace = True` — argument utile de pandas qui permet d’enregistrer toutes les modifications. Vous pouvez aussi l’utiliser dans d’autres fonctions ; nous en verrons certaines plus tard.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDropCabin(unittest.TestCase):
    def test_cabin_column_removed(self):
        """
        1. Check that the column 'Cabin' was removed from the DataFrame.
        """
        import user_code

        # load original dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic_0.csv"
        df_original = pd.read_csv(url)

        # after user modifications
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        condition = "Cabin" not in df_user.columns and isinstance(df_user, pd.DataFrame)
        _dynamic_test(
            self,
            condition,
            "The column 'Cabin' has been successfully removed from the DataFrame.",
            "The 'Cabin' column was not removed. Use data.drop(columns='Cabin', inplace=True)."
        )


class TestOutput(unittest.TestCase):
    def test_sample_output(self):
        """
        2. Check that 5 random rows of the modified DataFrame are printed.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output

        # run the print statement again if needed
        if hasattr(user_code, "data"):
            print(user_code.data.sample(5))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0 and len(output_text.splitlines()) > 1
        _dynamic_test(
            self,
            condition,
            "The output displays 5 random rows of the modified DataFrame.",
            "The output is missing or incorrect. Use print(data.sample(5))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Ce cours contient de nombreuses fonctions utiles pour un futur analyste de données. Vous apprendrez différentes méthodes d'extraction de données et pourrez même y appliquer des conditions. Ensuite, vous vous familiariserez avec les méthodes de regroupement des données. De plus, vous découvrirez comment prétraiter les données. Chaque section dispose de son propre ensemble de données, rendant le cours captivant.

Cette section vous apprendra comment afficher des colonnes spécifiques par leurs titres ou indices. Vous vous familiariserez également avec les différentes méthodes de sélection des lignes par indices.

Ici, vous apprendrez à extraire des données répondant à des conditions spécifiques. Vous apprendrez également à les combiner et même à créer vos propres conditions.

Dans cette section, vous approfondirez vos connaissances sur la définition de différentes conditions de données. Vous apprendrez à vérifier si vos données figurent dans une liste de valeurs définie ou se situent entre deux valeurs. Vous apprendrez également à identifier les valeurs les plus grandes et les plus petites.

Cette section est l'une des plus fascinantes du cours. Ici, vous apprendrez à regrouper des données de différentes manières. Cela vous aidera à travailler en tant qu'analyste de données pour obtenir des informations sur des groupes de données spécifiques.

Cette section est l'une des plus importantes pour un analyste de données, car si les données contiennent des valeurs manquantes ou sont dans un format incorrect, il sera impossible de les exploiter. Ainsi, vous apprendrez ici comment traiter de telles valeurs inappropriées.

Que ferons-nous avec les valeurs NaN ?

Solution


PassengerId	0
Survived	0
Pclass	0
Name	0
Sex	0
Age	86
SibSp	0
Parch	0
Ticket	0
Fare	1
Cabin	327
Embarked	0