Summary  
This chapter covers how to group tabular data by multiple columns using pandas’ groupby method with a list of keys, showing that the order of columns defines a hierarchical (multi-level) index and that you can apply aggregations (sum, mean, count, etc.) on those groups.

General domain of usage  
Flight delay analysis

Watch this video for a hands-on demonstration of grouping by several columns in pandas. You'll see how to group by both 'Flight' and 'Airline' to count delays, as well as how to group by 'AirportFrom' and 'DayOfWeek' to calculate the average flight time. Visual walkthroughs will help you understand the importance of column order and how aggregation works in multi-column groupings.

Ajout d'informations sur la méthode `.groupby()`. Possibilité de regrouper selon plusieurs colonnes, l'ordre étant alors essentiel. Dans le chapitre précédent, regroupement des données par numéro de vol et comptage du nombre de retards. Complexification de cette tâche en regroupant non seulement par la colonne `'Flight'`, mais aussi par la colonne `'Airline'`. Rappel des informations sur le jeu de données, puis présentation de cet exemple simple (la sortie contient uniquement les 10 premières lignes) :

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
print(data_flights.head(10))

**Explication :**

```python
data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
```
- `data[['Flight', 'Delay', 'Airline']]` : colonnes utilisées, y compris celles servant au regroupement ;
- `.groupby(['Flight', 'Airline'])` : ici, `'Flight'` et `'Airline'` sont les arguments de la fonction `.groupby()`.  

Attention : pour regrouper selon plusieurs colonnes, les placer dans une liste ; l'ordre est essentiel. Ainsi, dans ce cas, si des lignes du jeu de données possèdent la même valeur dans la colonne `'Flight'`, elles appartiennent à un même groupe. Ensuite, à l'intérieur de ces groupes, la fonction identifie d'autres groupes pour les lignes ayant la même valeur dans la colonne `'Airline'`. Enfin, grâce à la méthode `.count()` qui compte les lignes, la fonction calcule le nombre de lignes dans la colonne `'Delay'` ayant la même valeur dans la colonne `'Airline'` pour chaque groupe `'Flight'`.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_strict(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ DataFrame Ð· ÑÑÐ°ÑÑÐ²Ð°Ð½Ð½ÑÐ¼ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº ÑÐ° ÑÐ½Ð´ÐµÐºÑÑ."""
    try:
        return df1.equals(df2)
    except Exception:
        return False


class TestGroupData(unittest.TestCase):
    def test_grouping_average(self):
        """
        1. Group data by 'AirportFrom' and 'DayOfWeek', calculate mean of 'Time'.
        """
        import user_code

        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ð¸Ð¹ DataFrame
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane",
            index_col=0,
        )

        # ÐÑÐ°Ð»Ð¾Ð½Ð½Ðµ ÑÑÑÐµÐ½Ð½Ñ
        ref = df[["AirportFrom", "DayOfWeek", "Time"]].groupby(["AirportFrom", "DayOfWeek"]).mean()

        condition = (
            hasattr(user_code, "data_flights")
            and isinstance(user_code.data_flights, pd.DataFrame)
            and frames_equal_strict(user_code.data_flights, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The data is correctly grouped by 'AirportFrom' and 'DayOfWeek' with mean 'Time' calculated.",
            "The grouping or averaging is incorrect. Check the columns order and groupby parameters."
        )


class TestOutput(unittest.TestCase):
    def test_output_head_10(self):
        """
        2. Output the first 10 rows of the grouped DataFrame using .head(10).
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The first 10 rows of 'data_flights' are printed correctly using .head(10).",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Ce cours contient de nombreuses fonctions utiles pour un futur analyste de données. Vous apprendrez différentes méthodes d'extraction de données et pourrez même y appliquer des conditions. Ensuite, vous vous familiariserez avec les méthodes de regroupement des données. De plus, vous découvrirez comment prétraiter les données. Chaque section dispose de son propre ensemble de données, rendant le cours captivant.

Cette section vous apprendra comment afficher des colonnes spécifiques par leurs titres ou indices. Vous vous familiariserez également avec les différentes méthodes de sélection des lignes par indices.

Ici, vous apprendrez à extraire des données répondant à des conditions spécifiques. Vous apprendrez également à les combiner et même à créer vos propres conditions.

Dans cette section, vous approfondirez vos connaissances sur la définition de différentes conditions de données. Vous apprendrez à vérifier si vos données figurent dans une liste de valeurs définie ou se situent entre deux valeurs. Vous apprendrez également à identifier les valeurs les plus grandes et les plus petites.

Cette section est l'une des plus fascinantes du cours. Ici, vous apprendrez à regrouper des données de différentes manières. Cela vous aidera à travailler en tant qu'analyste de données pour obtenir des informations sur des groupes de données spécifiques.

Cette section est l'une des plus importantes pour un analyste de données, car si les données contiennent des valeurs manquantes ou sont dans un format incorrect, il sera impossible de les exploiter. Ainsi, vous apprendrez ici comment traiter de telles valeurs inappropriées.

Regroupement par plusieurs colonnes

Solution