Summary  
This chapter covers how to group tabular data by multiple columns using pandas’ groupby method with a list of keys, showing that the order of columns defines a hierarchical (multi-level) index and that you can apply aggregations (sum, mean, count, etc.) on those groups.

General domain of usage  
Flight delay analysis

Watch this video for a hands-on demonstration of grouping by several columns in pandas. You'll see how to group by both 'Flight' and 'Airline' to count delays, as well as how to group by 'AirportFrom' and 'DayOfWeek' to calculate the average flight time. Visual walkthroughs will help you understand the importance of column order and how aggregation works in multi-column groupings.

Agregando información sobre el método `.groupby()`. Es posible agrupar por varias columnas, pero el orden es fundamental en este caso. En el capítulo anterior, se agruparon los datos por el número de vuelo y se contó la cantidad de retrasos. Esta tarea se puede complicar agrupando no solo por la columna `'Flight'`, sino también por la columna `'Airline'`. Revisa la información sobre el conjunto de datos y observa este ejemplo sencillo (la salida contiene solo las primeras 10 filas):

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
print(data_flights.head(10))

**Explicación:**

```python
data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
```
- `data[['Flight', 'Delay', 'Airline']]` - columnas con las que se trabajará, incluyendo las columnas por las que se agrupará;
- `.groupby(['Flight', 'Airline'])` - aquí, `'Flight'` y `'Airline'` son argumentos de la función `.groupby()`.  

Es importante notar que, si se desea agrupar por varias columnas, deben colocarse en una lista; el orden es fundamental. Así, en este caso, si las filas del conjunto de datos tienen el mismo valor en la columna `'Flight'`, pertenecerán a un mismo grupo. Luego, dentro de esos grupos, la función encuentra otros grupos para las filas con el mismo valor en la columna `'Airline'`. Después, gracias al método `.count()`, que cuenta las filas, la función calculará el número de filas en la columna `'Delay'` que tienen el mismo valor en la columna `'Airline'` para cada grupo de `'Flight'`.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_strict(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ DataFrame Ð· ÑÑÐ°ÑÑÐ²Ð°Ð½Ð½ÑÐ¼ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº ÑÐ° ÑÐ½Ð´ÐµÐºÑÑ."""
    try:
        return df1.equals(df2)
    except Exception:
        return False


class TestGroupData(unittest.TestCase):
    def test_grouping_average(self):
        """
        1. Group data by 'AirportFrom' and 'DayOfWeek', calculate mean of 'Time'.
        """
        import user_code

        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ð¸Ð¹ DataFrame
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane",
            index_col=0,
        )

        # ÐÑÐ°Ð»Ð¾Ð½Ð½Ðµ ÑÑÑÐµÐ½Ð½Ñ
        ref = df[["AirportFrom", "DayOfWeek", "Time"]].groupby(["AirportFrom", "DayOfWeek"]).mean()

        condition = (
            hasattr(user_code, "data_flights")
            and isinstance(user_code.data_flights, pd.DataFrame)
            and frames_equal_strict(user_code.data_flights, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The data is correctly grouped by 'AirportFrom' and 'DayOfWeek' with mean 'Time' calculated.",
            "The grouping or averaging is incorrect. Check the columns order and groupby parameters."
        )


class TestOutput(unittest.TestCase):
    def test_output_head_10(self):
        """
        2. Output the first 10 rows of the grouped DataFrame using .head(10).
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The first 10 rows of 'data_flights' are printed correctly using .head(10).",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Este curso contiene muchas funciones útiles para un futuro analista de datos. Aprenderás diferentes formas de extraer datos e incluso establecer condiciones sobre ellos. Después de esto, estarás familiarizado con los métodos de agrupación de datos. Además, aprenderás cómo preprocesar datos. Cada sección tiene su propio conjunto de datos, lo que hace que el curso sea atractivo.

Esta sección te enseñará cómo mostrar columnas específicas por sus títulos o índices. Además, te familiarizarás con las formas en que puedes seleccionar filas por índices.

Aquí aprenderás cómo extraer datos que cumplen condiciones específicas. Además, aprenderás cómo combinarlas e incluso crear tus propias condiciones.

En esta sección, ampliarás tus conocimientos sobre cómo establecer diferentes condiciones de datos. Aprenderás a verificar si tus datos se encuentran en una lista definida de valores o entre dos valores. También aprenderás a encontrar los valores más grandes y más pequeños.

Esta sección es una de las más fascinantes del curso. Aquí aprenderás cómo agrupar datos de diferentes maneras. Te ayudará a trabajar como analista de datos para descubrir información sobre grupos de datos específicos.

Esta sección es una de las más significativas para un analista de datos porque si los datos contienen valores faltantes o en un formato incorrecto, será imposible trabajar con ellos. Por lo tanto, aquí aprenderás cómo tratar con dichos valores inapropiados.

Agrupación por Varias Columnas

Solución