Summary  
This chapter explains how to use group-by operations with the `.agg()` method to apply multiple aggregation functions to one or more DataFrame columns at once, producing hierarchical summary tables.  

General domain of usage  
Data analysis

Watch this video for a clear, step-by-step walkthrough of advanced grouping and aggregation in pandas. You'll see how to use the .groupby() and .agg() methods to perform multiple, customized summary calculations at the same time. The video demonstrates grouping by one or more columns, applying several aggregation functions to different columns, and interpreting the resulting MultiIndex DataFrame. By the end, you'll understand how to efficiently generate detailed summary tables for real-world data analysis tasks using pandas.

Laten we onze kennis over de `.groupby()`-methode uitbreiden. Zoals je je herinnert, kunnen we de `.agg()`-methode gebruiken. Het belangrijkste voordeel van deze functie is de flexibiliteit: hiermee kunnen we **meerdere, verschillende** aggregaties toepassen op **meerdere** kolommen tegelijk, wat resulteert in een overzichtelijke samenvattingstabel.

Bekijk het onderstaande voorbeeld. We groepeerden vluchten op `'Airline'`. Vervolgens hebben we met `.agg()` het totale aantal vluchten geteld (met behulp van de kolom `'Delay'`) en tegelijkertijd de kortste en langste vluchtduur bepaald (met behulp van de kolom `'Length'`). Erg handig, nietwaar?

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']})
print(data_flights.head(10))

**Uitleg:**

```python
.agg({'Delay': 'count', 'Length': ['min', 'max']})
```
* `.agg()`: Afkorting voor "aggregate". Deze methode neemt de gegroepeerde gegevens en vat ze samen tot statistieken op basis van de opgegeven regels.
* `{}`: We gebruiken een Python-dictionary om specifieke kolommen te koppelen aan specifieke bewerkingen. De sleutels zijn de kolomnamen die je wilt targeten, en de waarden zijn de functies die je wilt toepassen.
* `'Delay': 'count'`: Geeft aan pandas door om de count-functie toe te passen op de kolom `'Delay'` voor elke groep. Merk op dat we de stringalias `'count'` gebruiken in plaats van `count()`. Pandas herkent deze standaard stringnamen voor veelvoorkomende statistieken.
* `'Length': ['min', 'max']`: Als je **meer dan één** functie op een enkele kolom wilt toepassen, moet je de functienamen in een lijst `[]` plaatsen. Hier berekenen we zowel de minimum- als maximumwaarde voor de kolom `'Length'`.

Omdat we meerdere functies hebben toegepast, maakt het resulterende DataFrame automatisch hiërarchische (MultiIndex) kolommen aan. Je ziet `Length` op het bovenste niveau, met `min` en `max` daaronder netjes gecategoriseerd.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ DataFrame Ð½ÐµÐ·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ Ð½Ð°Ð·Ð² ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº Ñ MultiIndex."""
    try:
        df1_sorted = df1.sort_index()
        df2_sorted = df2.sort_index()
        return df1_sorted.equals(df2_sorted)
    except Exception:
        return False


class TestFlightAggregations(unittest.TestCase):
    def test_group_and_aggregate(self):
        """
        Check if the grouped DataFrame correctly aggregates:
        - mean and max of 'Time';
        - median of 'Length';
        grouped by ['AirportFrom', 'AirportTo'] (in that order).
        """
        import user_code

        # Reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane"
        df = pd.read_csv(url, index_col=0)

        # Expected result
        ref = df.groupby(['AirportFrom', 'AirportTo']).agg({'Time': ['mean', 'max'], 'Length': 'median'})

        # User result
        assert hasattr(user_code, "data_flights"), "Variable 'data_flights' is missing."
        user_result = user_code.data_flights

        # Compare
        condition = isinstance(user_result, pd.DataFrame) and frames_equal(user_result, ref)
        _dynamic_test(
            self,
            condition,
            "The grouped DataFrame 'data_flights' correctly calculates mean, max (Time) and median (Length).",
            "The aggregation result is incorrect. Ensure you group by ['AirportFrom', 'AirportTo'] and calculate the correct aggregations."
        )


class TestOutput(unittest.TestCase):
    def test_output_head_10(self):
        """
        Check that the output of print(data_flights.head(10)) is not empty.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The first 10 rows of 'data_flights' are printed correctly using .head(10).",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Deze cursus bevat veel nuttige functies voor een toekomstige data-analist. Je leert verschillende manieren om data te extraheren en er zelfs voorwaarden op toe te passen. Daarna raak je vertrouwd met methoden voor het groeperen van data. Ook leer je hoe je data kunt preprocessen. Elke sectie heeft zijn eigen dataset, waardoor de cursus boeiend blijft.

In deze sectie leer je hoe je specifieke kolommen kunt weergeven op basis van hun titels of indexen. Ook maak je kennis met de manieren waarop je rijen kunt selecteren op basis van indexen.

Hier leert u hoe u gegevens extraheert die aan specifieke voorwaarden voldoen. Ook leert u hoe u deze kunt combineren en zelfs uw eigen voorwaarden kunt creëren.

In deze sectie breidt u uw kennis uit over het instellen van verschillende datacondities. U leert controleren of uw gegevens zich in een gedefinieerde lijst met waarden bevinden of tussen twee waarden liggen. U leert ook hoe u de grootste en kleinste waarden kunt vinden.

Deze sectie is een van de meest fascinerende van de cursus. Hier leert u hoe u gegevens op verschillende manieren kunt groeperen. Dit zal u helpen als data-analist om informatie te vinden over specifieke datagroepen.

Deze sectie is een van de belangrijkste voor een data-analist, omdat het onmogelijk zal zijn om met de gegevens te werken als deze ontbrekende waarden of een onjuist formaat bevatten. Daarom leer je hier hoe je met dergelijke ongeschikte waarden omgaat.

Geavanceerde Groepering

Oplossing