Summary  
This chapter covers advanced DataFrame grouping techniques, including using custom aggregation functions with apply, grouping by multiple columns for multi-level analysis, and applying filter and transform operations to refine and reshape group-wise results.

General domain of usage  
Retail sales performance analysis

Het komt soms voor dat we niet tevreden zijn met ingebouwde **pandas**-functies, zoals `.mean()` of `.min()` tijdens het groeperen.

Watch this video for a clear, step-by-step walkthrough of complicated grouping techniques in pandas. You'll see how to use custom aggregation functions with `.apply()`, combine multiple columns for grouping, and interpret the results. The visual examples will reinforce how to combine group keys, perform custom calculations, and apply advanced logic to grouped data, building on the code and explanations you've just seen.

Kijk naar de kolom `'Length'`; hierin staat de vluchtduur in minuten. Stel je voor dat we de maximale tijd in uren willen berekenen voor items met dezelfde waarde in de kolom `'Flight'` en vervolgens in de kolom `'Airline'`. Hiervoor kunnen we de maximale waarde van de kolom `'Length'` voor elke groepssleutel berekenen en deze vervolgens delen door `60`. Bekijk het voorbeeld en de uitleg hieronder.

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Airline', 'Length']].groupby(['Flight', 'Airline']).apply(lambda x: x['Length'].max()/60)
print(data_flights.head(10))

**Uitleg:**

We hebben het voorbeeld uit de vorige hoofdstukken iets ingewikkelder gemaakt, maar bij het groeperen van data blijft alles hetzelfde; laten we nu kijken naar de `.apply()`-methode.

```python
.apply(lambda x: x['Length'].max()/60)
```
- `.apply()` - hiermee kun je een specifieke functie toepassen op de gewenste kolommen;
- in de `lambda`-functie is `x` het argument en `x['Length'].max()/60` de expressie. De functie zoekt dus de **maximale** waarde voor elke groepssleutel en deelt de geaggregeerde waarde door `60`.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def series_equal(s1, s2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ Series Ð½ÐµÐ·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ Ð½Ð°Ð·Ð²Ð¸, Ð°Ð»Ðµ Ð· ÑÑÐ°ÑÑÐ²Ð°Ð½Ð½ÑÐ¼ ÑÐ½Ð´ÐµÐºÑÑ ÑÐ° Ð·Ð½Ð°ÑÐµÐ½Ñ."""
    try:
        return s1.reset_index(drop=False).equals(s2.reset_index(drop=False))
    except Exception:
        return False


class TestFlightGrouping(unittest.TestCase):
    def test_grouped_min_sum(self):
        """
        Check if the grouped Series has correct values for min(Length + Time)
        by AirportFrom, Airline, and DayOfWeek.
        """
        import user_code

        # reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane"
        df = pd.read_csv(url, index_col=0)

        # expected result
        ref_cols = ["AirportFrom", "Airline", "DayOfWeek", "Time", "Length"]
        ref = df[ref_cols].groupby(["AirportFrom", "Airline", "DayOfWeek"]).apply(
            lambda x: (x["Length"] + x["Time"]).min()
        )

        # user result
        assert hasattr(user_code, "data_flights"), "Variable 'data_flights' is missing."
        user_result = user_code.data_flights

        # check equality
        condition = isinstance(user_result, pd.Series) and series_equal(user_result, ref)
        _dynamic_test(
            self,
            condition,
            "The grouped Series 'data_flights' matches the expected minimum (Length + Time) per group.",
            "The result of 'data_flights' is incorrect. Ensure you group by AirportFrom, Airline, and DayOfWeek, "
            "and compute the minimum of (Length + Time)."
        )


class TestOutput(unittest.TestCase):
    def test_print_output(self):
        """
        Check that the output of print(data_flights.head(10)) is not empty.
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The output displays the first 10 rows of 'data_flights' correctly.",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()

test_code.py

Deze cursus bevat veel nuttige functies voor een toekomstige data-analist. Je leert verschillende manieren om data te extraheren en er zelfs voorwaarden op toe te passen. Daarna raak je vertrouwd met methoden voor het groeperen van data. Ook leer je hoe je data kunt preprocessen. Elke sectie heeft zijn eigen dataset, waardoor de cursus boeiend blijft.

In deze sectie leer je hoe je specifieke kolommen kunt weergeven op basis van hun titels of indexen. Ook maak je kennis met de manieren waarop je rijen kunt selecteren op basis van indexen.

Hier leert u hoe u gegevens extraheert die aan specifieke voorwaarden voldoen. Ook leert u hoe u deze kunt combineren en zelfs uw eigen voorwaarden kunt creëren.

In deze sectie breidt u uw kennis uit over het instellen van verschillende datacondities. U leert controleren of uw gegevens zich in een gedefinieerde lijst met waarden bevinden of tussen twee waarden liggen. U leert ook hoe u de grootste en kleinste waarden kunt vinden.

Deze sectie is een van de meest fascinerende van de cursus. Hier leert u hoe u gegevens op verschillende manieren kunt groeperen. Dit zal u helpen als data-analist om informatie te vinden over specifieke datagroepen.

Deze sectie is een van de belangrijkste voor een data-analist, omdat het onmogelijk zal zijn om met de gegevens te werken als deze ontbrekende waarden of een onjuist formaat bevatten. Daarom leer je hier hoe je met dergelijke ongeschikte waarden omgaat.

Ingewikkelde Groepering

Oplossing