Summary  
This chapter covers how to group tabular data by multiple columns using pandas’ groupby method with a list of keys, showing that the order of columns defines a hierarchical (multi-level) index and that you can apply aggregations (sum, mean, count, etc.) on those groups.

General domain of usage  
Flight delay analysis

Laten we wat extra informatie toevoegen over de `.groupby()`-methode. Je kunt groeperen op meerdere kolommen, maar de volgorde is in dit geval cruciaal. In het vorige hoofdstuk groepeerden we gegevens op vluchtnummer en telden we het aantal vertragingen. We kunnen deze taak ingewikkelder maken door niet alleen te groeperen op de kolom `'Flight'`, maar ook op de kolom `'Airline'`. Bekijk de informatie over de dataset opnieuw en bekijk vervolgens dit eenvoudige voorbeeld (de uitvoer bevat alleen de eerste 10 rijen):

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
print(data_flights.head(10))

**Uitleg:**

```python
data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
```
- `data[['Flight', 'Delay', 'Airline']]` - kolommen waarmee je werkt, inclusief de kolommen waarop je groepeert;
- `.groupby(['Flight', 'Airline'])` - hier zijn `'Flight'` en `'Airline'` argumenten van de functie `.groupby()`.  

Let op: als je op meerdere kolommen wilt groeperen, plaats ze dan in een lijst - de volgorde is cruciaal. Dus in ons geval, als rijen in de dataset dezelfde waarde hebben in de kolom `'Flight'`, behoren ze tot één groep. Vervolgens zoekt de functie binnen die groepen naar andere groepen voor rijen met dezelfde waarde in de kolom `'Airline'`. Door de methode `.count()`, die de rijen telt, berekent onze functie het aantal rijen in de kolom `'Delay'` die dezelfde waarde hebben in de kolom `'Airline'` voor elke `'Flight'`-groep.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_strict(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ DataFrame Ð· ÑÑÐ°ÑÑÐ²Ð°Ð½Ð½ÑÐ¼ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº ÑÐ° ÑÐ½Ð´ÐµÐºÑÑ."""
    try:
        return df1.equals(df2)
    except Exception:
        return False


class TestGroupData(unittest.TestCase):
    def test_grouping_average(self):
        """
        1. Group data by 'AirportFrom' and 'DayOfWeek', calculate mean of 'Time'.
        """
        import user_code

        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ð¸Ð¹ DataFrame
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane",
            index_col=0,
        )

        # ÐÑÐ°Ð»Ð¾Ð½Ð½Ðµ ÑÑÑÐµÐ½Ð½Ñ
        ref = df[["AirportFrom", "DayOfWeek", "Time"]].groupby(["AirportFrom", "DayOfWeek"]).mean()

        condition = (
            hasattr(user_code, "data_flights")
            and isinstance(user_code.data_flights, pd.DataFrame)
            and frames_equal_strict(user_code.data_flights, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The data is correctly grouped by 'AirportFrom' and 'DayOfWeek' with mean 'Time' calculated.",
            "The grouping or averaging is incorrect. Check the columns order and groupby parameters."
        )


class TestOutput(unittest.TestCase):
    def test_output_head_10(self):
        """
        2. Output the first 10 rows of the grouped DataFrame using .head(10).
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The first 10 rows of 'data_flights' are printed correctly using .head(10).",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Deze cursus bevat veel nuttige functies voor een toekomstige data-analist. Je leert verschillende manieren om data te extraheren en er zelfs voorwaarden op toe te passen. Daarna raak je vertrouwd met methoden voor het groeperen van data. Ook leer je hoe je data kunt preprocessen. Elke sectie heeft zijn eigen dataset, waardoor de cursus boeiend blijft.

In deze sectie leer je hoe je specifieke kolommen kunt weergeven op basis van hun titels of indexen. Ook maak je kennis met de manieren waarop je rijen kunt selecteren op basis van indexen.

Hier leert u hoe u gegevens extraheert die aan specifieke voorwaarden voldoen. Ook leert u hoe u deze kunt combineren en zelfs uw eigen voorwaarden kunt creëren.

In deze sectie breidt u uw kennis uit over het instellen van verschillende datacondities. U leert controleren of uw gegevens zich in een gedefinieerde lijst met waarden bevinden of tussen twee waarden liggen. U leert ook hoe u de grootste en kleinste waarden kunt vinden.

Deze sectie is een van de meest fascinerende van de cursus. Hier leert u hoe u gegevens op verschillende manieren kunt groeperen. Dit zal u helpen als data-analist om informatie te vinden over specifieke datagroepen.

Deze sectie is een van de belangrijkste voor een data-analist, omdat het onmogelijk zal zijn om met de gegevens te werken als deze ontbrekende waarden of een onjuist formaat bevatten. Daarom leer je hier hoe je met dergelijke ongeschikte waarden omgaat.

Groeperen op Meerdere Kolommen

Oplossing