Summary  
This chapter covers how to group tabular data by multiple columns using pandas’ groupby method with a list of keys, showing that the order of columns defines a hierarchical (multi-level) index and that you can apply aggregations (sum, mean, count, etc.) on those groups.

General domain of usage  
Flight delay analysis

Watch this video for a hands-on demonstration of grouping by several columns in pandas. You'll see how to group by both 'Flight' and 'Airline' to count delays, as well as how to group by 'AirportFrom' and 'DayOfWeek' to calculate the average flight time. Visual walkthroughs will help you understand the importance of column order and how aggregation works in multi-column groupings.

Zusätzliche Informationen zur Methode `.groupby()`. Gruppierungen können nach mehreren Spalten erfolgen, wobei die Reihenfolge hierbei entscheidend ist. Im vorherigen Kapitel wurden die Daten nach der Flugnummer gruppiert und die Anzahl der Verspätungen gezählt. Diese Aufgabe lässt sich erweitern, indem nicht nur nach der Spalte `'Flight'`, sondern auch nach der Spalte `'Airline'` gruppiert wird. Überprüfen Sie die Informationen zum Datensatz und betrachten Sie dann dieses einfache Beispiel (die Ausgabe enthält nur die ersten 10 Zeilen):

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
print(data_flights.head(10))

**Erläuterung:**

```python
data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
```
- `data[['Flight', 'Delay', 'Airline']]` – Spalten, mit denen gearbeitet wird, einschließlich der Spalten, nach denen gruppiert wird;
- `.groupby(['Flight', 'Airline'])` – hier sind `'Flight'` und `'Airline'` die Argumente der Funktion `.groupby()`.  

Beachten Sie: Wenn nach mehreren Spalten gruppiert werden soll, müssen diese in eine Liste gesetzt werden – die Reihenfolge ist entscheidend. In diesem Fall werden Zeilen mit demselben Wert in der Spalte `'Flight'` zu einer Gruppe zusammengefasst. Innerhalb dieser Gruppen sucht die Funktion dann nach weiteren Gruppen für Zeilen mit demselben Wert in der Spalte `'Airline'`. Durch die Methode `.count()`, die die Zeilen zählt, berechnet die Funktion die Anzahl der Zeilen in der Spalte `'Delay'`, die für jede `'Airline'`-Gruppe denselben Wert in der Spalte `'Flight'` aufweisen.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_strict(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ DataFrame Ð· ÑÑÐ°ÑÑÐ²Ð°Ð½Ð½ÑÐ¼ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº ÑÐ° ÑÐ½Ð´ÐµÐºÑÑ."""
    try:
        return df1.equals(df2)
    except Exception:
        return False


class TestGroupData(unittest.TestCase):
    def test_grouping_average(self):
        """
        1. Group data by 'AirportFrom' and 'DayOfWeek', calculate mean of 'Time'.
        """
        import user_code

        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ð¸Ð¹ DataFrame
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane",
            index_col=0,
        )

        # ÐÑÐ°Ð»Ð¾Ð½Ð½Ðµ ÑÑÑÐµÐ½Ð½Ñ
        ref = df[["AirportFrom", "DayOfWeek", "Time"]].groupby(["AirportFrom", "DayOfWeek"]).mean()

        condition = (
            hasattr(user_code, "data_flights")
            and isinstance(user_code.data_flights, pd.DataFrame)
            and frames_equal_strict(user_code.data_flights, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The data is correctly grouped by 'AirportFrom' and 'DayOfWeek' with mean 'Time' calculated.",
            "The grouping or averaging is incorrect. Check the columns order and groupby parameters."
        )


class TestOutput(unittest.TestCase):
    def test_output_head_10(self):
        """
        2. Output the first 10 rows of the grouped DataFrame using .head(10).
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The first 10 rows of 'data_flights' are printed correctly using .head(10).",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Dieser Kurs enthält viele nützliche Funktionen für angehende Data Analysts. Sie lernen verschiedene Methoden zur Extraktion von Daten kennen und können sogar Bedingungen darauf anwenden. Anschließend werden Sie mit Methoden zur Gruppierung von Daten vertraut gemacht. Außerdem lernen Sie, wie man Daten vorverarbeitet. Jeder Abschnitt verfügt über einen eigenen Datensatz, sodass der Kurs spannend bleibt.

In diesem Abschnitt lernen Sie, wie Sie bestimmte Spalten anhand ihrer Titel oder Indizes ausgeben. Außerdem machen Sie sich mit den Methoden vertraut, mit denen Sie Zeilen anhand von Indizes auswählen können.

Hier lernen Sie, wie man Daten extrahiert, die bestimmte Bedingungen erfüllen. Außerdem lernen Sie, wie man diese kombiniert und sogar eigene Bedingungen erstellt.

In diesem Abschnitt erweitern Sie Ihr Wissen über das Festlegen verschiedener Datenbedingungen. Sie lernen, zu überprüfen, ob Ihre Daten in einer definierten Werteliste oder zwischen zwei Werten liegen. Sie erfahren außerdem, wie Sie die größten und kleinsten Werte finden.

Dieser Abschnitt ist einer der faszinierendsten des Kurses. Hier lernen Sie, wie Sie Daten auf verschiedene Arten gruppieren können. Dies wird Ihnen als Data Analyst helfen, Informationen über bestimmte Datengruppen zu ermitteln.

Dieser Abschnitt ist einer der wichtigsten für Datenanalysten, da es unmöglich ist, mit Daten zu arbeiten, wenn sie fehlende Werte oder ein falsches Format enthalten. Daher lernen Sie hier, wie man mit solchen ungeeigneten Werten umgeht.

Gruppierung nach mehreren Spalten

Lösung