Summary  
This chapter covers how to group tabular data by multiple columns using pandas’ .groupby() with a list of keys and then apply an aggregation (like .count()) to summarize the grouped records.

General domain of usage  
Airline flight delay analysis

Lad os tilføje nogle oplysninger om metoden `.groupby()`. Du kan gruppere efter flere kolonner, men rækkefølgen er afgørende i dette tilfælde. I det forrige kapitel grupperede vi data efter flynummer og talte antallet af forsinkelser. Vi kan gøre denne opgave mere kompleks ved at gruppere ikke kun efter kolonnen `'Flight'`, men også efter kolonnen `'Airline'`. Opdater informationen om datasættet og se derefter på dette enkle eksempel (outputtet indeholder kun de første 10 rækker):

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
print(data_flights.head(10))

**Forklaring:**

```python
data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
```
- `data[['Flight', 'Delay', 'Airline']]` - kolonner, der anvendes, inklusive de kolonner, der grupperes efter;
- `.groupby(['Flight', 'Airline'])` - her er `'Flight'` og `'Airline'` argumenter til funktionen `.groupby()`.  

Bemærk, at hvis du vil gruppere efter flere kolonner, skal du placere dem i en liste – rækkefølgen er afgørende. Så i dette tilfælde, hvis rækkerne i datasættet har samme værdi i kolonnen `'Flight'`, tilhører de én gruppe. Inden for disse grupper finder funktionen yderligere grupper for rækker med samme værdi i kolonnen `'Airline'`. Derefter, på grund af metoden `.count()`, som tæller rækkerne, vil funktionen beregne antallet af rækker i kolonnen `'Delay'`, der har samme værdi i kolonnen `'Airline'` for hver `'Flight'`-gruppe.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_strict(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ DataFrame Ð· ÑÑÐ°ÑÑÐ²Ð°Ð½Ð½ÑÐ¼ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº ÑÐ° ÑÐ½Ð´ÐµÐºÑÑ."""
    try:
        return df1.equals(df2)
    except Exception:
        return False


class TestGroupData(unittest.TestCase):
    def test_grouping_average(self):
        """
        1. Group data by 'AirportFrom' and 'DayOfWeek', calculate mean of 'Time'.
        """
        import user_code

        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ð¸Ð¹ DataFrame
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane",
            index_col=0,
        )

        # ÐÑÐ°Ð»Ð¾Ð½Ð½Ðµ ÑÑÑÐµÐ½Ð½Ñ
        ref = df[["AirportFrom", "DayOfWeek", "Time"]].groupby(["AirportFrom", "DayOfWeek"]).mean()

        condition = (
            hasattr(user_code, "data_flights")
            and isinstance(user_code.data_flights, pd.DataFrame)
            and frames_equal_strict(user_code.data_flights, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The data is correctly grouped by 'AirportFrom' and 'DayOfWeek' with mean 'Time' calculated.",
            "The grouping or averaging is incorrect. Check the columns order and groupby parameters."
        )


class TestOutput(unittest.TestCase):
    def test_output_head_10(self):
        """
        2. Output the first 10 rows of the grouped DataFrame using .head(10).
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The first 10 rows of 'data_flights' are printed correctly using .head(10).",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Dette kursus indeholder mange nyttige funktioner for en kommende dataanalytiker. Du vil lære forskellige metoder til at udtrække data og endda sætte betingelser for dem. Herefter vil du blive fortrolig med metoder til gruppering af data. Du vil også lære, hvordan man forbehandler data. Hvert afsnit har sit eget datasæt, hvilket gør kurset engagerende.

Dette afsnit vil lære dig, hvordan du udtrækker specifikke kolonner ved hjælp af deres titler eller indekser. Du vil også blive introduceret til metoder til at udvælge rækker baseret på indekser.

Her vil du lære, hvordan du udtrækker data med specifikke betingelser. Du vil også lære, hvordan du kombinerer dem og endda opretter dine egne.

I dette afsnit udvider du din viden om at opstille forskellige datakriterier. Du lærer at kontrollere, om dine data er i en defineret liste af værdier eller mellem to værdier. Du lærer også, hvordan du finder de største og mindste værdier.

Dette afsnit er et af de mest fascinerende i kurset. Her lærer du, hvordan du kan gruppere data på forskellige måder. Det vil hjælpe dig som dataanalytiker med at finde information om specifikke datagrupper.

Dette afsnit er et af de mest betydningsfulde for en dataanalytiker, da det vil være umuligt at arbejde med data, hvis de indeholder manglende værdier eller er i et forkert format. Derfor vil du her lære, hvordan du håndterer sådanne uhensigtsmæssige værdier.

Gruppering Efter Flere Kolonner

Løsning