Summary
This chapter explains how to convert categorical variables into binary dummy features using pandas’ get_dummies function.

General domain of usage
Data preprocessing for machine learning

In this video, you will learn how to manage categorical variables in pandas using the Titanic dataset. Discover what categorical variables are and why they matter in data preprocessing. See how the pandas `.get_dummies()` function transforms columns like `'Sex'` and `'Embarked'` into dummy variables, making them suitable for analysis and machine learning. Follow along with practical examples as you convert these columns and interpret the resulting data, understanding how each category is represented by a new column with values of `1` or `0`. By the end, you will know how to efficiently handle categorical data using pandas and apply these techniques to your own datasets.

Nu skal du arbejde med datasættet, der ikke indeholder manglende værdier. `NaN`-værdierne fra kolonnen `'Age'` er blevet erstattet med **gennemsnittet** af kolonnen, og `NaN`-værdien fra kolonnen `'Fare'` er blevet slettet.
Så nu er det tid til at lære, hvordan man håndterer kategoriske variabler. Kategorisk betyder, at de har nogle kategorier. For eksempel er der i kolonnen `'Sex'` både `'male'` og `'female'`; eller i kolonnen `'Embarked'` findes der `'Q'`, `'S'` og `'C'`.

**Hvad skal vi gøre for at beregne antallet af værdier i hver kategori eller for at finde information om dem?**

Du kender allerede `.loc[]`, `.isin()`, `.between()` og mange funktioner, men i pandas findes der en mere elegant og praktisk måde at gøre dette på. Brug funktionen `.get_dummies()`. Som eksempel anvender vi den på kolonnen `'Embarked'`. Se implementeringen og resultatet (vi viser 5 tilfældige passagerers navne og de nye kolonner, vi har oprettet).

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Lad os undersøge en af de mulige outputs, specifikt en af de mulige kombinationer af **fem tilfældigt udvalgte rækker**. Du kan rulle vandret gennem tabellen for at se alle kolonnerne:



**Forklaring:**

Som resultat har vores funktion opdelt kolonnen `'Embarked'` i tre kolonner: `'Embarked_C'`, `'Embarked_Q'` og `'Embarked_S'`. I alt har vi tre kategorier. Hver passager har deres kategori i kolonnen `'Embarked'`. Derfor opretter vores funktion tre kolonner, der svarer til hver kategori, og for hver passager udfylder den rækken i kolonnen med `1`, hvis personen oprindeligt var relateret til geografien; ellers står der `0`. Dermed får vi `1` i kun én kolonne.

```python
pd.get_dummies(data, columns = ['Embarked'])
```
- `pd.get_dummies()` - denne funktion konverterer **kategoriske** variabler til **dummy**-variabler (1 eller 0);
- `data` - det data frame, du ønsker at bruge;
- `columns = ['Embarked']` - kolonner med kategoriske variabler, som du ønsker at omdanne til dummy-variabler. Bemærk, det er **obligatorisk** at sætte kolonnenavne i en liste.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDummyVariables(unittest.TestCase):
    def test_dummies_created_and_sums_correct(self):
        """
        1. Check that 'Sex' column was converted to dummy variables and sums are correct.
        """
        import user_code

        # reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv"
        df_ref = pd.read_csv(url, index_col=0)
        dummies_ref = pd.get_dummies(df_ref, columns=["Sex"])
        ref_sum_male = dummies_ref["Sex_male"].sum()
        ref_sum_female = dummies_ref["Sex_female"].sum()

        # user result
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        # check dummy columns exist and sums match
        condition = (
            "Sex_male" in df_user.columns
            and "Sex_female" in df_user.columns
            and abs(df_user["Sex_male"].sum() - ref_sum_male) < 1e-9
            and abs(df_user["Sex_female"].sum() - ref_sum_female) < 1e-9
        )

        _dynamic_test(
            self,
            condition,
            "The dummy variables 'Sex_male' and 'Sex_female' were created correctly and their sums are accurate.",
            "The dummy variable transformation or the calculated sums are incorrect."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        2. Check that both sums are printed in the output.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.sex_male, user_code.sex_female)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        # make sure both values appear in output
        parts = output_text.split()
        condition = len(parts) >= 2
        _dynamic_test(
            self,
            condition,
            "The sums of dummy variables are printed correctly.",
            "The output is missing or incorrect. Ensure you print both values: sex_male and sex_female."
        )


if __name__ == "__main__":
    unittest.main()

test_code.py

Dette kursus indeholder mange nyttige funktioner for en kommende dataanalytiker. Du vil lære forskellige måder at udtrække data på og endda sætte betingelser for dem. Herefter vil du blive fortrolig med metoder til gruppering af data. Du vil også lære, hvordan man forbehandler data. Hvert afsnit har sit eget datasæt, så kurset bliver spændende.

Dette afsnit vil lære dig, hvordan du kan udtrække specifikke kolonner ved hjælp af deres titler eller indekser. Du vil også blive introduceret til måder, hvorpå du kan vælge rækker ud fra deres indekser.

Her vil du lære, hvordan man udtrækker data, der opfylder specifikke betingelser. Du vil også lære, hvordan man kombinerer dem og endda opretter dine egne.

I dette afsnit vil du udvide din viden om at opstille forskellige datakriterier. Du vil lære at kontrollere, om dine data er i en defineret liste af værdier eller mellem to værdier. Du vil også lære, hvordan du finder de største og mindste værdier.

Dette afsnit er et af de mest fascinerende i kurset. Her vil du lære, hvordan man grupperer data på forskellige måder. Det vil hjælpe dig som dataanalytiker med at finde information om specifikke datagrupper.

Dette afsnit er et af de mest betydningsfulde for en dataanalytiker, fordi det vil være umuligt at arbejde med data, hvis de indeholder manglende dataværdier i forkert format. Derfor vil du her lære, hvordan man håndterer sådanne upassende værdier.

Håndtering af Kategoriske Variabler

Løsning