Summary
This chapter explains how to convert categorical variables into binary dummy features using pandas’ get_dummies function.

General domain of usage
Data preprocessing for machine learning

In this video, you will learn how to manage categorical variables in pandas using the Titanic dataset. Discover what categorical variables are and why they matter in data preprocessing. See how the pandas `.get_dummies()` function transforms columns like `'Sex'` and `'Embarked'` into dummy variables, making them suitable for analysis and machine learning. Follow along with practical examples as you convert these columns and interpret the resulting data, understanding how each category is represented by a new column with values of `1` or `0`. By the end, you will know how to efficiently handle categorical data using pandas and apply these techniques to your own datasets.

Nu ga je werken met de dataset die geen ontbrekende waarden bevat. De `NaN`-waarden uit de kolom `'Age'` zijn vervangen door het **gemiddelde** van de kolom, en de `NaN`-waarde uit de kolom `'Fare'` is verwijderd.
Dus, het is nu tijd om te leren hoe je categorische variabelen beheert. Categorisch betekent dat ze enkele categorieën hebben. Bijvoorbeeld, in de kolom `'Sex'` zijn er `'male'` en `'female'`; of in de kolom `'Embarked'` zijn er `'Q'`, `'S'` en `'C'`.

**Wat moeten we doen om het aantal waarden in elke categorie te berekenen of om informatie over hen te vinden?**

Je kent al `.loc[]`, `.isin()`, `.between()` en veel functies, maar in pandas is er een mooiere en handigere manier om dit te doen. Gebruik de functie `.get_dummies()`. Als voorbeeld passen we deze toe op de kolom `'Embarked'`. Bekijk de implementatie en het resultaat (we tonen de namen van 5 willekeurige passagiers en de nieuwe kolommen die we hebben aangemaakt).

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Laten we een van de mogelijke uitvoer bekijken, specifiek een van de mogelijke combinaties van **vijf willekeurig geselecteerde rijen**. Je kunt horizontaal door de tabel scrollen om alle kolommen te bekijken:



**Uitleg:**

Als resultaat heeft onze functie de kolom `'Embarked'` opgesplitst in drie kolommen: `'Embarked_C'`, `'Embarked_Q'` en `'Embarked_S'`. In totaal zijn er drie categorieën. Elke passagier heeft zijn categorie in de kolom `'Embarked'`. Onze functie maakt dus drie kolommen die overeenkomen met elke categorie, en voor elke passagier wordt in de betreffende kolom een `1` ingevuld als de persoon oorspronkelijk tot die geografie behoorde; anders wordt er een `0` ingevuld. Zo staat er slechts in één kolom een `1`.

```python
pd.get_dummies(data, columns = ['Embarked'])
```
- `pd.get_dummies()` - deze functie zet **categorische** variabelen om in **dummy**-variabelen (1 of 0);
- `data` - het data frame dat je wilt gebruiken;
- `columns = ['Embarked']` - kolommen met categorische variabelen die je wilt omzetten naar dummy-variabelen. Let op: het is **verplicht** om kolomnamen in een lijst te plaatsen.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDummyVariables(unittest.TestCase):
    def test_dummies_created_and_sums_correct(self):
        """
        1. Check that 'Sex' column was converted to dummy variables and sums are correct.
        """
        import user_code

        # reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv"
        df_ref = pd.read_csv(url, index_col=0)
        dummies_ref = pd.get_dummies(df_ref, columns=["Sex"])
        ref_sum_male = dummies_ref["Sex_male"].sum()
        ref_sum_female = dummies_ref["Sex_female"].sum()

        # user result
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        # check dummy columns exist and sums match
        condition = (
            "Sex_male" in df_user.columns
            and "Sex_female" in df_user.columns
            and abs(df_user["Sex_male"].sum() - ref_sum_male) < 1e-9
            and abs(df_user["Sex_female"].sum() - ref_sum_female) < 1e-9
        )

        _dynamic_test(
            self,
            condition,
            "The dummy variables 'Sex_male' and 'Sex_female' were created correctly and their sums are accurate.",
            "The dummy variable transformation or the calculated sums are incorrect."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        2. Check that both sums are printed in the output.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.sex_male, user_code.sex_female)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        # make sure both values appear in output
        parts = output_text.split()
        condition = len(parts) >= 2
        _dynamic_test(
            self,
            condition,
            "The sums of dummy variables are printed correctly.",
            "The output is missing or incorrect. Ensure you print both values: sex_male and sex_female."
        )


if __name__ == "__main__":
    unittest.main()

test_code.py

Deze cursus bevat veel nuttige functies voor een toekomstige data-analist. Je leert verschillende manieren om data te extraheren en er zelfs voorwaarden op toe te passen. Daarna raak je vertrouwd met methoden voor het groeperen van data. Ook leer je hoe je data kunt preprocessen. Elke sectie heeft zijn eigen dataset, waardoor de cursus boeiend blijft.

In deze sectie leer je hoe je specifieke kolommen kunt weergeven op basis van hun titels of indexen. Ook maak je kennis met de manieren waarop je rijen kunt selecteren op basis van indexen.

Hier leert u hoe u gegevens extraheert die aan specifieke voorwaarden voldoen. Ook leert u hoe u deze kunt combineren en zelfs uw eigen voorwaarden kunt creëren.

In deze sectie breidt u uw kennis uit over het instellen van verschillende datacondities. U leert controleren of uw gegevens zich in een gedefinieerde lijst met waarden bevinden of tussen twee waarden liggen. U leert ook hoe u de grootste en kleinste waarden kunt vinden.

Deze sectie is een van de meest fascinerende van de cursus. Hier leert u hoe u gegevens op verschillende manieren kunt groeperen. Dit zal u helpen als data-analist om informatie te vinden over specifieke datagroepen.

Deze sectie is een van de belangrijkste voor een data-analist, omdat het onmogelijk zal zijn om met de gegevens te werken als deze ontbrekende waarden of een onjuist formaat bevatten. Daarom leer je hier hoe je met dergelijke ongeschikte waarden omgaat.

Categorische Variabelen Beheren

Oplossing