Summary
This chapter explains how to convert categorical variables into binary dummy features using pandas’ get_dummies function.

General domain of usage
Data preprocessing for machine learning

In this video, you will learn how to manage categorical variables in pandas using the Titanic dataset. Discover what categorical variables are and why they matter in data preprocessing. See how the pandas `.get_dummies()` function transforms columns like `'Sex'` and `'Embarked'` into dummy variables, making them suitable for analysis and machine learning. Follow along with practical examples as you convert these columns and interpret the resulting data, understanding how each category is represented by a new column with values of `1` or `0`. By the end, you will know how to efficiently handle categorical data using pandas and apply these techniques to your own datasets.

Agora, você irá trabalhar com o conjunto de dados que não contém valores ausentes. Os valores `NaN` da coluna `'Age'` foram substituídos pela **média** da coluna, e o valor `NaN` da coluna `'Fare'` foi removido.
Portanto, agora é hora de aprender como gerenciar variáveis categóricas. Categórico significa que possuem algumas categorias. Por exemplo, na coluna `'Sex'`, há `'male'` e `'female'`; ou na coluna `'Embarked'`, há `'Q'`, `'S'` e `'C'`.

**O que devemos fazer para calcular o número de valores em cada categoria ou obter informações sobre elas?**

Você já conhece `.loc[]`, `.isin()`, `.between()` e várias funções, mas no pandas existe uma forma mais elegante e conveniente de fazer isso. Use a função `.get_dummies()`. Como exemplo, vamos aplicá-la à coluna `'Embarked'`. Veja a implementação e o resultado (iremos exibir os nomes de 5 passageiros aleatórios e as novas colunas que criamos).

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Vamos analisar um dos possíveis resultados, especificamente uma das possíveis combinações de **cinco linhas selecionadas aleatoriamente**. Você pode rolar horizontalmente a tabela para visualizar todas as colunas:



**Explicação:**

Como resultado, nossa função dividiu a coluna `'Embarked'` em três colunas: `'Embarked_C'`, `'Embarked_Q'` e `'Embarked_S'`. No total, temos três categorias. Cada passageiro possui sua categoria na coluna `'Embarked'`. Assim, nossa função cria três colunas correspondentes a cada categoria e, para cada passageiro, preenche a linha da coluna com `1` se a pessoa estava inicialmente relacionada àquela geografia; caso contrário, preenche com `0`. Portanto, obtemos `1` em apenas uma coluna.

```python
pd.get_dummies(data, columns = ['Embarked'])
```
- `pd.get_dummies()` - esta função converte variáveis **categóricas** em variáveis **dummy** (1 ou 0);
- `data` - o data frame que você deseja utilizar;
- `columns = ['Embarked']` - colunas que possuem variáveis categóricas que você deseja transformar em variáveis dummy. Atenção: é **obrigatório** colocar os nomes das colunas em uma lista.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDummyVariables(unittest.TestCase):
    def test_dummies_created_and_sums_correct(self):
        """
        1. Check that 'Sex' column was converted to dummy variables and sums are correct.
        """
        import user_code

        # reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv"
        df_ref = pd.read_csv(url, index_col=0)
        dummies_ref = pd.get_dummies(df_ref, columns=["Sex"])
        ref_sum_male = dummies_ref["Sex_male"].sum()
        ref_sum_female = dummies_ref["Sex_female"].sum()

        # user result
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        # check dummy columns exist and sums match
        condition = (
            "Sex_male" in df_user.columns
            and "Sex_female" in df_user.columns
            and abs(df_user["Sex_male"].sum() - ref_sum_male) < 1e-9
            and abs(df_user["Sex_female"].sum() - ref_sum_female) < 1e-9
        )

        _dynamic_test(
            self,
            condition,
            "The dummy variables 'Sex_male' and 'Sex_female' were created correctly and their sums are accurate.",
            "The dummy variable transformation or the calculated sums are incorrect."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        2. Check that both sums are printed in the output.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.sex_male, user_code.sex_female)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        # make sure both values appear in output
        parts = output_text.split()
        condition = len(parts) >= 2
        _dynamic_test(
            self,
            condition,
            "The sums of dummy variables are printed correctly.",
            "The output is missing or incorrect. Ensure you print both values: sex_male and sex_female."
        )


if __name__ == "__main__":
    unittest.main()

test_code.py

Este curso contém diversas funções úteis para um futuro analista de dados. Você aprenderá diferentes formas de extrair dados e até mesmo definir condições sobre eles. Após isso, estará familiarizado com os métodos de agrupamento de dados. Além disso, você aprenderá como pré-processar dados. Cada seção possui seu próprio conjunto de dados, tornando o curso envolvente.

Esta seção ensinará como exibir colunas específicas pelos seus títulos ou índices. Além disso, você se familiarizará com as formas de selecionar linhas por índices.

Aqui, você aprenderá como extrair dados que possuem condições específicas. Além disso, você aprenderá como combiná-las e até mesmo criar as suas próprias.

Nesta seção, você expandirá seu conhecimento sobre como definir diferentes condições de dados. Você aprenderá a verificar se seus dados estão em uma lista definida de valores ou entre dois valores. Você também aprenderá a encontrar os maiores e menores valores.

Esta seção é uma das mais fascinantes do curso. Aqui, você aprenderá como agrupar dados de diferentes maneiras. Isso ajudará no trabalho como analista de dados para obter informações sobre grupos de dados específicos.

Esta seção é uma das mais significativas para um analista de dados, pois, se os dados contiverem valores ausentes ou em formato incorreto, será impossível trabalhar com eles. Assim, você aprenderá como lidar com esses valores inadequados aqui.

Gerenciamento de Variáveis Categóricas

Solução