Summary
This chapter explains how to convert categorical variables into binary dummy features using pandas’ get_dummies function.

General domain of usage
Data preprocessing for machine learning

In this video, you will learn how to manage categorical variables in pandas using the Titanic dataset. Discover what categorical variables are and why they matter in data preprocessing. See how the pandas `.get_dummies()` function transforms columns like `'Sex'` and `'Embarked'` into dummy variables, making them suitable for analysis and machine learning. Follow along with practical examples as you convert these columns and interpret the resulting data, understanding how each category is represented by a new column with values of `1` or `0`. By the end, you will know how to efficiently handle categorical data using pandas and apply these techniques to your own datasets.

Ora lavorerai con il set di dati che non contiene valori mancanti. I valori `NaN` della colonna `'Age'` sono stati sostituiti con la **media** della colonna, e il valore `NaN` della colonna `'Fare'` è stato eliminato.
Quindi, ora è il momento di imparare a gestire le variabili categoriche. Categoriale significa che hanno alcune categorie. Ad esempio, nella colonna `'Sex'` ci sono `'male'` e `'female'`; oppure nella colonna `'Embarked'` ci sono `'Q'`, `'S'` e `'C'`.

**Cosa bisogna fare per calcolare il numero di valori in ogni categoria o per ottenere informazioni su di essi?**

Conosci già `.loc[]`, `.isin()`, `.between()` e molte altre funzioni, ma in pandas esiste un modo più elegante e comodo per farlo. Usa la funzione `.get_dummies()`. Come esempio, la applicheremo alla colonna `'Embarked'`. Osserva l'implementazione e il risultato (verranno mostrati i nomi di 5 passeggeri scelti a caso e le nuove colonne create).

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Analizziamo uno dei possibili output, in particolare una delle possibili combinazioni di **cinque righe selezionate casualmente**. Puoi scorrere orizzontalmente la tabella per visualizzare tutte le colonne:



**Spiegazione:**

Di conseguenza, la nostra funzione ha suddiviso la colonna `'Embarked'` in tre colonne: `'Embarked_C'`, `'Embarked_Q'` e `'Embarked_S'`. In totale, abbiamo tre categorie. Ogni passeggero ha la propria categoria nella colonna `'Embarked'`. Pertanto, la nostra funzione crea tre colonne corrispondenti a ciascuna categoria e, in corrispondenza di ogni passeggero, riempie la riga della colonna con `1` se la persona era inizialmente associata a quella geografia; altrimenti, inserisce `0`. In questo modo, otteniamo `1` in una sola colonna.

```python
pd.get_dummies(data, columns = ['Embarked'])
```
- `pd.get_dummies()` - questa funzione converte le variabili **categoriche** in variabili **dummy** (1 o 0);
- `data` - il data frame che si desidera utilizzare;
- `columns = ['Embarked']` - colonne che contengono variabili categoriche da trasformare in variabili dummy. Attenzione: è **obbligatorio** inserire i nomi delle colonne all'interno di una lista.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDummyVariables(unittest.TestCase):
    def test_dummies_created_and_sums_correct(self):
        """
        1. Check that 'Sex' column was converted to dummy variables and sums are correct.
        """
        import user_code

        # reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv"
        df_ref = pd.read_csv(url, index_col=0)
        dummies_ref = pd.get_dummies(df_ref, columns=["Sex"])
        ref_sum_male = dummies_ref["Sex_male"].sum()
        ref_sum_female = dummies_ref["Sex_female"].sum()

        # user result
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        # check dummy columns exist and sums match
        condition = (
            "Sex_male" in df_user.columns
            and "Sex_female" in df_user.columns
            and abs(df_user["Sex_male"].sum() - ref_sum_male) < 1e-9
            and abs(df_user["Sex_female"].sum() - ref_sum_female) < 1e-9
        )

        _dynamic_test(
            self,
            condition,
            "The dummy variables 'Sex_male' and 'Sex_female' were created correctly and their sums are accurate.",
            "The dummy variable transformation or the calculated sums are incorrect."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        2. Check that both sums are printed in the output.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.sex_male, user_code.sex_female)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        # make sure both values appear in output
        parts = output_text.split()
        condition = len(parts) >= 2
        _dynamic_test(
            self,
            condition,
            "The sums of dummy variables are printed correctly.",
            "The output is missing or incorrect. Ensure you print both values: sex_male and sex_female."
        )


if __name__ == "__main__":
    unittest.main()

test_code.py

Questo corso contiene molte funzioni utili per un futuro data analyst. Imparerai diversi modi per estrarre dati e persino impostare condizioni su di essi. Successivamente, conoscerai i metodi di raggruppamento dei dati. Inoltre, apprenderai come preprocessare i dati. Ogni sezione ha il proprio set di dati, rendendo il corso coinvolgente.

Questa sezione ti insegnerà come visualizzare colonne specifiche in base ai loro titoli o indici. Inoltre, verranno illustrate le modalità per selezionare le righe tramite gli indici.

Qui imparerai come estrarre dati che soddisfano condizioni specifiche. Inoltre, imparerai come combinarle e persino crearne di proprie.

In questa sezione, amplierai le tue conoscenze sull'impostazione di diverse condizioni sui dati. Imparerai a verificare se i tuoi dati sono presenti in un elenco definito di valori o compresi tra due valori. Imparerai anche come trovare i valori più grandi e più piccoli.

Questa sezione è una delle più affascinanti del corso. Qui imparerai come raggruppare i dati in diversi modi. Ti aiuterà a lavorare come data analyst per individuare informazioni su specifici gruppi di dati.

Questa sezione è una delle più significative per un data analyst perché, se i dati contengono valori mancanti o in un formato errato, sarà impossibile lavorarci. Pertanto, qui imparerai come gestire tali valori inappropriati.

Gestione delle variabili categoriche

Soluzione