Summary
This chapter explains how to convert categorical variables into binary dummy features using pandas’ get_dummies function.

General domain of usage
Data preprocessing for machine learning

In this video, you will learn how to manage categorical variables in pandas using the Titanic dataset. Discover what categorical variables are and why they matter in data preprocessing. See how the pandas `.get_dummies()` function transforms columns like `'Sex'` and `'Embarked'` into dummy variables, making them suitable for analysis and machine learning. Follow along with practical examples as you convert these columns and interpret the resulting data, understanding how each category is represented by a new column with values of `1` or `0`. By the end, you will know how to efficiently handle categorical data using pandas and apply these techniques to your own datasets.

Nyt työskentelet tietojoukon kanssa, jossa ei ole puuttuvia arvoja. Sarakkeen `NaN` `'Age'`-arvot korvattiin sarakkeen **keskiarvolla**, ja sarakkeen `NaN` `'Fare'`-arvo poistettiin.
Nyt on aika oppia, miten kategorisia muuttujia käsitellään. Kategorinen tarkoittaa, että muuttujalla on joitakin luokkia. Esimerkiksi sarakkeessa `'Sex'` on `'male'` ja `'female'`; tai sarakkeessa `'Embarked'` on `'Q'`, `'S'` ja `'C'`.

**Miten voimme laskea arvojen määrän kussakin kategoriassa tai saada niistä tietoa?**

Tunnet jo funktiot `.loc[]`, `.isin()`, `.between()` ja monia muita, mutta pandas-kirjastossa on vieläkin kätevämpi tapa tehdä tämä. Käytä funktiota `.get_dummies()`. Esimerkkinä sovellamme sitä sarakkeeseen `'Embarked'`. Katso toteutus ja tulos (tulostamme viiden satunnaisen matkustajan nimet ja uudet luodut sarakkeet).

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

Tarkastellaan yhtä mahdollisista tuloksista, eli yhtä mahdollista **viiden satunnaisesti valitun rivin yhdistelmää**. Voit vierittää taulukkoa vaakasuunnassa nähdäksesi kaikki sarakkeet:



**Selitys:**

Tämän seurauksena funktiomme jakoi sarakkeen `'Embarked'` kolmeen sarakkeeseen: `'Embarked_C'`, `'Embarked_Q'` ja `'Embarked_S'`. Yhteensä meillä on kolme kategoriaa. Jokaisella matkustajalla on oma kategoriansa `'Embarked'`-sarakkeessa. Näin ollen funktiomme luo kolme saraketta, jotka vastaavat kutakin kategoriaa, ja jokaisen matkustajan kohdalla se täyttää sarakkeen rivin arvolla `1`, jos henkilö kuului alun perin kyseiseen maantieteelliseen alueeseen; muuten arvo on `0`. Näin ollen saamme arvon `1` vain yhteen sarakkeeseen.

```python
pd.get_dummies(data, columns = ['Embarked'])
```
- `pd.get_dummies()` – tämä funktio muuntaa **kategoriset** muuttujat **dummy**-muuttujiksi (1 tai 0);
- `data` – tietokehys, jota haluat käyttää;
- `columns = ['Embarked']` – sarakkeet, joissa on kategorisia muuttujia, jotka haluat muuntaa dummy-muotoon. Huomaa, että sarakenimet on **pakollista** laittaa listaan.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDummyVariables(unittest.TestCase):
    def test_dummies_created_and_sums_correct(self):
        """
        1. Check that 'Sex' column was converted to dummy variables and sums are correct.
        """
        import user_code

        # reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv"
        df_ref = pd.read_csv(url, index_col=0)
        dummies_ref = pd.get_dummies(df_ref, columns=["Sex"])
        ref_sum_male = dummies_ref["Sex_male"].sum()
        ref_sum_female = dummies_ref["Sex_female"].sum()

        # user result
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        # check dummy columns exist and sums match
        condition = (
            "Sex_male" in df_user.columns
            and "Sex_female" in df_user.columns
            and abs(df_user["Sex_male"].sum() - ref_sum_male) < 1e-9
            and abs(df_user["Sex_female"].sum() - ref_sum_female) < 1e-9
        )

        _dynamic_test(
            self,
            condition,
            "The dummy variables 'Sex_male' and 'Sex_female' were created correctly and their sums are accurate.",
            "The dummy variable transformation or the calculated sums are incorrect."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        2. Check that both sums are printed in the output.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.sex_male, user_code.sex_female)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        # make sure both values appear in output
        parts = output_text.split()
        condition = len(parts) >= 2
        _dynamic_test(
            self,
            condition,
            "The sums of dummy variables are printed correctly.",
            "The output is missing or incorrect. Ensure you print both values: sex_male and sex_female."
        )


if __name__ == "__main__":
    unittest.main()

test_code.py

Tämä kurssi sisältää runsaasti hyödyllisiä toimintoja tulevalle data-analyytikolle. Opit erilaisia tapoja tietojen poimimiseen ja voit jopa asettaa niille ehtoja. Tämän jälkeen tulet tutuksi tietojen ryhmittelymenetelmien kanssa. Lisäksi opit, kuinka esikäsitellä tietoja. Jokaisessa osiossa on oma tietoaineistonsa, joten kurssi on mukaansatempaava.

Tässä osiossa opit, kuinka voit tulostaa tiettyjä sarakkeita niiden nimien tai indeksien perusteella. Lisäksi tutustut tapoihin, joilla voit valita rivejä indeksien avulla.

Tässä opit, kuinka voit poimia dataa, jolla on tietyt ehdot. Opit myös, kuinka yhdistää näitä ehtoja ja jopa luoda omia ehtoja.

Tässä osiossa laajennat tietämystäsi erilaisten datan ehtojen asettamisesta. Opit tarkistamaan, onko datasi määritellyssä arvolistassa tai kahden arvon välillä. Opit myös löytämään suurimmat ja pienimmät arvot.

Tämä osio on yksi kurssin kiehtovimmista. Tässä opit ryhmittelemään dataa eri tavoilla. Tämä auttaa sinua työskentelemään data-analyytikkona ja löytämään tietoa tietyistä dataryhmistä.

Tämä osio on yksi tärkeimmistä data-analyytikolle, koska jos data sisältää puuttuvia arvoja tai on väärässä muodossa, sen kanssa työskentely on mahdotonta. Tässä opit käsittelemään tällaisia sopimattomia arvoja.

Kategoristen Muuttujien Hallinta

Ratkaisu