Summary
This chapter explains how to convert categorical variables into binary dummy features using pandas’ get_dummies function.

General domain of usage
Data preprocessing for machine learning

In this video, you will learn how to manage categorical variables in pandas using the Titanic dataset. Discover what categorical variables are and why they matter in data preprocessing. See how the pandas `.get_dummies()` function transforms columns like `'Sex'` and `'Embarked'` into dummy variables, making them suitable for analysis and machine learning. Follow along with practical examples as you convert these columns and interpret the resulting data, understanding how each category is represented by a new column with values of `1` or `0`. By the end, you will know how to efficiently handle categorical data using pandas and apply these techniques to your own datasets.

これから、欠損値を含まないデータセットを扱います。`NaN`列の`'Age'`値は、その列の**平均値**で置き換えられ、`NaN`列の`'Fare'`値は削除されました。
次に、カテゴリ変数の管理方法について学びます。カテゴリ変数とは、いくつかのカテゴリを持つ変数のことです。例えば、`'Sex'`列には`'male'`と`'female'`があり、`'Embarked'`列には`'Q'`、`'S'`、`'C'`があります。

**各カテゴリの値の数を計算したり、それらの情報を調べたりするにはどうすればよいでしょうか？**

すでに`.loc[]`、`.isin()`、`.between()`など多くの関数を知っていますが、pandasにはこれをより簡単かつ便利に行う方法があります。それが`.get_dummies()`関数です。例として、`'Embarked'`列に適用してみます。実装例とその結果（ランダムに選ばれた5人の乗客の名前と新しく作成された列）を見てみましょう。

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0)
data = pd.get_dummies(data, columns = ['Embarked'])
print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))

可能な出力例の一つ、特に**ランダムに選ばれた5行**の組み合わせを見てみましょう。表は横にスクロールしてすべての列を確認できます。



**説明：**

この結果、関数は列 `'Embarked'` を `'Embarked_C'`、`'Embarked_Q'`、`'Embarked_S'` の3つの列に分割します。合計で3つのカテゴリがあります。各乗客は `'Embarked'` 列に自分のカテゴリを持っています。そのため、関数は各カテゴリに対応する3つの列を作成し、各乗客に対して、該当する地理に関連していればその列に `1` を、そうでなければ `0` を入力します。したがって、`1` は1つの列のみに入ります。

```python
pd.get_dummies(data, columns = ['Embarked'])
```
- `pd.get_dummies()` - この関数は**カテゴリ変数**を**ダミー変数**（1または0）に変換します。
- `data` - 使用するデータフレーム。
- `columns = ['Embarked']` - ダミー変数に変換したいカテゴリ変数を含む列。列名は必ずリストに入れる必要があります。

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


class TestDummyVariables(unittest.TestCase):
    def test_dummies_created_and_sums_correct(self):
        """
        1. Check that 'Sex' column was converted to dummy variables and sums are correct.
        """
        import user_code

        # reference dataset
        url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv"
        df_ref = pd.read_csv(url, index_col=0)
        dummies_ref = pd.get_dummies(df_ref, columns=["Sex"])
        ref_sum_male = dummies_ref["Sex_male"].sum()
        ref_sum_female = dummies_ref["Sex_female"].sum()

        # user result
        assert hasattr(user_code, "data"), "Variable 'data' not found."
        df_user = user_code.data

        # check dummy columns exist and sums match
        condition = (
            "Sex_male" in df_user.columns
            and "Sex_female" in df_user.columns
            and abs(df_user["Sex_male"].sum() - ref_sum_male) < 1e-9
            and abs(df_user["Sex_female"].sum() - ref_sum_female) < 1e-9
        )

        _dynamic_test(
            self,
            condition,
            "The dummy variables 'Sex_male' and 'Sex_female' were created correctly and their sums are accurate.",
            "The dummy variable transformation or the calculated sums are incorrect."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        2. Check that both sums are printed in the output.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.sex_male, user_code.sex_female)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        # make sure both values appear in output
        parts = output_text.split()
        condition = len(parts) >= 2
        _dynamic_test(
            self,
            condition,
            "The sums of dummy variables are printed correctly.",
            "The output is missing or incorrect. Ensure you print both values: sex_male and sex_female."
        )


if __name__ == "__main__":
    unittest.main()

test_code.py

このコースは、将来のデータアナリストのために多くの有用な関数を含んでいます。さまざまなデータ抽出方法を学び、条件を設定することもできます。その後、データのグループ化手法に精通することができます。また、データの前処理方法も学びます。各セクションには独自のデータセットが用意されているため、コースは魅力的なものとなっています。

このセクションでは、タイトルやインデックスによって特定の列を出力する方法を学びます。また、インデックスによって行を選択する方法についても理解を深めます。

ここでは、特定の条件を持つデータを抽出する方法を学びます。また、それらを組み合わせたり、自分自身で条件を作成したりする方法も学びます。

このセクションでは、さまざまなデータ条件の設定に関する知識を深めます。データが定義された値のリストに含まれているか、または2つの値の間にあるかを確認する方法を学びます。また、最大値と最小値を見つける方法についても学びます。

このセクションはコースの中でも特に興味深い内容の一つです。ここでは、データをさまざまな方法でグループ化する方法を学びます。特定のデータグループに関する情報を見つけるために、データアナリストとして役立つスキルを身につけることができます。

このセクションはデータアナリストにとって最も重要なものの一つです。なぜなら、データに不適切な形式の欠損値が含まれている場合、作業が不可能になるためです。したがって、ここではそのような不適切な値への対処方法を学びます。

カテゴリ変数の管理

解答